服务器_动物数据库_排行榜

产品 虚拟云 浏览

小编:当我们开始使用Databricks时,我们认为从大数据中提取洞察力是非常困难的,没有任何理由。你几乎需要一个高级学位才能完成任何有意义的工作。因此,每个组织中只有少数人能够从

帮助大数据民主化

当我们开始使用Databricks时,我们认为从大数据中提取洞察力是非常困难的,没有任何理由。你几乎需要一个高级学位才能完成任何有意义的工作。因此,每个组织中只有少数人能够从他们的大数据中提出问题,这些人是建立集群并知道如何使用诸如Hive和MapReduce等高级工具的人。因此,作为一个大的软件,我们将大大简化数据处理。发射后不久,我们学到了一些有趣的东西。在许多组织中,民主化的努力正在进行,越来越多的人开始使用数据链从数据中提出问题。他们不再被少数知道如何与数据对话的人所束缚。然而,由于一些组织有超过数百名用户使用Databricks,因此出现了一系列新的挑战。首先,用户希望控制对其数据的访问。其次,他们希望对多个apachespark版本进行版本控制和管理。第三,他们需要R支持。这些要求都是相互关联的。我很自豪地宣布,经过大量的努力,我们现在发布了具有所有这些特性的数据块。下面我将解释这些特性是如何产生的,以及这些特性背后的教训。随着具有不同职能的员工开始从数据中提出问题,很快就成了一个很难控制的要求,即能够控制组织中谁应该查看或修改他们的查询,这些查询可能包含非常敏感的信息,或者由于安全合规性的原因无法共享。这在大型组织中是很自然的。在我们的例子中,这一要求变得更加重要,因为我们开发了一种新的方法,数百名用户可以在同一个共享的Spark集群上使用不同的笔记本,从而为他们的组织节省了大量的成本。这在以前是不可能的,因为在这个功能之前,每个笔记本和用户都必须有一个独立的集群。通过启用这种群集共享,更重要的是你的同事不能窥探你最敏感的笔记本。Databricks现在提供了访问控制功能,允许您控制谁可以查看、谁可以运行和参数化,以及谁可以编辑和管理您的笔记本。我们是第一个为Spark提供此功能的供应商。在Databricks中设置权限从第一天开始,我们就尝试通过实时更新和评论功能等功能,使实时笔记本的协作变得非常容易。但是,随着协作开始出现,用户希望具有可审计性。谁修改了我的笔记本?我怎样才能回到以前的版本?此外,许多用户已经在使用外部版本控制系统,例如GitHub。最后,许多用户有时希望在小型实验集群上探索Spark发行版的一些新特性,但仍继续在生产集群上使用旧的Spark版本。随着他们在新Spark版本上获得了更多的经验,他们希望在新的Spark版本上重用他们的旧笔记本。因此,他们希望管理多个Spark版本,并能够轻松地在工作和笔记本之间切换。Databricks的当前版本现在提供了这些特性,用于版本控制、GitHub集成和多个Spark版本的管理。笔记本版本控制最后,随着越来越多的工作职能部门开始从数据中提出问题,我们听到了越来越多的问题,并希望使用R作为他们与数据对话的首选语言。SQL和Python已经被支持了一段时间,它们非常流行。但我们没有R的支持。这一趋势似乎非常突出,因为许多没有计算机学位的人正在大学、课堂和其他场合接受R培训。因此,我们加快了SparkR与Spark的结合,并将R作为一类语言添加到Databricks中,使我们成为第一家商业上支持SparkR的公司。R数据库中的笔记本此版本的Databricks被称为"version2.0",因为它包含了上述许多特性,这些特性使许多组织内部能够实现民主化。我在版本号周围加了引号,因为作为SaaS产品,版本的作用与传统软件不同。我们将继续保持两周的发布节奏,每一个都包含用户要求的令人兴奋的新特性。你自己试试这些功能,请告诉我们你的想法。  免费试用Databricks。今天就开始吧

文章来源:www.vmchk.com

 
你可能喜欢的: