谷歌大数据服务家族又添新成员:云Dataproc

2015年9月28日,谷歌云平台的大数据服务家族又添加了一位新成员——云Dataproc。据悉,目前全新的谷歌云Dataproc服务还处于测试版阶段,它能够直接在虚拟机和一个类似云数据流的完全托管服务中,管理数据处理引擎或Hadoop框架,也可以让用户在谷歌平台安排自己的数据管道。

谷歌云平台服务的高管告诉我们,Dataproc用户可以在90秒内旋转一个Hadoop集群,这个速度明显快于其他服务。谷歌对于集群中每个虚拟CPU每小时仅收取1美分。这是通常运行虚拟机和数据存储的最高成本。但正如谷歌高管所说,用户可以添加谷歌低抢占式实例集群来降低预计成本。

由于Dataproc可以快速旋转集群,所以用户能够在需要的时候建立特别的集群,因为它是受到托管的,谷歌将会对其进行管理。

谷歌高管表示:“在这个空间里,一个适合所有人的标准是不存在的。我们认为这将是对整体投资组合的一个非常重要的补充。”

因为这种服务使用的是标准的Spark和Hadoop发行版,其中有一些小调整,它能兼容几乎所有现有的Hadoop-based的产品,用户可以轻松地运用谷歌的新服务,并减少现有的工作量。

谷歌云平台高管和谷歌大数据产品经理James Malone告诉我们:谷歌之所以能够保证服务的速度,不仅是因为那些网络基础设施,还因为在建立优化的图像后成功修复了几个Spark问题。

谷歌云平台高管表示,有些人只是想要完全控制他的数据管道和处理架构,由此可能想要运行和管理自己的虚拟机。在他看来,与自己安装基础设施相比,用户应当选择Dataproc而不需要做任何实际权衡。

此外,Dataproc还集成了谷歌其他的云服务,包括BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging和Cloud Monitoring等。