大数据、人工智能和云计算中间的密码

  毫无疑问,Cloudera和Hadoop的关系,已经为大家所知,作为Hadoop系统的首创者组织,人们对Cloudera在数据领域的积累已经非常了解,而当云和人工智能成为2017年话题的时候,Cloudera大中华区总经理及公司副总裁凌琦也分享了他的理解和Cloudera在做的事情。

  时间的积累 AI的努力

  事实上,Cloudera作为软件平台厂商,其业务主要是针对大数据、非结构化数据的管理,对于机器学习和人工智能的支持。这样的一个平台,需要跟很多的解决方案合作伙伴一起合作,到现在为止,该公司在全国已经拥有了超过200家的合作伙伴。经历了两年的发展,Cloudera也在北京、上海、广深,都有团队,也建立了针对客户的支持体系。

  而对于机器学习和人工智能,在凌琦看来,对Cloudera而言,人工智能并不是一个新的话题,“我在读研究生的时候其中一个研究方向就是人工智能,那时候的人工智能更多是基于规则的系统,今天的人工智能和过去有所不同,主要是:第一,计算能力提升了;第二,也是更重要的一点,是有大数据的支持。通过机器学习的模型,投入大量的数据进行培训和训练,最后形成一个在实际的应用环境当中可以使用的模型。”

  机器学习时代跟过去时代的不同。第一是计算成本的降低;第二是整个数据量的增加。今天的人工智能需要大量的数据,所以在数据的准备、获取、处理以及治理方面,数据的生命周期需要很好地进行管理。有了这些数据之后,数据科学家运用各种各样的分析和人工智能的模型进行机器学习的训练和模型的验证,这是一个循环的过程、不断在改进的过程。最后,把它应用到生产环境当中去。

  应用到生产环境当中,也包括对生产环境的实时管理和运维,以及通过对生产环境当中所取得的数据的离线分析,再一次丰富数据、改变它的模型。看整个过程能够发现,如果仅仅谈到人工智能,其实很大程度上是在于机器学习和分析。

  从整个流程看,企业需要很大程度上在数据准备以及最后的运营管理部分投入。一个能够支持机器学习和人工智能的好的平台,必须要满足这些功能:各种环境下的支持,包括公有云和私有云的支持;以及良好的扩展性,即有很好的弹性;成本、以及安全性和运维的支持。从这个角度看,Cloudera的数据管理平台,实际上为人工智能提供了一个很好的运营环境。

  AI的成功突破

  正如凌琦所言,所有的人工智能、机器学习需要的数据,包括管理数据和清理数据以及长期增强这个数据平台,是能够做的事情。那么,Cloudera在AI领域里有哪些规划?在哪些方面取得了突破性进展?

  凌琦回答记者:Cloudera的业务包括三块:一是以开源为基础的软件平台,我们称为CDH;第二,专业服务;第三,培训业务。

  实际上,软件业务占Cloudera业务收入的80%甚至更多,是我们的核心部分。今天在Hadoop上的机器学习的平台,需要管理更大的数据,能够在一个完整的平台上使机器学习充分利用所有的数据,而不是一个分散的竖井式的数据对象。可以看到,我们现在整个平台所能够管理的规模越来越大,安全性越来越好。

  第二,Cloudera在机器学习上,大量使用新的分布式计算引擎Spark。Spark是现在在机器学习过程当中一个非常重要的计算引擎,当然也还有其他的一些计算引擎。Spark在Hadoop领域里面是最重要的机器学习引擎,在这个部分,Cloudera现在是最大的贡献者,同时也是最早把Spark引入到整个Hadoop平台当中,进行全面支持的厂商.

  第三,今天的很多对机器学习进行研究、应用的人当中,除了传统的数据分析师之外,还有很多数据科学家。数据分析师过去更多的是使用SQL这些描述性的语言,它能够进行一些分析,但是很多的数据科学家使用一些所他们熟悉的编程语言,比如R、Python、Scala,还有一些传统的数据科学家使用数学物理的程序库。

  那么对于使这些数据科学家受制于系统的能力、不能使用的环境,如何使他们能自由地选择熟悉的编程语言或者程序库?Cloudera开发了“数据科学工作台”(Data Science Work Bench)。在两三个月之前发布了,它可以在一个电脑上能够充分使数据科学家大量地直接使用Hadoop里面的数据,而不是像过去只取一个子集。用户可以直接使用Hadoop里面的数据。同时它又是运行在虚拟的Docker的沙箱当中,非常安全、不会破坏实际的运营环境,而且可以支持很多用户可以同时使用。每个用户都能按照自己的选择,想用R就用R,想用Python就用Python,那个工具现在已经发布了,受到很大的欢迎。

第 1 /  10 页
点击查看余下全文