VMware中国研发中心总经理任道远:业务数据湖 当敏捷遇上大数据
- 发布时间:2016-01-20 14:55:00 来源:中国广播网 责任编辑:罗伯特
2016年1月20日,2016全球大数据峰会GBDC2016在京举行。本次大会由全球大数据联盟(GBDC)、全球移动游戏联盟(GMGC)、世界O2O组织(WOO)、光合资本主办,中国互联网协会(ISC)O2O工作组、中国汽车流通协会(CADA)支持。VMware中国研发中心总经理任道远做了主题为《业务数据湖——当敏捷遇上大数据》的演讲。
以下为演讲全文:
任道远:大家上午好。今天给大家分享的是业务数据湖——当敏捷遇上大数据。我是代表VMware、EMC等等的联盟来与大家分享。我今天开始所讲的第一个话题,其实是关于软件工程以及应用开发。我们知道在软件工程里面,其实从编程语言的角度来讲,近几年我们其实没有太大的颠覆性的突破。我们知道最新的一些语言,但是比起当初从C++到Java不算很颠覆性,但是在软件工程生命周期里,我们看到了有大量的敏捷性的工具来去支持所有的软件工程的每一个环节。这里包括从一个创意到代码,然后版本的管理,程序的集成,部署,以及自动化的测试,以及今天讲的平台即服务,我们新一代容器的技术,以及这些工具它们所提供的一个紧密的反馈的路径。这些都能够大大提高软件工程的效率,以及减少问题的出现。
在2014年一个官方的统计,专门专注开发运维的流程,我们发现左边一些部署的频率失败的机会也是大大的减少。在变更流程的成功率大大的提高。同时我们对软件部署的恢复效率也有了迅猛的增长。在右边看到不管对企业的营业额,利润,还是这些企业通过敏捷开发之后,在市场上面的增长,也是非常的可观。
今天的问题当然是大数据,在我们数据工程,在我们的数据管道里怎么来去避免,在软件工程以及应用开发上面的敏捷,但是可能在数据上面还是一个瀑布式的流程。我们新一代的,数据工程里的挑战,包括在数据的取获,不止有传统的用户系统的数据,也有我们基于社交网络,基于新一代的物联网的感应器,以及实时系统的一些数据的取获。我们也会引入到要存储各种各样数据在同一个环境里方便我们去进行跨数据的分析。在分析的流程里我们可能会引入一些更先进的算法,同时我们的需求可能不止是对历史性的分析,也是对将来的一些可推测的分析。这些分析我们是希望能够很快的通过界面来去给我们的业务领域的专家来去分享。最后,可能是通过打造应用,这些数据驱动的应用来去让我们的企业能够更加敏捷的作出决定。
我们的看法是在这里面所有的问题聚焦,是在业务的产出,也就是说,怎么样能够把我们的分析的用力,能够有效的映射到我们分析的平台以及基础架构。这里面这些分析的用力,包括有客户的分析,有产品的分析,有竞争对手的分析,也有供应流的分析。在中间我们看到有不同的新一代的分析的平台和算法,当然最后还有我们的虚拟化,以及存储,计算的基础架构。
我们数据湖的解决方案有三个大的特色:
第一,统一的平台管理。在自动化的数据管理平台上面,我们可以做到是没有传统的IT的可以自动提供数据存储的环境,能够提供不同的分析处理的环境,包括新一代的Xbox,以及各种集群的环境,能够提供更好的数据的取获的环境,不管是传统的,还是新一代的移动大数据,以及实时的感应系统。最后,各种不同的数据,我们能够把这些进行有效的索引,让它们能够及时的给我们的应用展现出来。
第二,我们觉得是一个有序的数据湖,而不是一个数据混乱的沼泽或者泥泞。这里有数据驱动的存储,让我们的数据能够有效可靠。当然我们也希望从管理的角度能够控制和去审计我们的数据的使用。我们也想希望能够符合各种的法规,同时能够支持云数据的管理。
最后,所有的数据,所有的这些分析的算法,我们希望能有一个索引,这样数据的服务,分析的服务,算法的服务能够提供给新一代的应用。同时我们能够打造很好的界面,以及一些动态的应用,能够让最终的用户去使用。
最后,我们的索引希望能够尽快的把一些简单的数据上面的分析,能够给企业创造价值,从以前的几年,几个月到现在的几周,甚至是几天的时间,几个小时的时间。我们提出的解决方案,业务数据湖,除了有这三大支持的组件,我们的平台管理,我们的业务规范,以及我们数据分析的索引,当然还有我们的核心。这个核心是以大数据套件等等作为核心,同时也是支持开放数据平台,这里面包括了VMware的虚拟化,云计算的组件等等的一些产品和组件。同时在最上面我们支持一些开放分析的工具,包括SAS,或者其他的一些在行业里的优秀的算法以及软件。
在大数据的套件里面,我们看到了一些先进的算法,它们会基于PIVOTAL的大平台,可以支持大规模的接近实时的一些数据的处理。在中间这层,当然在数据的分析的前提是有一个很好的存储,以及数据处理的技术。我们也会支持Xbox等等的开源组织的技术。在DDS大数据套件它的亮点,当然是完整,以及在SQL上也是一个领先的技术,在大套件本身是一个开源的技术和产品,同时我们会提供灵活的商务的协议,来去提供一些企业它们有些特别增值的需要。PIVOTAL CLOUD FOUNDRY可以让数据师或者用户能够敏捷的打造云原生的运用,来接入我们一些分析的服务,它会更加关注于开人员有效的开发,而把运维以及一些新一代的角色能够用这个技术和平台来非常好的支持,包括对容器,以及新一代的大数据的服务,在这个平台里面都能够有很好的支持,能大量的减少开发人员在运维部署方面的一些瓶颈。PIVOTAL CLOUD FOUNDRY也是在我们大数据套件里自动的包括,它也是业界领先的开源的技术项目。同时它可以在亚马逊的公有云,我们叫基础架构即服务这样的公有云,以及私有云等等的都能够进行无缝的运行。我们做大数据和HADOOP是离不开的,它也是一个标准。VMware、EMC都是在开源的组织里,和我们生态环境里的合作伙伴一起去共同推进HADOOP以及一些大数据的技术。
最后,我们的理念,在业务数据湖上面,是能够有效的把数据分析和应用能够汇集起来,给企业创造价值。首先是在数据方面,我们需要是去存储所有的数据,这里面包括了结构化,非结构化以及不常用的离线的数据,包括了企业本身产生的数据,以及在外部产生的数据,历史的以及及时的数据。业务数据湖能对所有数据进行有效的分析,进行预测,能够有新的组合以及关联,能够用到前面一些我们的同行讲到的机器学习,人工智能,来去将我们的数据做最有效的分析。
最后,是通过数据驱动的应用,能够打造合适的东西。这个东西当然希望有一个好的界面给最终的用户用,而不是我们数据的科学家或者业务的分析师来用,而是给最终的用能来用。同时我们希望很多的分析,能够直接接入到云原生的应用,让这些云原生的应用可以更加自动的、聪明的来去把我们的分析能够作出对于最终用户更好的一个决策。
我这里也是举一个例子,大家也都知道UBER,这也是全球最大的打车的平台。当我们去用UBER的时候,在几分钟之内就有车神奇的来到我们身边。大家可能认为这个后台的系统就是很简单的将用户的需求,通过系统发布到所有的附近的汽车,然后把最近的汽车能够调度到我们的身边。假如单单是这样的话,这个系统当然也是很好的,但是它并不是非常的神奇。神奇的是UBER五将历史的数据,包括汽车司机的数据,包括用户的数据,在哪些地方,什么时间会产生什么样子的需求,什么样的峰值,然后它通过一个预测的调度,提前的把合适的汽车,以及司机放到了最有可能出现客户需求的地方。这样子大大的减少了我们等车的时间。否则我们系统会通过十分钟、十五分钟,但是UBER的目标是在三分钟之内,我们的汽车能够调度到有需求的地方去。这个神奇我觉得就是大数据和敏捷应用合在一起的一个神奇。我们VMware、EMC、Pivotal联盟,推出的业务数据湖,也是希望能将我们的大数据,实时数据,我们分析的算法,以及我们的云原生的应用,能够有效的汇集起来,把敏捷带到我们的大数据,带到我们的实时数据,同时更重要的是能够为我们的企业,为我们的合作伙伴能够创造一个更高的价值。谢谢。