时下,大数据已经走出互联网行业,在金融、交通、医疗等众多传统行业得到深入应用,然而如果说高校去玩大数据,听起来似乎还是不那么“靠谱”——首先,高校很难获得真实生产数据;其次,高校也无法贴近真实的业务。基于以上等众多原因,高校很难真正地进军大数据。
时下,大数据已经走出互联网行业,在金融、交通、医疗等众多传统行业得到深入应用,然而如果说高校去玩大数据,听起来似乎还是不那么“靠谱”——首先,高校很难获得真实生产数据;其次,高校也无法贴近真实的业务。基于以上等众多原因,高校很难真正地进军大数据。然而,在近日的“AMPCamp@China大数据训练营”,笔者看到了借助Spark这个大数据计算框架,众多高校已经和企业达成技术层面的合作,似乎也获得了接触真实业务的契机。
5月底,在英特尔亚太研发有限公司的大力支持下,由UC Berkeley发起的AMPCamp首次在美国本土之外举办,落户中国,围绕Spark整个生态圈进行了深度的分享。
众所周知,Spark发源于UC Berkeley AMPLab,后由Databricks护航,当下已成为大数据领域风头最胜的开源计算框架。然而,当Michael Franklin在AMPCamp@China上秀出Berkeley当下的数据分析平台时,笔者仍然被震撼了,如图所示,整个架构中所有蓝色部分都出自AMPLab之手。在这之外,我们同样可以读出,UC Berkeley通过开源技术已经深入大数据的实践中。那么,通过开源大数据技术,其他高校,更关键的是国内高校又有什么样的发展呢?在活动上,笔者访问了英特尔大数据首席架构师戴金权、南京大学计算机科学与技术系教授、博导黄宜华以及华东师范大学计算机与技术系教授周傲英。
通过戴金权了解到,英特尔大数据研发团队是个全球性的团队,遍布中国、美国、印度等多个国家。而值得一提的是,其中80%以上的研发人员在中国。在开源社区方面,Intel投入了大量的精力,覆盖Spark、Hadoop、Hbase、Hive等众多项目,就2014年来看,英特尔在开源社区上的贡献仅次于Cloudera、HortonWorks、雅虎等,总贡献量排第四位,在不同项目上拥有23位commiter,以及大量的贡献者。
此外,英特尔从2012年开始就与AMPLab进行紧密合作,在Spark落地上投入了大量精力,贡献仅次于UC Berkeley和Databricks,在如Tachyon等Spark生态圈组件上也有较强的投入。在高校之外,英特尔与许多互联网公司达成合作,让Spark落地具体业务;更与Cloudera等知名大数据公司合作,旨在打造新一代的大数据分析解决方案。围绕着大数据开源技术,英特尔与开源社区、工业界、学术界拥有着大量合作。
专访期间,戴金权还分享了几个大家对Spark比较关注的问题:
MapReduce vs. Spark。Spark可以认为是MapReduce的超集,理论上MapReduce能做的,Spark都可以做到,所以今天越来越多的应用(特别是新的应用),都在从MapReduce的框架向Spark迁移。今天Hadoop MapReduce的最大优势是在于它的成熟度,经过了工业界长时间、在大规模集群规模和处理规模上的验证,在稳定性、运维工具等方面有比较好的支持;但是随着业界对Spark的越来越多的应用,Spark在这方面也在快速改进中。
DataFrame vs. SchemaRDD。DataFrame和SchemaRDD理论上来说并没有本质的区别,事实上在今天的实现里,SchemaRDD是DataFrame的type alias。DataFrame是从用户和Data Scientist的角度,提供对用户更加友好的接口,并为Spark里的其他模块(如ML和SparkR)提供更自然的API和抽象。DataFrame在Spark 1.3中是属于实验性质的,但随着Spark 1.4的推出,会得到更多的应用(如SparkR的接口就是基于DataFrame的)。
Tungsten。Tungsten的目标是提高Spark在现代硬件平台上的运行效率,大多数的改进会在今年(Spark 1.4、1.5、1.6)完成;如在Spark 1.4中,已经加入了对DataFrame aggregation操作和对Spark里sort based shuffle的改进。
运维。正像之前说的,Spark在运维工具等方面还有很多工作要做,包括和YARN环境更好的整合等;同时英特尔也在和一些用户一起尝试用container(Docker)来构建一些DevOps自动化的框架。
黄宜华表示,PASA实验室成立于2009年,是全国高校中最早完全从事大数据技术研究的团队,开展了一系列的技术研究和应用研究工作,有很多国家项目和省部级项目,在业界有广泛的合作,包括英特尔、谷歌,现在和微软亚洲研究院、中兴通讯、百度、中科院计算所等国内外知名的企业、研究机构都在大数据方面专门进行合作研究。近两年来,PASA更与UC Berkeley AMP实验室围绕Spark展开合作,同时也是Apache Spark和Tachyon的贡献者。此外,在2011年参与了Intel Hadoop发行版的学术研究合作。
在Spark与Tachyon方面,自2014年,PASA实验室和UC Berkeley和英特尔三方开展了新的优化和Tachyon系统功能增强的研发。在这两个方面,实验室目前大概有近20项性能优化和功能增强的研究成果和程序模块,补丁已经贡献到开源的Spark和Tachyon系统里面,在这个里面有一个比较好的成果,实验室把Tachyon第一次和Spark结合得非常紧密,解决了Spark原来基于Java性能比较低的问题,使得现在Spark的计算性能有了显著提高,这个一个比较重要的贡献。
在Tachyon工作的基础上,南大帮UC Berkeley做了Tachyon Perf——内存文件系统的性能评测工具,现在已经集成到了Tachyon系统里面。在这个工作的基础上,实验室进一步做了一个通用的,就是全球第一个通用化的分布式文件系统的评测工具,叫DFS-Perf,可对各种各样的分布式文件系统,对各种负载进行性能评测的工具。
从周傲英了解到,在2012年,华东师范大学就与SAP合作,从事内存计算相关研发,并成立了云计算和大数据研究中心,旨在促进学科交叉,实现协同创新,也打造了一个平台,为不同领域的人提供一个交流的平台。而随后,华东师范大学一直与AMPLab进行深入的交流。
专访期间,周傲英表示,推动IT发展的一直都不是IT公司。着眼大数据与云计算,其发展与互联网公司有着密不可分的关系。而在这发展的过程中,摆脱惯性思维带来的影响至关重要。短短几年,许多知名机构就完成了从小型机、企业数据库、虚拟化到商用硬件+开源技术(或自主研发)的转变,其中有些东西是大多人想都不敢想的,更是大多机构不愿意去做的。这是一个充满机遇的时代,但是相关工作者首先要做的就是去想。
在敢想之外,另一个就是应用——发展是创新驱动的,而创新很显然是追逐机构的需求。纵观当下,Hadoop、Spark、Docker等热门技术无一不是在大环境中特定的需求所催生的。最后一点就是推广,而当下开源这种方式已经被广泛的证明其有效性,关键的是,它能让更的人和各行各业的人参与进去。
最后,周傲英说道,谈大数据领域的技术,其实很多都是发展了多年的老技术,比如Deep Learning,之所以现在大红大紫,其一大部分原因还是归结到大数据全景图中的最上层——业务应用以及变现。因此,系统架构师和数据科学家是这个大数据时代最需要的两类人,这类人更多的需要计算机的知识,而且这类人更多的是需要数学的知识,但是首先都要理解应用。因此,华东师范大学希望成立这样一个学院,去理解数据科学与工程这样的学科,数据工程与工程,我们把它当成一个学科,这个学科到底有什么内涵,需要什么样的知识体系,这正是华东师范大学正在做的事情。
河南亿恩科技股份有限公司(www.enkj.com)始创于2000年,专注服务器托管租用,是国家工信部认定的综合电信服务运营商。亿恩为近五十万的用户提供服务器托管、服务器租用、机柜租用、云服务器、网站建设、网站托管等网络基础服务,另有网总管、名片侠网络推广服务,使得客户不断的获得更大的收益。
服务器/云主机 24小时售后服务电话:
0371-60135900
虚拟主机/智能建站 24小时售后服务电话:
0371-55621053
网络版权侵权举报电话:
0371-60135995
服务热线:
0371-60135900