开源大数据技术架设高校连接企业新桥梁

2015年06月26日 15点28分 来源：亿恩IDC资讯 有0人参与

云主机服务器租用服务器托管虚拟主机域名注册网站建设

时下，大数据已经走出互联网行业，在金融、交通、医疗等众多传统行业得到深入应用，然而如果说高校去玩大数据，听起来似乎还是不那么“靠谱”——首先，高校很难获得真实生产数据；其次，高校也无法贴近真实的业务。基于以上等众多原因，高校很难真正地进军大数据。

时下，大数据已经走出互联网行业，在金融、交通、医疗等众多传统行业得到深入应用，然而如果说高校去玩大数据，听起来似乎还是不那么“靠谱”——首先，高校很难获得真实生产数据；其次，高校也无法贴近真实的业务。基于以上等众多原因，高校很难真正地进军大数据。然而，在近日的“AMPCamp@China大数据训练营”，笔者看到了借助Spark这个大数据计算框架，众多高校已经和企业达成技术层面的合作，似乎也获得了接触真实业务的契机。

5月底，在英特尔亚太研发有限公司的大力支持下，由UC Berkeley发起的AMPCamp首次在美国本土之外举办，落户中国，围绕Spark整个生态圈进行了深度的分享。

众所周知，Spark发源于UC Berkeley AMPLab，后由Databricks护航，当下已成为大数据领域风头最胜的开源计算框架。然而，当Michael Franklin在AMPCamp@China上秀出Berkeley当下的数据分析平台时，笔者仍然被震撼了，如图所示，整个架构中所有蓝色部分都出自AMPLab之手。在这之外，我们同样可以读出，UC Berkeley通过开源技术已经深入大数据的实践中。那么，通过开源大数据技术，其他高校，更关键的是国内高校又有什么样的发展呢？在活动上，笔者访问了英特尔大数据首席架构师戴金权、南京大学计算机科学与技术系教授、博导黄宜华以及华东师范大学计算机与技术系教授周傲英。

通过戴金权了解到，英特尔大数据研发团队是个全球性的团队，遍布中国、美国、印度等多个国家。而值得一提的是，其中80%以上的研发人员在中国。在开源社区方面，Intel投入了大量的精力，覆盖Spark、Hadoop、Hbase、Hive等众多项目，就2014年来看，英特尔在开源社区上的贡献仅次于Cloudera、HortonWorks、雅虎等，总贡献量排第四位，在不同项目上拥有23位commiter，以及大量的贡献者。

此外，英特尔从2012年开始就与AMPLab进行紧密合作，在Spark落地上投入了大量精力，贡献仅次于UC Berkeley和Databricks，在如Tachyon等Spark生态圈组件上也有较强的投入。在高校之外，英特尔与许多互联网公司达成合作，让Spark落地具体业务；更与Cloudera等知名大数据公司合作，旨在打造新一代的大数据分析解决方案。围绕着大数据开源技术，英特尔与开源社区、工业界、学术界拥有着大量合作。

专访期间，戴金权还分享了几个大家对Spark比较关注的问题：

MapReduce vs. Spark。Spark可以认为是MapReduce的超集，理论上MapReduce能做的，Spark都可以做到，所以今天越来越多的应用（特别是新的应用），都在从MapReduce的框架向Spark迁移。今天Hadoop MapReduce的最大优势是在于它的成熟度，经过了工业界长时间、在大规模集群规模和处理规模上的验证，在稳定性、运维工具等方面有比较好的支持；但是随着业界对Spark的越来越多的应用，Spark在这方面也在快速改进中。

DataFrame vs. SchemaRDD。DataFrame和SchemaRDD理论上来说并没有本质的区别，事实上在今天的实现里，SchemaRDD是DataFrame的type alias。DataFrame是从用户和Data Scientist的角度，提供对用户更加友好的接口，并为Spark里的其他模块（如ML和SparkR）提供更自然的API和抽象。DataFrame在Spark 1.3中是属于实验性质的，但随着Spark 1.4的推出，会得到更多的应用（如SparkR的接口就是基于DataFrame的）。

Tungsten。Tungsten的目标是提高Spark在现代硬件平台上的运行效率，大多数的改进会在今年（Spark 1.4、1.5、1.6）完成；如在Spark 1.4中，已经加入了对DataFrame aggregation操作和对Spark里sort based shuffle的改进。

运维。正像之前说的，Spark在运维工具等方面还有很多工作要做，包括和YARN环境更好的整合等；同时英特尔也在和一些用户一起尝试用container（Docker）来构建一些DevOps自动化的框架。

黄宜华表示，PASA实验室成立于2009年，是全国高校中最早完全从事大数据技术研究的团队，开展了一系列的技术研究和应用研究工作，有很多国家项目和省部级项目，在业界有广泛的合作，包括英特尔、谷歌，现在和微软亚洲研究院、中兴通讯、百度、中科院计算所等国内外知名的企业、研究机构都在大数据方面专门进行合作研究。近两年来，PASA更与UC Berkeley AMP实验室围绕Spark展开合作，同时也是Apache Spark和Tachyon的贡献者。此外，在2011年参与了Intel Hadoop发行版的学术研究合作。

在Spark与Tachyon方面，自2014年，PASA实验室和UC Berkeley和英特尔三方开展了新的优化和Tachyon系统功能增强的研发。在这两个方面，实验室目前大概有近20项性能优化和功能增强的研究成果和程序模块，补丁已经贡献到开源的Spark和Tachyon系统里面，在这个里面有一个比较好的成果，实验室把Tachyon第一次和Spark结合得非常紧密，解决了Spark原来基于Java性能比较低的问题，使得现在Spark的计算性能有了显著提高，这个一个比较重要的贡献。

在Tachyon工作的基础上，南大帮UC Berkeley做了Tachyon Perf——内存文件系统的性能评测工具，现在已经集成到了Tachyon系统里面。在这个工作的基础上，实验室进一步做了一个通用的，就是全球第一个通用化的分布式文件系统的评测工具，叫DFS-Perf，可对各种各样的分布式文件系统，对各种负载进行性能评测的工具。

从周傲英了解到，在2012年，华东师范大学就与SAP合作，从事内存计算相关研发，并成立了云计算和大数据研究中心，旨在促进学科交叉，实现协同创新，也打造了一个平台，为不同领域的人提供一个交流的平台。而随后，华东师范大学一直与AMPLab进行深入的交流。

专访期间，周傲英表示，推动IT发展的一直都不是IT公司。着眼大数据与云计算，其发展与互联网公司有着密不可分的关系。而在这发展的过程中，摆脱惯性思维带来的影响至关重要。短短几年，许多知名机构就完成了从小型机、企业数据库、虚拟化到商用硬件+开源技术（或自主研发）的转变，其中有些东西是大多人想都不敢想的，更是大多机构不愿意去做的。这是一个充满机遇的时代，但是相关工作者首先要做的就是去想。

在敢想之外，另一个就是应用——发展是创新驱动的，而创新很显然是追逐机构的需求。纵观当下，Hadoop、Spark、Docker等热门技术无一不是在大环境中特定的需求所催生的。最后一点就是推广，而当下开源这种方式已经被广泛的证明其有效性，关键的是，它能让更的人和各行各业的人参与进去。

最后，周傲英说道，谈大数据领域的技术，其实很多都是发展了多年的老技术，比如Deep Learning，之所以现在大红大紫，其一大部分原因还是归结到大数据全景图中的最上层——业务应用以及变现。因此，系统架构师和数据科学家是这个大数据时代最需要的两类人，这类人更多的需要计算机的知识，而且这类人更多的是需要数学的知识，但是首先都要理解应用。因此，华东师范大学希望成立这样一个学院，去理解数据科学与工程这样的学科，数据工程与工程，我们把它当成一个学科，这个学科到底有什么内涵，需要什么样的知识体系，这正是华东师范大学正在做的事情。

河南亿恩科技股份有限公司(www.enkj.com)始创于2000年，专注服务器托管租用，是国家工信部认定的综合电信服务运营商。亿恩为近五十万的用户提供服务器托管、服务器租用、机柜租用、云服务器、网站建设、网站托管等网络基础服务，另有网总管、名片侠网络推广服务，使得客户不断的获得更大的收益。
服务器/云主机 24小时售后服务电话：0371-60135900
虚拟主机/智能建站 24小时售后服务电话：0371-55621053
网络版权侵权举报电话：0371-60135995
服务热线：0371-60135900