大数据如何获取真实 |
发布时间: 2012/9/16 23:11:39 |
企业经营大数据,往往只是包括收集大量的数据,然后寻找其模式和对其进行分析,这些是由廉价的存储,丰富的传感器和新的软件所导致的。在不到十年的时间里,这已经成为了一个价值数十亿美元的产业。在这样的一个大数据增长飞速的时期,我们很容易忽略该行业曾经在之前已探明的相关标准。直到这时,许多客户可能只是在浪费了很多的钱。 而其实,企业最重要的工作应该是要针对解决一些非常困难的问题方面训练一批核心工作人员,如先进的统计软件,以确保企业数据的质量和运营效率。在使用数据的过程中可能需要用到各种各样广泛的知识、以及各种新的管理方法,更好的工具读取企业和个人信息的隐私保障。 正在发生的数量庞大的任务是一个很好的指标,即使是炒作,大数据确实是一个大问题。不久前,一批技术人员聚集在由美国加州大学伯克利分校主办的一个名为iSchool的论坛上,谈论有关这些工作的方式。他们谈论到目前为止的进展情况,并讨论了一些好的想法和以及企业下一步的发展方向。 在某些方面,大数据的管理是涉及到各种奇怪的新的数据,如从移动电话到社会媒体的更新。这在最初很难对其进行准确的归类,而且其可以许多不同运用,从广告到流量管理。所谓非结构化数据库的选择目前在Hadoop已经很清楚了。 不同来源的数据质量仍然是一个严重的问题,需要说服各种企业和组织让别人看到数据,可能创造更有价值的共同算法。“我已经试图为了能够看到这些数据进行付费,但企业更容易决定不分享这些数据。”一家旨在持有大量在线数据的Factual公司的创始人吉尔艾尔巴茨表示。“获得数据唯一的办法就是要承担那些对他们来说是有价值的数据的交换风险。” 许多企业对于公开数据存在恐惧心理,他说,他们担心被竞争对手了解到他们的机密。艾尔巴茨先生认为,发展“de-identifiers”是一项很好的业务,可以使数据匿名,保护企业隐私和专业成本。 另一个数据改善业务是在线转移旧数据。一家称为Captricity的公司旨在利用亚马逊土耳其机器人(AmazonMechanicalTurk)服务捕获手机相机的图像,以便把旧的手写文件转换成数字数据库。该公司早期的业务来自非洲和印度的政府和慈善机构的网站,但这无法解释为什么说大多数病历是没有价值的。该公司估计,如果有人不嫌麻烦,把这些抄下来,这是一个很好的假设其是有价值的数据对方法。 还有其他企业试图把神秘的大数据纳入主流,使用易于统计的工具和新方法可视化数据,使它更容易理解。类似于ClearStory和Platfora这样的企业想让它为企业服务成为可能。Platfora首席执行官BenWerther说:“我们正处在大数据的前工业化时代。”著名的流动风向图的创造者MartinWattenberg,现在供职于谷歌,谈到了数据成果改革设计的必要性。 本文出自:亿恩科技【www.enkj.com】 |