大数据正在日渐成为主流,但我们仍然有必要从硅谷数据科学家们那里学习一些经验教训,毕竟他们的业务是依赖于业务数据而生存的。虽然它们的使用的案例并不总是符合传统行业,但他们仍然掌握了大量的科学和技术可以帮助大数据领域的新人免受许多挫折。

1、Hadoop不是万能的。现在,这应该是一条常识了,但他还是值得反复的强调。ChoozOn公司的CTO乌萨马?法耶德在强调这一点时表示,甚至连雅虎——法耶德的前雇主(他曾担任雅虎的首席数据官)也经历了惨痛的教训。他说,雅虎曾试图利用Hadoop对客户进行一些先进的细分,但却发现利用一种比较传统的数据库架构来处理这一特别的工作量的成本要少50倍。在他们意识到这一问题后,该项目最终被停止了。然后他们重新启动了nPario分析项目。目前,雅虎是一位付费的nPario客户。

nPario的无Hadoop架构

2、大数据使得数据科学更容易。我发现这一个更富有启发性的见解,这在很大程度上要归功于丹尼尔?维森塔尔,sparked.com网站的首席科学家,该网站如此清楚地界定了大数据和数据科学概念之间有时重叠的状况。他解释说,基本上,诸如支持向量机和神经网络技术是经过了时间的考验的,证明方法便是“从你的数据集中摘取每一盎司的信息,即使这些数据集很小,但技术是非常复杂的,他们难以解释,往往超出规模。”

然而,大数据让数据科学家可以使用简单的建模技术,如决策树和回归分析,得以确保了大量的数据的准确性(统计意义上的准确性)而不是采用一个超复数算法。而且,维森塔尔指出,使用Hadoop等通用的大数据技术手段,数据科学家可以更快的开发和测试模型,因为他们的基础设施不用调整到一个特定的算法或问题类型,其设计可以很好的执行大数据集。

3、“有时候了解哪些需要被干掉更为重要。”软件即服务的先驱Salesforce.com使用大数据平台以监测吸收,使用各种特性的产品。其产品主管纳拉扬?巴拉德瓦说,我们的目标不仅仅是只能预测下一代产品的新的功能。相反,他解释说,使用数据,他们可以确定什么功能没有价值,无法帮助Salesforce.com这样的公司把资源转化为更有价值的功能。“有时候,了解哪些需要被干掉更为重要。”他说。

巴拉德瓦没有针对这一点进一步解释,但下一个步骤是分析特点、功能、执行效果似乎是合乎逻辑的,而不是从设计的角度来看。

4、相关内容增加价值。换句话说,如果用户知道了他们为什么被推荐了一个特定的内容、要约或建议,他们会更容易觉察出来。作为StumbleUpon的一名高级数据科学家,他解释说,他所在的公司投入了巨资在大数据技术方面,就是为了将大多数的相关网页内容展示在每个用户面前,但他们知道期望这些用户只信任服务的判断是不够的。Sparked.com的维森塔尔在谈话中提出了类似的观点,并指出诸如Pandora和Netflix的服务之所以流行,部分原因就在于他们实际上在建议类似的内容的同时,也告诉了用户关于自己的东西。

5、交易数据胜过搜索数据。PayPal的首席科学家MokOh,讨论了从开始购买的产品搜索到结束的一连串的事件,以及它是如何变得越来越困难。当你确定信号链从一端开始,并要在其他端口工作。PayPal正试图抹掉这一差距,但是,通过从交易过程和使用其出售的其他数据(包括内部和从外部来源,如Facebook和GNIP),试图找出其真正的客户和客户真正想要的。他认为这要比谷歌试图通过搜索来跟踪用户购买行为要容易。当然,除非他们使用诸如谷歌钱包来实际购买的东西。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-16 11:52:17
国际资讯 IDC:2022年中国数据中心服务市场仍处于缓慢修复阶段
预计未来五年,中国数据中心服务市场将以18.9%的复合增速持续增长。 <详情>
2023-08-04 16:08:52
新闻动态 中国移动与青海省政府签署战略合作协议
中国移动将青海作为5G建设的重点区域,加快建设全国领先的5G和“双千兆”网络,加大数据中心和算力网络建设。 <详情>
2023-07-28 17:42:52
国内资讯 秦淮数据“加码”布局张家口 与张家口建投集团签署10年战略合作协议
本次合作协议为期10年,双方将在用地及水资源开发、能源开发、数据中心合作运营、源网荷储一体化项目开展深度合作。 <详情>