《企业网D1Net》2月3日讯当我们在谈论大数据和数据仓库时,Hadoop几乎是不可避免会被提到的。

但是就像大多数大数据技术一样,Hadoop不是凭空出现的,它和这一领域的其他技术有着密切的关系。Hadoop采用map/reduce技术形成一个数据框架,在上面数据被存储并且由应用程序运行数据。它的起源可以追溯到另一种数据仓库技术:企业搜索。

企业搜索,也称为实时搜索,是一种数据存储的方法,采用了搜索的概念,适用于大量的非结构化或半结构化的数据集合,比如文档。

最完美的文件存储系统会利用某种XML或基于SGML的标记语言来保持这些文件的内容良好和有组织性。但在现实中,文件离这种理想状态有很大距离。这时候,“企业搜索”进场。

企业搜索产品——例如,Apache Lucene、ElasticSearch和Apache Solr——使用了一个被称为“facets”的概念,让你在关系数据库中可以处理文件数据。Facets基本上是倒排索引,让你在文档中找到特定的信息,比如地址或其他客户信息。

如果你有一大堆这种类型的文档需要筛选,并且需要做一些简单的数据挖掘或商业智能分析,那企业搜索是理想的。越是结构化的数据效果越好。企业搜索特别适用于处理诸如网络博客这样的文档,因为它们的结构足够统一可以实现更深层次的数据挖掘。

企业搜索和目前大肆宣传的Hadoop之间的联系在于这两种技术的创造者:道。卡廷(Doug Cutting)。卡廷目前是Hadoop 厂商Cloudera的架构设计师,在1998年把Lucene作为Java搜索引擎库。

但生活(互联网热潮)让卡廷从他的Java项目中抽身。在2000年左右,卡廷选择采用这种完美的搜索引擎库,并在SourceForge上以GPL许可开放源码。在遭受到潜在用户的强烈抗议后,卡廷之后把许可转到限制较少的LGPL协议。

当这个项目在2001年被邀请加入Apache软件基金会(ASF)时,卡廷被敦促接受这个邀请,然后Lucene就成为ASF的项目,在Apache软件许可下授权。

卡廷在Lucene上继续努力,将该技术发展成开源Nutch的搜索引擎,这是一个完整的应用程序,而不是一个类似Lucene的平台。Nutch也面向网络搜索,有很多和企业搜索一样的功能,如网页抓取、文件格式、语言检测以及句法分析。

但是,Nutch的强大也注定了它没有足够的可扩展性来搜索企业级数据集。多节点安装,甚至低至4个节点,都被证明是难以管理。Nutch对任何超过100万页的空间分配和资源管理都被证明有限制。

因此,在2008年Hadoop诞生了。Hadoop采用分布式计算技术,是Nutch可以运行的新框架。Hadoop分布式文件系统,再加上MapReduce(这两者在谷歌项目中被仿照),成为Nutch赖以运行的框架。

卡廷的Lucene不仅促进了基于MapReduce的Hadoop技术的建立,也成为其他企业搜索技术的基础。尤其ElasticSearch和Apache Solr都是企业基于Web的搜索工具,它们都利用Lucene Java库。

在企业搜索领域,这两个工具哪个更好一直有很多争论。Solr据说是速度非常快,但ElasticSearch的分布式能力意味着可以跨多个分布式资源来共享工作,从而提供相似的性能。

这项技术的演进是有趣的,但不只是从一个纯粹的圈内人立场。了解这些技术如何结合在一起,将帮助用户了解哪种解决方案更适合他们。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>
2022-12-26 09:43:37
大数据资讯 贵阳大数据交易所年度交易额突破3.59亿元
据悉,下一步,阳大数据交易所将持续完善数据流通交易产业链,强化政策扶持和数据供给,构建数据流通交易市场体系,促进数据交易规范化、 市场化,推动数据要素实现有序流 <详情>