大数据“这个词汇出现在当企业生产出了一系列的数据,包含业务关键信息,并且过于庞大以至于传统的关系数据库所无法正常处理。判定什么样数据保持非结构化状态,这取决于企业IT基础架构的规模程度,不过对于各种规模的企业而言通常都有一些信息量可以被认作是大数据。IT管理员和业务分析师的困难点不仅在于如何存储这些数据,而且还在于如何以合适地方式对其进行存储,便于分析,这最终可以导出关键业务模型和相应的深入分析。

随着IT行业持续地灌输廉价存储的优势,企业较以往拥有者更多的数据,那么在评估大数据基础架构的过程中需要深入地调查哪些因素。本篇涉及到了在容量、延迟、访问性、安全性和成本这些重要因素的评估。

大数据发展的驱动因素

除了存储比以往更多的数据,我们所面临的数据种类也变得更加繁杂。这些数据源包括互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等。除了静态的数据增长方面,事务交易也会保持一个固定的数据“增长速度”。例如飞速增长的社交信息所产生的大量交易事务和记录。不过现有的不断扩大数据集无法确保能够为业务搜索出有价值的信息。

当今的信息是一项重要的生产因素

数据业已成为了一种生产资料,就如何资本、劳动力和原始材料那样,而且也不限于某一行业内的特定应用。企业中所有部门都旨在整合比较越来越多的数据集合,致力于降低成本、提升品质、增强生产能力以及开发新产品。举例来说,对于现场产品的直接数据分析有助于提升设计。又例如企业可以通过对用户习惯的深入分析,比较整体市场的增长特性,大幅提升自己在竞争分析方面的能力。

存储发展的必要性

大数据意味着数据的增长超过了其本身的基础架构,这驱动着应对这些特殊挑战的存储、网络和计算系统进一步的发展。软件应用需求最终推动了硬件功能的发展,同时在这种情况下,大数据分析的处理过程正在影响着数据存储基础架构的发展。这对于存储和IT基础架构企业而言是一项机遇。随着结构化和非结构化数据集的持续增长,这类数据的分析方式也更为多样化,当前的存储系统设计难以应对大数据基础架构所需。存储供应商已经开始推出基于数据块和基于文件的系统来应对许多这方面的需求。以下列出了一些大数据存储基础架构的特性,这些都是源自大数据的挑战。

容量。“大”在很多时候可以理解为PB级别的数据,因此大数据基础架构当然要能够可以扩展。不过其同样必须能够简易地完成扩展,以模块化或阵列的方式为用户直接增加容量,或者至少保持系统不会宕机。横向扩展式存储由于能够满足这种需求,变得十分流行。横向扩展集群体系架构的特征是由存储节点构成,每个节点具备处理能力和可连接性,可以无缝地扩展,避免传统系统可能产生的烟囱式存储的问题。

大数据还意味着大量的文件。管理元数据文件系统的累计会降低可扩展性并影响性能,用传统的NAS系统就会在这种情况下出现问题。基于对象的存储体系架构则通过另一种方式,支持在大数据存储系统中扩展至十亿级别的文件数量,而不会产生传统文件系统中会遇到的负载问题。基于对象的存储可以在不同的地理位置进行扩展,可以在多个不同地点扩展出大型的基础架构。

延迟。大数据基础架构中或许同样会包含实时性的组件,尤其是在网页交互或金融处理事务中。存储系统必须能够应对上述问题同时保持相应的性能,因为延迟可能产生过期数据。在这一领域,横向扩展式基础架构同样能够通过应用存储节点集群,随着容量扩展的同时增强处理能力和可连接性。基于对象的存储系统可能并发数据流,更大程度上改善吞吐量。

许多大数据环境需要提供高IOPS性能,在高性能计算环境中的应用。服务器虚拟化也会驱动高IOPS的需求,就和其在传统IT环境中一样。为了满足这方面的挑战,固态存储设备可以以多种不同形式进行部署,从简单的基于服务器的缓存卡到全闪存架构的可扩展式的存储系统。

可访问性。随着企业越来越能够理解大数据分析的潜在应用,对不同数据集的对比需求会让越来越多的人员进入到数据共享之中。在创造业务价值方面,企业在寻求更多的方式来从各种平台相互参照不同的数据对象。包含全局文件系统的存储基础架构可以满足这方面的问题,因为其允许多用户,多主机的交互文件,并且支持诸多不同的,甚至是位于不同区域的后端存储系统文件共享。

安全性。财务数据,医疗信息以及政府确保都有其标准的安全性要求。虽然这些或许和当前IT管理员的职责稍有不同,大数据分析可能也需要相互参照数据,而这类数据在之前可能完全无关,这又产生了新的安全性的要求。

成本。“大”同样意味着更加昂贵。并且以许多企业今天正在运作的大数据环境规模,对于成本的考虑可能非常重要。这意味着从“每个盒子”中更有效地产出,以及更加廉价的组件。存储重复删除已经进入主存储市场,并且取决于涉及到的数据类型,这会给大数据存储系统带来一些价值。降低后端存储容量消耗,即便是几个百分点,在数据集不断增长的环境下都可以提供巨大的投资回报。自动精简配置、快照和克隆技术同样可能根据不同的数据类型,提升效率。

许多大数据存储系统都会包含归档组件,尤其是对于那些和历史趋势或者长期存储应用相关的企业。从单位成本所提供的存储容量来看,磁带仍旧是具性价比的存储媒介,并且能够支持大容量存储磁带盒的归档系统对于许多环境都已经成为了约定俗成的标准。

来自于成本方面的大影响是使用商品化的硬件。很清楚大数据基础架构无法依赖大型硬件企业传统上的转向。许多刚开始部署,或者是具有大型的大数据环境的用户自行开发了“白盒”系统,这类系统以更低的成本,以现成的商品的形式提供给用户。不过更多的存储产品现在以软件的形式出现,可以安装在现有系统,或者普通的现成硬件上。此外,许多企业正在将其软件技术以商品化的设备,或者和硬件供应商结合,提供类似的方案形式进行销售。

持续性。许多大数据应用中涉及到合规规范的要求,使得数据需要保存几年甚至几十年。医疗信息通常要保存患者的一生。财务数据一般要保存7年。不过大数据用户同样会更长地保存期数据,因为这是历史记录的一个组成部分,或者要用于以时间为基础的分析。这种长期保存的需求意味着存储供应商需要进行持续地一致性检验,并且具备其它长期的可靠性特性,以及满足数据在线升级的需要。

灵活性。因为大数据存储基础架构通常会变得十分庞大,在其设计之初就应当十分注意,以确保其能够增长,并且随着分析组件的增长而发展。数据迁移在大数据领域中已成为历史,尤其是自从数据可以在多个地点开始。大数据存储基础架构从你开始向里面写入数据的那一刻就已确定,因此其在发展过程中必需能够满足不同的应用环境和数据场景。

应用感知。有一些首次部署大数据的过程中会涉及到特定应用的基础架构,诸如为政府项目而开发的系统,或者为大型互联网服务公司所开发的白牌系统。应用感知作为改善效率和性能的一种途径,在主流存储系统中变得日益普及,并且其也是在大数据环境中应当部署的一种技术。

小型用户。随着业务需要,大数据的应用会延伸至那些小型的企业,这种企业远远小于那些存储基础架构市场部门所关联的大数据应用分析。这也不只是处于“技术狂热”或者独特的应用需求,因此大数据领域的存储供应商需要提供更小的配置,并更加关注成本效益。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>
2022-12-26 09:43:37
大数据资讯 贵阳大数据交易所年度交易额突破3.59亿元
据悉,下一步,阳大数据交易所将持续完善数据流通交易产业链,强化政策扶持和数据供给,构建数据流通交易市场体系,促进数据交易规范化、 市场化,推动数据要素实现有序流 <详情>