随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。

云时代企业数据挖掘面临的挑战

挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。

多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。

异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。

SaaS应用的数据挖掘希望能够通过海量数据存储平台,引入快速并行的挖掘算法,提高数据挖掘的质量。

如何选择合理的基础架构

对于企业而言,如何将各种应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。

一直以来,商业智能系统往往基于传统的SMP架构小型机而构建。随着近年来X86平台的性能与日俱增、可用性日渐提升、扩展性飞速增长,X86平台在越来越多的市场领域开始侵蚀小型机份额,商业智能也成为X86架构向RISC小型机发起进攻的另一个战场。例如,Oracle推出的基于英特尔至强平台的Exadata数据库云服务器,通过独有的smartscan技术,以及数据处理过程下移的设计,在X86架构基础上同时提供了较高的OLAP性能(数据仓库应用)和OLTP性能。此外,IBM也推出了基于X86平台的商业智能解决方案,基于IBM独有的EX5架构服务器和XIV网格存储系统提供了不输于小型机的智能信息处理能力。

选购要点:

1、高可用性:BI的基础架构层,需要建立起数据挖掘云服务平台,而这个平台,必然是高可用性的。

从高可用性来看,需要集中解决三个方面的问题:一是数据保护,需要利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。

目前英特尔至强7500或E7合作的方案拥有诸多优势,如成本低、性能高、可靠性(RAS)高、可扩展性好等优势。在可扩展性能上,X86平台横向的向外扩展功能,即由两台以上的机器构成集群。能满足大多数企业关键应用环境的负载需求,包括对内存和CPU要求都较高的数据库、商业应用和虚拟化。进而避免传统UNIX双机方案“成本高昂,备机资源平时严重闲置浪费,主机故障切换期间用户服务被迫停顿”等诸多困境。

此外,7500一些设计已经将计划宕机时间最小化,这当中包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。

2、虚拟化:数据挖掘云服务还是要依赖于虚拟化技术,要计算资源自主分配和调度,也就是说虚拟化技术是数据挖掘云服务技术的支撑。

千万不要被概念忽悠

大数据有很多不同的使用情况。因此,企业需要根据自身业务情况采用不同的的数据挖掘平台。对于那些注重应用分析和处理要求的客户来说,有很多专门的解决方案,例如惠普Vertica,此外还有很多高性能NAS或者目标系统。

同样地,对于注重视频、安防监控、闭路电视、模拟仿真、大带宽或吞吐量的话,可以考虑惠普Ibrix、戴尔Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。

总的来说,用户可能会面对一大堆劝说你迁移到更昂贵系统的市场炒作。可能你现在的系统已经足够好的——如果可以扩展的话,厂商提供给你的并不一定可能很好地运行在你目前的环境下。

对用户而言,需要警惕各种关于大数据的炒作,他们也许想要缩小你的选择范围。除了大数据所能带来的机遇之外,还有很多不同的方面需要考虑,例如它的特性、应用、使用实例以及部署方案。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-10-18 09:45:00
运维管理 在数据中心利用混合存储
数十年来,企业数据中心的管理人员们都面临着必须不断的努力,以便有效地存储和检索他们管理的设施所收集、创建的大量信息,进而更好的服务于用户的挑战。能够以快速且最具 <详情>
2017-10-11 09:45:00
运维管理 关于数据中心正在改变的愿景:四大需要考虑的要素
现如今,传统的数据中心已经被精简的虚拟机所取代,旨在跟上当前不断增长的计算和存储资源需求。鉴于市场环境已然发生了如此天翻地覆的巨大变化,使得数据中心的某些部分可 <详情>
2017-09-22 15:10:56
市场情报 新华三:定义存储行业新常态
根据IDC报告预计,未来5年中国企业级存储市场仍将保持8.2%的年复合增长率,远高于全球-0.4%的年复合增长率。在全球市场受到云计算冲击的情况下,中国市场逆势上扬,因而成 <详情>
2017-09-11 17:45:01
市场情报 一天建成云时代“罗马城”
HUAWEI CONNECT 2017作为华为面向ICT产业的年度全球旗舰大会,汇集了上百家厂商解决方案展示,上千场峰会和论坛的交流。全球过万名ICT产业领袖汇集于此,共同探讨如何加速 <详情>
2017-09-11 11:43:00
国际资讯 Dell第二季度表现出色 传统存储业务仍然疲软
尽管在2018财年第二季度表现出色,但是传统磁盘阵列销售的疲软仍然阻碍着Dell Technologies前进的脚步。 <详情>