随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。

云时代企业数据挖掘面临的挑战

挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。

多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。

异构数据:Web数据的大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。

SaaS应用的数据挖掘希望能够通过海量数据存储平台,引入快速并行的挖掘算法,提高数据挖掘的质量。

如何选择合理的基础架构

对于企业而言,如何将各种应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。

一直以来,商业智能系统往往基于传统的SMP架构小型机而构建。随着近年来X86平台的性能与日俱增、可用性日渐提升、扩展性飞速增长,X86平台在越来越多的市场领域开始侵蚀小型机份额,商业智能也成为X86架构向RISC小型机发起进攻的另一个战场。例如,Oracle推出的基于英特尔至强平台的Exadata数据库云服务器,通过独有的smartscan技术,以及数据处理过程下移的设计,在X86架构基础上同时提供了较高的OLAP性能(数据仓库应用)和OLTP性能。此外,IBM也推出了基于X86平台的商业智能解决方案,基于IBM独有的EX5架构服务器和XIV网格存储系统提供了不输于小型机的智能信息处理能力。

选购要点:

1、高可用性:BI的基础架构层,需要建立起数据挖掘云服务平台,而这个平台,必然是高可用性的。

从高可用性来看,需要集中解决三个方面的问题:一是数据保护,需要利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。

目前英特尔至强7500或E7合作的方案拥有诸多优势,如成本低、性能高、可靠性(RAS)高、可扩展性好等优势。在可扩展性能上,X86平台横向的向外扩展功能,即由两台以上的机器构成集群。能满足大多数企业关键应用环境的负载需求,包括对内存和CPU要求都较高的数据库、商业应用和虚拟化。进而避免传统UNIX双机方案“成本高昂,备机资源平时严重闲置浪费,主机故障切换期间用户服务被迫停顿”等诸多困境。

此外,7500一些设计已经将计划宕机时间最小化,这当中包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。

2、虚拟化:数据挖掘云服务还是要依赖于虚拟化技术,要计算资源自主分配和调度,也就是说虚拟化技术是数据挖掘云服务技术的支撑。

千万不要被概念忽悠

大数据有很多不同的使用情况。因此,企业需要根据自身业务情况采用不同的的数据挖掘平台。对于那些注重应用分析和处理要求的客户来说,有很多专门的解决方案,例如惠普Vertica,此外还有很多高性能NAS或者目标系统。

同样地,对于注重视频、安防监控、闭路电视、模拟仿真、大带宽或吞吐量的话,可以考虑惠普Ibrix、戴尔Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。

总的来说,用户可能会面对一大堆劝说你迁移到更昂贵系统的市场炒作。可能你现在的系统已经足够好的——如果可以扩展的话,厂商提供给你的并不一定可能很好地运行在你目前的环境下。

对用户而言,需要警惕各种关于大数据的炒作,他们也许想要缩小你的选择范围。除了大数据所能带来的机遇之外,还有很多不同的方面需要考虑,例如它的特性、应用、使用实例以及部署方案。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-04-14 15:44:09
市场情报 2022分布式存储线上峰会成功举行,驱动中国数据要素市场发展
4月14日,“2022分布式存储线上峰会”成功举行。本次峰会由百易传媒(DOIT)与厦门大学信息学院联合主办,中国计算机学会信息存储专委会、中国计算机行业协会信息存储与安 <详情>
2021-07-26 14:46:19
市场情报 衡石科技率先推出按需使用付费的BI工具 正式登录亚马逊云科技 Marketplace
衡石科技作为亚马逊云科技中国的高级合作伙伴,为客户提供云原生的企业级一站式数据服务能力,激活云端数据价值,轻松玩转大小数据,帮助团队落地数据驱动文化。 <详情>
2021-01-11 17:49:00
云资讯 签署协议!中建信息全资子公司信云智联与腾讯云共建合作新模式
双方还就开放生态、资源配置、业务下沉、精细化能力提升及场景打造等诸多方面进行了探讨和展望,共同表达了携手未来的巨大信心。 <详情>