分布式计算的替代框架抑制了大数据不断增长的成本
当今各个部门产生的“大数据”的绝对数量甚至开始淹没为筛选所有这些信息而开发的极其高效的计算技术。但是一个基于随机抽样的新计算框架看起来将最终把大数据不断增长的通信、内存和能源成本控制在更易于管理的范围内。
一篇描述该框架的论文发表在《大数据挖掘与分析》杂志上。
近年来,社交网络、商业交易、“物联网”、金融、医疗保健等领域产生的数据量呈爆炸式增长。这个所谓的大数据时代提供了令人难以置信的统计能力来发现模式并提供以前无法想象的洞察力。但是产生的大数据量开始达到计算极限。
在计算机集群或云计算中,复杂算法的可扩展性在大约1TB数据(或1万亿字节)时开始陷入困境。例如,纽约证券交易所每天产生大约1TB的交易数据,而Facebook用户同时产生500TB。
分布式计算在此类大数据的存储、处理和分析中起着至关重要的作用。该框架采用“分而治之”的策略来高效、快速地对其进行排序。这涉及将大数据文件划分为许多称为“数据块文件”的较小文件。
这些数据块以分布式方式存储在计算机集群的许多节点上。然后并行处理这些块中的每一个,而不是顺序处理,从根本上加快处理时间。然后将来自这些本地节点的结果反馈到中央位置并重新整合,从而产生全局结果。
这种分而治之的操作依次由分布式文件系统管理,而分布式文件系统又由编程模型管理。文件系统是将大数据文件进行划分,编程模型将算法划分成多个块,然后以分布式方式在数据块上运行。
MapReduce由Google开发,是在集群和云端运行的分布式计算中使用最广泛的编程模型。这个名字来源于它的两个基本操作。对节点中的数据块进行Map操作,生成本地结果。这是在多个节点上并行执行的,以实现处理时间的巨大加速。Reduce操作然后将所有这些局部结果整理成全局结果。
后一阶段涉及将本地结果传输到执行Reduce操作的其他主节点或中央节点,并且所有这些数据混洗在通信流量和内存方面都非常昂贵。
“这种巨大的通信成本在一定程度上是可以控制的,”该论文的第一作者、深圳大学计算机科学与软件工程学院的计算机科学家孙旭东说。“如果所需的任务只涉及一对Map和Reduce操作,例如计算一个词在大量网页中的出现频率,那么MapReduce可以非常高效地在数千个节点上运行,甚至是一个庞大的大数据文件”
“但如果所需的任务涉及Map和Reduce对的一系列迭代,那么MapReduce会变得非常缓慢,因为通信成本很高,随之而来的是内存和计算成本,”他补充道。
因此,研究人员开发了一种新的分布式计算框架,他们称之为Non-MapReduce,以通过减少这些通信和内存成本来提高集群计算对大数据的可扩展性。
为此,他们依赖于一种称为随机样本分区或RSP的新型数据表示模型。这涉及对大数据文件的分布式数据块进行随机采样,而不是对所有分布式数据块进行处理。分析大数据文件时,会随机选择一组RSP数据块进行处理,然后在全局级别进行整合,以生成对整个数据文件进行处理后的结果的近似值。
通过这种方式,该技术的工作方式与统计分析中的方式大致相同,随机抽样用于描述人口的属性。因此,非MapReduce的RSP方法是所谓的“近似计算”的一种,这是一种新兴的计算范例,旨在实现更高的能源效率,只提供近似而不是精确的结果。
近似计算在这样的情况下很有用:以低廉的计算成本获得的粗略准确的结果足以完成手头的任务,并且在尝试提供完美准确的结果方面优于计算成本高昂的工作。
Non-MapReduce计算框架将对一系列任务有相当大的好处,例如快速采样多个随机样本以进行集成机器学习;直接在本地随机样本上执行一系列算法,而不需要节点之间的数据通信;简化大数据的探索和清理。此外,该框架在云计算中节省了大量能源。
该团队现在希望将他们的Non-MapReduce框架应用于一些主要的大数据平台,并将其用于实际应用程序。最终,他们希望用它来解决分析分布在多个数据中心的超大数据的应用问题
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
星纪元ET作为一款备受期待的新能源车型,其试驾预约已经全面开放。为了让更多消费者能够亲身体验这款智能电动...浏览全文>>
-
想要体验mu-X牧游侠带来的驾驶乐趣,首先需要了解其独特的性能和设计亮点。这款SUV以其强大的越野能力和舒适的...浏览全文>>
-
您提到的“风光ix5 2022新款”是东风风光推出的一款SUV车型。根据2022年的市场情况,风光ix5的价格区间大致在...浏览全文>>
-
瑞虎8 L作为一款备受期待的中型SUV,凭借其宽敞的空间和出色的性价比吸引了众多消费者的关注。为了更好地了解...浏览全文>>
-
根据最新的市场信息,DS 9新能源车型的落地价以及豪华配置确实非常吸引人。以下是一些关键点供您参考:1 ...浏览全文>>
-
国吉商用车大象G40是一款备受关注的商用车型,其强大的性能和舒适的设计吸引了众多消费者的目光。为了更好地了...浏览全文>>
-
截至我所掌握的信息,关于长沙长安启源C798(假设为长安汽车旗下的一款车型)2025款的价格和相关费用明细,以...浏览全文>>
-
关于2025款武汉长安猎手K50的具体价格,目前市场上还没有明确的官方报价。通常情况下,新车的价格会在上市前几...浏览全文>>
-
在购买2025款坦克300新能源车型之前,了解清楚各项费用是非常重要的。以下是一些主要的费用明细:1 车辆价...浏览全文>>
-
长安UNI-K作为长安汽车旗下的高端序列UNI系列的一员,自推出以来就凭借其时尚的设计、丰富的配置以及较高的性...浏览全文>>
- 瑞虎8 L试驾,轻松开启试驾之旅
- 长沙长安启源C798最新价格2025款,购车前必看的费用明细
- 武汉长安猎手K50新款价格2025款多少钱?买车技巧与性价比大公开
- 坦克300新能源新车报价2025款,购车前必看的费用明细
- 雷驰信V70 2024新款价格大公开,买车不花冤枉钱
- 武汉大众ID.3最新价格2025款,各配置车型售价一目了然
- 凯威新车报价2022款,最低售价11.73万起,入手正当时
- 金杯T5新车报价2024款大揭秘,买车前必看
- 牧马人落地价,换代前的购车良机,不容错过
- 五菱扬光电卡多少钱?选车秘籍与性价比大公开
- 比亚迪e3多少钱?购车优惠大揭秘
- 东南DX8S落地价,换代前的购车良机,不容错过
- 皇冠陆放 2024新款价格大起底,买车超详细
- 五菱征程新能源多少钱 2023款落地价全解买车必看
- 家宝落地价,配置升级,值不值得买?
- MG Cyberster 2026新款价格,最低售价31.98万起,赶紧行动
- 缤纷落地价全解买车必看
- 湖北武汉ID.6 X 2023新款价格限时特惠,最低售价19.3888万起,错过不再有
- 上汽大通MAXUS T70新能源试驾预约,如何在4S店快速预约?
- 长安CS55PLUS新能源多少钱?买车攻略一网打尽