通过混合云和对象存储降低数据重力

我们生活在一个数据驱动的世界。成功的领先公司已经掌握并实施了从持续收集的所有数据中提取洞察力和情报的过程。数据的使用给商业模式带来了巨大的变化,人工智能是将这些数据全部提取为可行意见的主要技术。

ML/DL依赖于训练和推理,两者都需要快速执行,大数据集才能顺利通过流水线。随着训练数据集的增长,这些算法的性能会越来越好,越来越准确。

Gartner [1]认为,“机器学习和AI计划的成功取决于安排有效的数据管道,这些管道可以在AI管道的不同阶段及时提供正确格式的高质量数据。”为了支持人工智能的数据密集型需求,公司需要可靠的存储解决方案,这些解决方案在数据管道的所有阶段(从摄取到训练和推理)都进行了优化。

IDC [2]最近的一项调查确定了AI部署的主要挑战,即处理海量数据以及相关的质量和数据管理问题。保持分布式数据集的高数据质量以防止偏差和不正确的建模并不容易。

随着越来越多海量数据集的出现和AI的实现,欢呼数据的大规模生产产生了自身的动力和挑战。在实施人工智能管道的地方来回移动数据工作负载变得不切实际和/或成本高昂。而是将数据存储在中心位置,并根据需要扩大相关的人工智能管道(即应用程序堆栈)。这就是所谓的数据引力。

混合云

本地基础设施和公共云都用于支持人工智能程序。云计算领域的一端是建立在云端的云原生公司。另一种类型是投资本地基础设施的组织,倾向于在数据中心或边缘位置附近运行人工智能管道任务。重力数据对AI阶段的执行位置影响很大。

虽然云服务提供商(CSP)可以通过弹性计算和相关服务满足AI工作负载,但数据引力是本地实现的驱动因素,这使得混合云可以两全其美。IDC的研究结果支持了这一点,即公有云在AI模型和工作负载部署上领先,本地私有云部署次之。混合架构允许公共云用于其人工智能知识和弹性功能,同时支持对本地数据存储的无缝跨境访问。

AI ML/DL和AI ML/DL是针对不同的数据类型进行训练的,这些数据类型需要不同的性能。因此,系统必须包含存储技术的正确组合。混合架构可以同时满足规模和性能要求。

对象存储

对象存储是AI的首选技术,因为:(a)使用AWS S3 API实现私有云与公有云存储的无缝接入;本地元数据标记功能;以及(c)无限扩张。

CSP不必要地发明了对象存储技术。早在2006年,AWS简单存储服务(S3)就作为第一个对象存储实施推出。AWSS3 API已经成为事实上的标准。因此,对象存储本质上兼容AWS S3 API,这使其成为进入和离开公有云的正确跳板,从而成为混合AI部署的基础。再次,根据定义将元数据标签烘焙到对象存储中,使其与人工智能常用的数据分割和索引工作流程完美匹配。人工智能的海量数据集以其固有的无限云端级容量对象存储而闻名。

AI数据集通常达到PB级别,其性能要求可能会让整个基础设施难以承受。因此,AI不适合运行在传统基础设施上,传统基础设施正面临挑战,无法满足规模、灵活性、计算能力、性能和数据管理的需求。

在处理如此大规模的训练和测试数据集时,解决存储瓶颈(延迟和/或吞吐量问题)和容量限制/障碍是成功的关键因素。AI/ML/DL工作负载需要一种存储架构,能够保持数据在管道中流动,同时具有优秀的原始I/O性能和容量扩展能力。

该解决方案可以通过使用经典的双层架构来实现,其中一层专用于高性能闪存,第二层提供可扩展的对象存储。它通常被实现为两个独立的存储服务器集群来传输数据和燃料,并加速人工智能火箭。

免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!