AI数据湖:连通数据孤岛,加速智能涌现
2024-11-07 21:30
自2022年11月ChatGPT发布以来,AI大模型技术发展迅猛。AI大模型训练正成为推动技术进步的核心力量。然而,AI大模型发展带来的数据量与类型的指数级增长,导致数据孤岛问题凸显,如迷雾般遮蔽了人们追逐光芒的脚步。华为以其AI数据湖解决方案,拨云见日,为AI大模型的训练提供了一条清晰的路径,不仅连通了数据孤岛,更加速了智能的涌现,照亮了人工智能创新与发展的新纪元。
人工智能正在全球范围内掀起浪潮。2023年底,Google发布Gemini多模态大模型,可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频;2024年2月,OpenAI发布Sora视频大模型,通过将扩散模型和大语言模型结合,在对物理世界的学习过程中“涌现”出三维一致性,让文生视频的真实感非常强。
AI大模型的发展速度远超人们的预期,从ChatGPT到Gemini再到Sora,可以观察得出两大发展趋势:
趋势二:大模型发展核心三要素的算力、算法和数据,展示出一种“大力出奇迹”的暴力美学。即通过堆算力、堆数据、提升参数规模(从千亿到万亿甚至十万亿),在深度学习算法框架下,实现复杂行为的涌现。在Sora发布的时尚女士漫步街头视频中,女士背后的街景(霓虹广告、行人等)不时被遮挡,但是在遮挡前后,这些街景都保持了很好的三维一致性,还原了人眼对现实世界的实际感知。
AI大模型技术的突飞猛进,让所有人目睹了从单一模态到多模态的跨越,但随之而来的海量数据挑战,迫切需要一种创新的解决方案来整合分散的数据资源。因为,数据作为对现实世界的一种呈现方式,是AI大模型训练的基础,尤其是在深度学习算法“大力出奇迹”的加持下,数据的规模和质量对训练效果提升起着至关重要的作用。然而,当前现实情况却是,绝大部分数据拥有者只关心业务应用是否可以高效地访问数据,并不关心数据被保存在哪里;而绝大部分数据管理者只关心数据是否被有效保存,并不关心这是谁的数据、什么类型的数据。这使得数据散落在多个数据中心,形成了数据孤岛。以某运营商为例,多年积累的数据总量达到数百PB,而现在每天还实时产生数百TB数据,都分散在多个数据中心。为了给AI大模型训练提供尽量多的数据训料,运营商技术部门不得不对这些数据孤岛的数据进行跨域搬迁或复制,导致筹备数据的时间在大模型训练全流程中占比超过50%。
如何打破数据孤岛,将分散的数据有效且快速地归集起来、让归集起来的数据集快速转换为AI大模型训料、让数据训料被AI算力高效访问……这些问题已经成为AI大模型基础设施建设过程中面临的最大挑战和首要考虑问题。
理想的AI数据基础设施,应该瞄准AI大模型训练的数据归集、数据预处理、模型训练这几个关键环节,提供高质量的数据服务。为达到这一目标,至少应该在数据基础设施的两个层面进行综合考量:存储设备层和数据管理层。
存储设备层
面对多源异构且体量庞大的数据,尤其是多模态AI训练场景,理想的存储设备层应具备多协议互通、高读写、易扩展等特点,才能够应对多重挑战,支撑AI大模型训练的如下关键环节:
- 数据归集:在数据归集过程中,数据往往分散在不同的孤岛中,格式和访问协议多样。为了让这些数据可以高效集中,需要数据存储设备支持多种不同的数据格式和访问协议,并且提供高写入带宽性能以实现这些多源异构的数据可以快速归集在一起。同时,存储解决方案应既具备灵活的扩展性,又要成本受控可接受,以应对随时可能加入训练的新数据源。尽管归集阶段数据格式和访问协议多样化,但在训练阶段,需要统一到文件访问接口。因此,理想的存储硬件应支持多协议互通,确保统一的底层数据可以被不同协议/接口访问,避免因协议转换导致的大量数据复制。
- 数据预处理:数据预处理是对多样化的数据进行清洗、转换、增强和标准化,实现从海量原始数据集中,获取高质量的数据训料。在这个环节中,由于预处理工具的多样性,会产生大量临时数据,导致数据膨胀。因此,存储设备不仅需要提供海量共享存储空间,还应具备高读写带宽和随机访问性能,以加速预处理过程。
- 大模型训练:在大模型训练阶段,存储设备的性能,如训练数据加载和Checkpoint保存,直接影响训练效率。预处理后的训练数据量虽不大,但对文件访问性能要求极高(OPS和IOPS),并要求低时延,以确保快速加载数据,避免GPU/NPU算力的浪费。Checkpoint保存作为断点续训的关键机制,要求存储设备具有高写入带宽,以便快速和高频度存档,提高训练过程的稳定性和效率。
数据管理层
数据管理层在存储设备层提供的灵活大容量扩展、高混合负载性能基础上,为AI训练进一步提供进阶的数据管理能力,从可视、可管、可用三个维度,帮助数据的拥有者和管理者以更加高效的方式来发挥数据价值。
- 可视:数据资产的拥有者和管理者,需要对所有的数据有全貌概览,了解有哪些数据、数据的保存地点以及数据量、数据类型等,相当于维护了一份数据地图。基于这份数据地图,可以方便快捷地知道需要对哪些数据进行归集处理。
- 可管:在确定了需要进行归集的数据后,需要有一个机制,来实现基于策略的数据流动。例如,使用策略来定义数据流动的源和目标、起止时间窗、最大限速、最小速率保障等,从而实现数据的“可管”。
- 可用:这意味着原始数据需要被预处理、被转换为训练数据。虽然数据预处理工具生态已经丰富且多样化,但是通过为数据管理层提供一个与存储设备层协同的数据预处理框架,不仅可以帮助用户简化数据预处理的过程管理,也可以加速数据预处理速度,让数据更加“可用”。