分享好友 最新动态首页 最新动态分类 切换频道
AI数据湖:连通数据孤岛,加速智能涌现
2024-11-07 21:30

自2022年11月ChatGPT发布以来,AI大模型技术发展迅猛。AI大模型训练正成为推动技术进步的核心力量。然而,AI大模型发展带来的数据量与类型的指数级增长,导致数据孤岛问题凸显,如迷雾般遮蔽了人们追逐光芒的脚步。华为以其AI数据湖解决方案,拨云见日,为AI大模型的训练提供了一条清晰的路径,不仅连通了数据孤岛,更加速了智能的涌现,照亮了人工智能创新与发展的新纪元。

AI数据湖:连通数据孤岛,加速智能涌现

人工智能正在全球范围内掀起浪潮。2023年底,Google发布Gemini多模态大模型,可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频;2024年2月,OpenAI发布Sora视频大模型,通过将扩散模型和大语言模型结合,在对物理世界的学习过程中“涌现”出三维一致性,让文生视频的真实感非常强。

AI大模型的发展速度远超人们的预期,从ChatGPT到Gemini再到Sora,可以观察得出两大发展趋势:

趋势二:大模型发展核心三要素的算力、算法和数据,展示出一种“大力出奇迹”的暴力美学。即通过堆算力、堆数据、提升参数规模(从千亿到万亿甚至十万亿),在深度学习算法框架下,实现复杂行为的涌现。在Sora发布的时尚女士漫步街头视频中,女士背后的街景(霓虹广告、行人等)不时被遮挡,但是在遮挡前后,这些街景都保持了很好的三维一致性,还原了人眼对现实世界的实际感知。

AI大模型技术的突飞猛进,让所有人目睹了从单一模态到多模态的跨越,但随之而来的海量数据挑战,迫切需要一种创新的解决方案来整合分散的数据资源。因为,数据作为对现实世界的一种呈现方式,是AI大模型训练的基础,尤其是在深度学习算法“大力出奇迹”的加持下,数据的规模和质量对训练效果提升起着至关重要的作用。然而,当前现实情况却是,绝大部分数据拥有者只关心业务应用是否可以高效地访问数据,并不关心数据被保存在哪里;而绝大部分数据管理者只关心数据是否被有效保存,并不关心这是谁的数据、什么类型的数据。这使得数据散落在多个数据中心,形成了数据孤岛。以某运营商为例,多年积累的数据总量达到数百PB,而现在每天还实时产生数百TB数据,都分散在多个数据中心。为了给AI大模型训练提供尽量多的数据训料,运营商技术部门不得不对这些数据孤岛的数据进行跨域搬迁或复制,导致筹备数据的时间在大模型训练全流程中占比超过50%。

如何打破数据孤岛,将分散的数据有效且快速地归集起来、让归集起来的数据集快速转换为AI大模型训料、让数据训料被AI算力高效访问……这些问题已经成为AI大模型基础设施建设过程中面临的最大挑战和首要考虑问题。

理想的AI数据基础设施,应该瞄准AI大模型训练的数据归集、数据预处理、模型训练这几个关键环节,提供高质量的数据服务。为达到这一目标,至少应该在数据基础设施的两个层面进行综合考量:存储设备层和数据管理层。

存储设备层

面对多源异构且体量庞大的数据,尤其是多模态AI训练场景,理想的存储设备层应具备多协议互通、高读写、易扩展等特点,才能够应对多重挑战,支撑AI大模型训练的如下关键环节:

数据管理层

数据管理层在存储设备层提供的灵活大容量扩展、高混合负载性能基础上,为AI训练进一步提供进阶的数据管理能力,从可视、可管、可用三个维度,帮助数据的拥有者和管理者以更加高效的方式来发挥数据价值。

数据存储层

在这一层,数据分散存储于多个不同数据中心。

数据中心内部,数据在热、温两层被智能分级。热层实际为华为专为AI大模型训练业务场景打造的OceanStor A系列高性能存储,可横向扩展至上千节点;而温层则是华为的OceanStor Pacific系列分布式存储,用于海量非结构化数据。OceanStor A 系列和 OceanStor Pacific 系列之间,可以实现智能分级,即同一个存储集群内部,多个A系列节点形成高性能存储层,而Pacific系列节点形成大容量存储层,两层合二为一,对外展示出一个完整的文件系统或对象桶,支持多协议互通(一份数据可以被多种不同协议访问),对内则智能地、自动地执行数据分级,很好地同时满足了容量、性能、成本的和谐与自洽。

数据中心之间,可以在不同的存储集群之间创建数据复制关系,从而支持数据在跨数据中心之间高可靠地按需流动,为AI大模型训练的数据归集在数据设备层做好了支撑。

数据编织层

“数据编织”的意思,是为数据铺就一个“阡陌交通”的流动网络,让数据可视可管可用,进而在AI大模型训练过程中可以实现价值最大化。

华为通过一个软件层 Omni-Dataverse,实现了数据的可视可管可用。Omni-Dataverse 是华为数据管理引擎 DME(Data Management Engine)的一个重要组件,通过对不同数据中心的华为存储上的元数据进行统一纳管,形成了一个数据资产全局视图,并通过调用存储设备上的接口来控制数据的流动(Omni-Dataverse 基于用户定义的策略来执行相关动作)。此外,Omni-Dataverse还可以按需控制 GPU/NPU直通存储、文件智能预取等,让算力零等待训练数据。

借助这种方式,AI大模型训练的数据归集和模型训练阶段的效率得以提升,进而支撑了集群可用度的提升。

数据服务层

华为AI数据湖解决方案在数据服务层提供了常用的服务框架,包括数据处理、模型开发、应用开发。

数据处理,主要提供数据清洗、转换、增强、标准化等预处理动作。大模型客户可以将其自己的算法、函数融入其中,通过该框架来简化预处理过程的管理。当然,客户也可以灵活选择使用其他的框架。

模型开发和应用开发,与数据处理类似,均是为方便用户而提供的框架。客户可以根据自己的需要进行灵活选择。

最新文章
2023-2029年中国脂肪醇行业市场竞争态势及发展趋向分析报告
脂肪醇是合成醇系表面活性剂的主要原料,按原料来源不同又分为合成醇和天然醇。由石油为原料制备合成醇的路线很多,但目前已在工业上形成大吨位生产的路线主要有三条:1.几基合成醇,该法在羰基化催化剂接触下,将烯烃和一氧化碳、氢气反应,
seo综合查询是啥意思(seo综合查询工具可以查看哪些数据)
SEO中有一个很重要的知识点就是要在页面中布局关键词,那么在布局关键词时,往往给出的要求是“查找用户爱搜索的词”,并进行布局。那么如何查找用户爱搜索的关键词呢?1.搜索引擎下拉框我们在搜索框中输入相应关键词时,系统往往会在下拉
AI智能脱口秀文案生成工具:一键打造爆笑子与幽默桥,全面满足创作需求
AI智能脱口秀文案生成工具:一键打造爆笑子与幽默桥,全面满足创作需求在信息时代飞速发展的今天人工智能已经渗透到咱们生活的方方面面甚至连幽默与创意也不例外。你是不是曾经为创作脱口秀子而头痛不已绞尽脑汁却依然无法捕捉到那些让人捧
1000个箭头(ai源文件,可编辑)在此,绘图必备!
免费资源:一、国自然类:1 2023历年国自然标书全文3国自然项目答辩PPT5标书写作模板7 国自然项目造假清单22018-24年国自然清单4 基金插图素材(可编辑)6 ‍近10年国自然标书全文‍二、SCI生信+实验类:1 160套SCI实验操作视频3Meta分析范
交通银行:启动新一代集团信息系统智慧化转型工程
  中国网财经8月16日讯 交通银行16日在银行业例行新闻发布会上介绍了该行加速推进信息技术智慧化转型的相关情况。交通银行副行长沈如军表示,日前,交通银行正式启动新一代集团信息系统智慧化转型工程(“新531”工程),目的是以打造数字
抖音短视频什么时间段发布最多人看?抖音流量时间段分析
三、注意事项其实,选择视频发布的时间对流量的影响虽然很重要,但是我们也不可忽视视频的内容质量,一个优质的视频可以轻松帮助我们登上热门。那如何产生优质的内容呢,我们可以从以下两点出发:1)素材来源 内容是重中之重。但是创造优质
11个帮助站长提升网站搜索引擎自然流量的SEO技巧
怎样提高你的百度搜索引擎提升专业技能?能够小范畴的试着一下这一明细里边的SEO专业技能,她们全是行得通并便于了解的百度搜索引擎提升专业技能。绝大多数的SEO专业技能明细都很模糊不清:对的…点“回到”按键。在本文中,大家将清除模棱
9月20日,百万美国人打算解救51区的外星Homie
美国最热话题是,一群哥们儿要抱团冲进美国神秘的军事基地51区,活捉外星人。什么叫51区,杰个话题都快被他吗说烂了,简单带你复习一下:美国政府储藏1947年罗斯威尔不明飞行物坠毁残骸和地外生物尸体的仓库,以及和外星人签订研究外星科技
2024流行的1一4多人游戏有哪些 好玩的多人游戏排行榜
多人游戏随着发展目前已经成为了众多游戏玩家们的圣地,这种游戏类型不仅仅只是注重玩家的个人技术,更是对玩家们的心理素质以及团队协作的终极挑战,2024流行的1一4多人游戏有哪些,介绍的游戏将会给玩家带来阵阵令人心跳加速的快感,同时
2005年以来国内成品油历次调价一览表
三次成品油定价机制改革自1998年迄今,中国已经历了三次成品油定价机制改革。1998年6月3日,原国家计委出台《原油成品油价格改革方案》,规定中石油和中石化两个集团公司之间原油交易结算价格由双方协商确定,价格由原油基准价和贴水两部分
相关文章
中信证券:从技术和专利视角看TWS耳机电池行业
体重指数怎么算
改两个字要4500?百度百科再陷舆论风波
安徽省政协2019年履职回眸
免费一键生成小说软件有哪些 免费一键生成小说软件APP分享
免费百度广告怎么投放的(百度上怎么免费做广告)
2024年龙年金句祝福语
notepad++功能简介
产品营销怎么推广的话术,产品营销怎么推广自己店铺
学术百科·网络资源 | 学术类搜索引擎、数据库汇总(七)
推荐文章
分享5个在线如神器般的网站,各种免费资源福利软件让你秒变大佬
四、NLP中的语言模型
全网首个粉丝破亿女主播诞生,网友懵了:这谁啊?
卷烟品牌营销策划的案例及策略分析
区块链:起源、原理及应用
PV、UV、UIP、VV、CPC、CPM、RPM、CTR 到底是什么东东?
揭秘微信加粉的SEM与信息流广告投放套路
有关战胜困难的励志名言警句
千亿市场背后的医美维权困境
利用coze提取并修正抖音视频文案
发表评论
0评