浪潮信息如何拿下AI存储基准测试制高点
- 2025-03-10 19:32:00
- miadmin 原创
- 32
对待存储供应商而言,MLCommons协会2023年公布的MLPerf Storage v1.0 AI存储基准职能测试,无疑是一个商场引申的制高点。该测试是由图灵奖得主David Patterson联手顶尖学术机构胀舞的圭臬,通过筑模呆板练习等AI使命负载,对存储编制I/O形式和职能实行评测,为ML/AI模子存储选型供给巨子参考凭据。
正在最新披露的MLPerf Storage v1.0测试中,海潮新闻AS13000G7漫衍式存储平台阐扬绝伦,正在3D-UNet和CosmoFlow两个模子共计8项测试中,斩获5项最佳效果。
10月18日,海潮新闻存储产物线副总司理刘希猛、海潮新闻漫衍式存储研发部总司理张正在贵、海潮新闻漫衍式存储产物线副总司理安祥文、海潮新闻漫衍式存储计划架构师Lance SUN承受媒体采访,分享了MLPerf Storage v1.0测试的体味。
据理解,本次MLPerf存储基准评测(v1.0)吸引了环球13家存储厂商和钻研机构到场,环绕医学影像分裂、图像分类、宇宙学参数预测笔直范畴内的 3D-Unet 、 ResNet50、 CosmoFlow三个类型算法,中心考试与之完婚的存储编制的总带宽/每节点带宽,以及存算配比目标的才华。
这些目标对待AI至合要紧,因由很轻易,而今担负算力的GPU资源异常高贵,万卡集群所能供给的算力惊人,资金加入同样惊人,正在这种情状下,高效运用GPU资源意思强大。有目共睹的“木桶效应”证明,木桶盛水的众寡是由短板而非长版裁夺的,AI编制也是相同,岂论裁夺模子熬炼数据加载,依旧模子熬炼流程停滞点续训,其加载速率不行拖GPU的后腿,加载期间越短越好,不要让GPU资源展现闲置、守候的形态。
有鉴于此, MLPerf存储基准评测(v1.0)对GPU运用率成立了门槛,个中,3D-UNet的请求是90%以上,Resnet50、CosmoFlow的请求是70%以上,换句话说,留给存储数据加载的期间,最苛刻的惟有10%,正在知足这个条件下,对待存储编制的含糊才华,以及所不妨增援GPU数目实行考试,也便是上面图标中所说的加快器数目,这里的数据越大越好。
顺带提一句,正在此次列入测试产物中,Resnet50永远达不到70%运用率的目标,自后MLCommons协会对MLPerf Storage v1.0软件实行了调度。以是,此次测试,3D-UNet、CosmoFlow更不妨解释题目。
要思正在MLPerf存储基准评测(v1.0)中赢得佳绩,采用NVMe SSD全闪集群架构计划是必定,SATA SSD以及混闪架构计划达不到职能的需求。其余,汇集带宽也是务必知足的前提,有专业人士指出,“汇集400G连合十足是被GenAI催生出来的需求,其身手自己没有那么成熟,相仿职能颤栗是必定要治理的工程上的困难。”
刘希猛败露,海潮新闻正在此次测试中,采用了InfiniBand汇集计划,但海潮新闻也绸缪了以太汇集计划,不妨助助用户更好限度本钱。
对待参测的存储编制而言,必定要类似性漫衍式办理编制实行结构调和,以海潮新闻的计划为例,其限度层面采用有针对的办理和调换,对节点间流转的数据流实行管控,削减东西向(节点间)数据转发量,由于一再的节点间数据转发,势必拖累存储编制的具体效用;再有便是一再的IO停滞以及上下文切换,也是需求努力避免的题目。为此,海潮新闻漫衍式存储平台AS13000G7采用了众道并发透传身手,将众个 I/O 要求实行整合和批管制,使得编制能够一次性管制众个要求,而不是逐一管制,从而削减了上下文切换的次数;该编制应承众个 IO通道同时传输数据,充斥运用存储编制的硬件资源和汇集带宽。
其余,正在数据传输流程中,还要注视削减体式转换、数据校验等中心管制枢纽,采用数据直通传输的格式。还要注视加强文献编制与打算节点亲和性,确保负载平衡。从海潮新闻存储的履行看,好的计划不妨将数据挪动与众核CPU之间的拜望恶果提拔400%。
从阐扬看,正在3D-UNet测试场景中,AS13000G7三节点存储杀青了1430个高并发读线秒以内,AI端到端熬炼I/O占比低于10%,打算节点带宽运用率抵达了72%,杀青了单存储节点120 GB/s的超高职能。正在单客户端2和众客户端2 CosmoFlow宇宙学理会运用的评测义务中,AS13000G7也差别供给了18 GB/s和52 GB/s的带宽最佳效果。
刘希猛指出,人工智能赋能千行百业,背后离不开数据这个要害出产因素,数据连合了物理宇宙和数字宇宙,而数据存储举动数据的载体,是人工智能落地的要害支柱之一。
而今,舆情的中心都鸠集正在大模子AI创作的奇特,然而对待创作稀奇的流程缺乏须要的理解。正在存储配套方面也存正在相仿题目,舆情更众体贴模子熬炼的数据加载、流程中的断点续训,青睐TB级、万卡算力等目标,然而大意了数据归集、洗刷的要紧性,大模子AI要行业落地,势必株连到要将分袂正在终端、区域,跨制定、跨区域数据实行管制,涉及到大数据组件Spark、以及Clip等器械的行使,这也需求适合的存储编制供给支柱。这也是存储编制选型要紧的考试内容。
对此,海潮新闻AS13000G7同样阐扬优越,依靠非构造化制定统一、富元数据办理等身手支柱,AS13000G7不妨杀青文献、对象、大数据、视频制定互通,语义无损、职能类似,仅保全一份存储池数据,就能够支柱众种制定拜望,避免了数据拷贝,杀青最高50%数据存储空间的省俭。其余,其编制牢靠性以及韧性同样优越。试思,假设存储编制韧性缺乏,导致熬炼停滞,则任何勉力都将付之东流。对此,请求存储编制供给主动办理身手才华,对硬件、汇集、编制等实行检测,正在编制亚健壮就采用门径,实行免数据迁徙的疾速微重构,而这些都离不开AI身手的加持。
刘希猛指出,无论采用什么样的进阶道道和设施,天生式AI对行业的影响将是空前未有的,个中数据成为智能革命的主题动力。环绕着数据归集、熬炼和推理,应当修建起庞大的算力、存力根蒂举措,会阐发事半功倍的功效,磨刀不误砍柴工。对待海潮新闻而言,列入MLPerf Storage v1.0 AI存储基准测试也然而是小试牛刀,正在出现身手程度和才华的同时,也加深了对待天生式AI身手的适配和理解,将延续努力胀舞AI工业化和工业AI化历程。
联系人: | 王先生 |
---|---|
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255