幼女白丝 中国电信天翼云完成首个国产GPU万卡查验!4000亿参数大模子朝上
快科技9月20日音信,中国电信告示,天翼云自研的国内首个单集群万卡国产化全功能预查验云作事平台,还是认真发布上线,基于华为昇腾芯片幼女白丝,并完成了万卡范围Llama3.1-405B大模子查验。
Llama3.1-405B行动4000亿参数范围的大模子,在息壤训推作事平台的复古下,经过多轮优化,MFU(算力诳骗率)达到国内朝上水平。
另外,700亿参数大模子Llama2-70B在万卡范围下完成查验,MFU也处于业界朝上水平。
据悉,天翼云的这套平台具备万卡纳管和并行查验才能,基于HPFS PB级并行文献系统、CTCCL RDMA高速卡间互联本事、Gang战略与拓扑感知的智算容器颐养,以及慧聚自研分歧式查验框架TeleFormers和平台,达成万卡资源纳管、万卡范围并行查验。
其中,天翼云自研了AI框架Teleformers,对算子、通讯、数据处理进行优化,还有并行战略的自适合诊治,红色av社区显贵普及了大模子查验的查验成果。
在现在业内最大参数范围开源单体广宽模子Llama3.1-405B大模子查验测试中,性能发达达到外洋同等水平。
算子优化方面,针对昇腾芯片的特质,在鸠集中构层濒临诸多高频算子进行了定制化更动,构建了高性能算子集。
比如matmul算子,诳骗昇腾芯片的谋略亲和性,将算子输入padding到特定的维度,大幅普及履行成果,从而彰着镌汰了查验时候。
数据处理和活水线方面,通过诞生合理的数据分片战略和HPFS条带化优化,诱骗数据预取与数据下千里本事,大幅普及数据流的处理成果和自若性;对预处理后的数据集进行了二次分片并提供就近缓存才能,减少GPU安静时候。
自适销毁行战略方面,基于对3D并行中各样谋略单位的分析,天翼云规画了多种自适合的3D并行战略,依据模子范围和硬件资源的不同不错自动聘任妥当的并行战略,充分诳骗谋略资源和显存资源,镌汰模子查验中每轮的迭代时候。
天翼云国产化万卡智算中心还有多项本事碎裂——
天翼云息壤查验作事平台基于软硬件协同规画,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅颐养和模子编译缓存等系统,将万卡范围故障发现和处理问题镌汰到业内前沿的分钟级,大幅普及灵验查验时候。
自动断点续训系统:
建树丰富的故障库,基于此构建了多维故障感知系统,简略快速主动感知相关故障事件和潜在的故障风险;
通过精确的故障羁系和颐养技能,快速羁系处理故障节点并重新颐养新节点接办任务连续查验,达成无东说念骨阻挠式断点续训,灵验减少GPU闲置时候。
高速多级CheckPoint系统:
天翼云规画基于多级存储的高速CheckPoint系统,通过两阶段异步存储,达成高速写入内存,并最终异步写入远端系统;
针对断点收复场景,提供进度级故障原地快恢和远端快速收复才能,最终达成对CheckPoint的秒级读写才能,大幅贬低断点收复时候、普及查验成果。
国产福利小视频合集在线看全链路检测用具链:
天翼云开发了全链路故障监控用具链,简略基于主动感知达周全链路的故障监控和定位。
该用具链不错主动发现开采故障,并贬低查验中断的频次,确保查验经由的斡旋性和自若性。
【本文松手】如需转载请务必注明出处:快科技
连累剪辑:上方文Q幼女白丝