关灯
开启左侧

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

  [复制链接]
gaimy 发表于 2021-11-12 09:20:58 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
超大规模的预训练模型的参数量级又双叒被刷爆了!  100000 亿
  (没错,是 10 万亿)
  而且还是用512张 GPU,训练了 10 天搞出来的!
  这就是达摩院最新推出的超大规模通用性人工智能大模型,M6-10T
  它在电商、制造业、文学艺术、科学研究等领域都有着多模态、多任务的能力,在各自现实场景的下游任务中也频频出现。
  而且还能做到即开即用,你今年的双十一背后就有 M6-10T 的身影。
  少量资源快速训练大模型
  不过剁手节的事可以先放一边,问题关键是:M6-10T 到底是怎么使用少量资源完成对极限规模模型的训练的?
  要知道,之前微软的 DeepSpeed MoE 模型,也是使用了 512 张 A100 才完成了 3.5 万亿参数的训练。
  而自家在 5 个月前推出的万亿级参数的 M6,则是用 480 块 GPU 训练的。
  所以,512 张 GPU 怎么就放下了 10 万亿参数?
  这就要提到达摩院自研的分布式框架 Whale。
  基于这一框架,M6 模型可以使用粒度可控的 CPU offload 方法,灵活地选择 offload 的模型层。
  也就是说,可以不用将所有的权重 offload 到 CPU memory 中,而选择保留部分权重在 GPU memory 上进行计算,以进一步地提高 GPU 利用率。
  放下了参数,下一步就是提高训练效率。
  M6-10T 模型采用了一种叫做共享解除(Pseudo-to-Real)的新的训练策略:
  这一策略分为两个阶段。
  第一阶段,利用跨层参数共享机制快速构建并训练小模型 Pseudo Giant。
  参数少得多的 Pseudo Giant 不受内存的限制,因此可以用大批量训练来加速。
  再配合上专家拆分和合并的机制,最终只需要使用 256 张 GPU 即可快速训练一个 Pseudo Giant。
  第二阶段则解除共享参数的联系,得到新的 Real Giant 模型。
  “共享”阶段训练好的模型层的参数会为 Real Giant 的每一层提供初始化,大模型即可在训练好的小模型的基础上继续优化。
  在下游评估中可以看到,从头开始训练 Real Giant 模型非常耗时,而 Pseudo Giant 训练的收敛速度比 Real Giant 训练有 5 倍左右的优势:
  △在 48 个 NVIDIA V100 GPU 设备上训练
  这一机制不仅能够使 M6-10T 在样本量的维度上具有更快的收敛速度,也能将模型的训练速度提升 7 倍以上。
  而相对于之前的 M6-MoE 和 M6-T,采用了新的训练策略的 M60-10T 迷惑度(perplexity)更低,模型更优越:
  可以说,之前使用 480GPU 的万亿参数模型 M6,如果采用现在的方法,那就只需要 64 张 GPU 就能完成训练。
  双十一背后的模型
  而除了算法层面的价值,M6-10T 一经推出就能够投入使用。
  比如说即将来临的双十一中,你或许就能发现这些 AI 设计款的衣服上架。
  △基于 M6 设计生成的服装款式
  这就是大模型带来的创造力。
  在结合了 StyleGAN 后,M6 能够在少样本情况下自动生成图像,且保持良好的细节质量和可编辑性。
  而且与传统的设计款式图不同,M6 生成的还是更接近实物的照片效果。
  在手机淘宝和支付宝中,也会有基于 M6 智能生成的内容文案:
  同时,大模型的多模态特征提取能力,也能进行商品属性标签补充,用于进行认知召回。
  可以说,阿里巴巴内部超过 40 个业务团队背后,都有着基于各版本的 M6 模型形成的服务化平台的支撑。
  而除了电商领域,还有金融、工业、传统科学等诸多应用方向。
  现在,M6 服务化平台以及成为了前业界覆盖最广泛的大模型生态的服务化平台。
  那么未来是继续追求更大量级的模型,进行参数规模的迭代吗?
  阿里达摩院 M6 的科研团队表示:
伴随着参数规模的扩大,当前的预训练模型在语言模型建模之类的任务上取得了不错的进展,
  但对知识的理解还比较浅薄。
  因此,如何将大模型有效迁移到多种类型的下游任务上,让大模型真正地理解并运用知识,这将是研究人员会进一步探索的问题。

回复

使用道具 举报

 

精彩评论2

正序浏览
Randallgix 发表于 2021-11-17 03:10:58 | 显示全部楼层

watch live sex cam

 
watch live sex cam
回复 支持 反对

使用道具 举报

 
JamesEreks 发表于 2021-11-18 04:57:42 | 显示全部楼层

best live sex webcam

 
best live sex webcam
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

0粉丝

25484帖子

排行榜

关注我们

官方微信

唯一QQ:

1511923161

地址:广东清远市阳山县

Email:1511923161#qq.com

Copyright   ©2015-2021  网创平台Powered by©网赚平台工作室