,AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,该模型具有 300 亿参数,训练成本“仅有其他同类竞品模型的零头”,有望促进行业逐步降低此类模型训练成本,扩大 AI 模型在更广泛领域的运用。
MosaicML 公司的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于 GPT-3 等同类产品所需的数千万美元训练成本。此外,由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并且更适合部署在本地硬件上。
据悉,MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的更高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往成果,当下每块 GPU 的吞吐量增加了 2.4 倍以上,可带来更快的完成时间。
除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量并提高模型性能。他们目前正在开发一款工具,可以帮助用户在预训练过程中分层加入特定领域的数据,以确保训练中开业实现多样化和高质量的数据组合。
MosaicML 公司表示,将模型扩展到 300 亿参数只是第一步,接下来他们将以降低成本为前提,推出体积更大、质量更高的模型。
IT之家注意到,目前开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在本地硬件上使用自己的数据,对模型进行微调。
声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。
lifeme魅蓝G1游戏耳机降价,到手109元
感谢IT之家网友华南吴彦祖的线索投递!,lifeme魅蓝G1游戏...
增强战队管理,《战地2042》游戏第五赛季“新黎
,游戏工作室DICE今天公布将于6月7日推出《战地2042》游戏...
21世纪经济报道特刊丨新能源迎来“大变局”时代
2023年5月24日至26日,SNEC第十六届国际太阳能光伏与智...
信美相互人寿已实现累计盈利以轻资产模式布局康养
5月26日,信美人寿相互保险社召开六周年发布会,并正式发布“信·...
2022年上半年产能利用率骤降济人药业:产能波动
手握独家专利品种疏风解毒胶囊这一核心产品,安徽济人药业股份有限公...
双元科技29日申购:核心部件自研自产替代进口近三
今日,浙江双元科技股份有限公司首次公开发行股票并在科创板上市网上...