🎤 为偶像应援 · Gate送你直达 Token of Love! 🎶
家人们,现在在Gate广场为 打 Token of Love CALL,20 张音乐节门票等你来瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待谁?快来一起应援吧!
📌 参与方式(任选,参与越多中奖几率越高!)
1️⃣ 本帖互动
点赞 & 转发本帖 + 投票你最爱的艺人
评论区打出 “我在 Gate 广场为 Token of Love 打 Call !”
2️⃣ 广场发帖为 TA 打 Call
带上 #歌手名字# + #TokenOfLove#
发帖内容任选:
🎵 最想现场听到的歌 + 心情宣言
📣 应援口号(例:泫雅女王冲鸭!Gate广场全员打 Call!)
😎 自制表情包/海报/短视频(加分项,更容易中奖!)
3️⃣ 推特 / 小红书发帖打 Call
同样带上 #歌手名字# + #TokenOfLove#
内容同上,记得回链到表单 👉️ https://www.gate.com/questionnaire/7008
🎟️ 奖励安排
广场优质发帖用户:8张门票
广场幸运互动用户:2张门票
Twitter 优质发帖用户:5张门票
小红书优质发帖用户:5张门票
📌 优质帖文将根据文章丰富度、热度、创意度综合评分,禁止小号水贴,原创发帖更易获奖!
🕒 8
开源且可商用,300 亿参数的 MPT-30B 大模型的成本仅为 GPT-3 的零头
AI 大模型开发公司 MosaicML 近日发布了新的可商用的开源大语言模型 MPT-30B,拥有 300 亿参数,其功能明显比前一代 MPT-7B 语言模型(70 亿参数)更强大,并且性能优于 GPT-3。
此外,他们还发布了两个经过微调的模型:MPT-30B-Instruct 和 MPT-30B-Chat,它们构建在 MPT-30B 之上,分别擅长单轮指令跟踪和多轮对话。
MPT-30B 模型具有的特点:
该模型已扩展到 NVIDIA H100 上的 8k token 上下文窗口,使其成为第一个在 H100 上训练的LLM。
MPT-30B 强于 GPT-3?
MPT-30B 是商业 Apache 2.0 许可的开源基础模型,强于原始的 GPT-3,并且与 LLaMa-30B 和 Falcon-40B 等其他开源模型具有竞争力。
MosaicML 用 2 个月的时间训练了 MPT-30B,使用英伟达的 H100 GPU 集群进行训练。
如下图,MPT-30B 的训练数据:
MPT-30B 训练成本
MosaicML 公司的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元(约 502.44 万元人民币),远低于 GPT-3 等同类产品所需的数千万美元训练成本。
训练定制的 MPT-30B 模型需要多少时间和金钱? 让我们从基本模型开始。
如果您不想从头训练,只想微调现有模型呢?
下图详细列出了每个 1B token 微调 MPT-30B 的时间和成本。 借助 MosaicML 基础设施,您可以对 MPT-30B 模型进行全面微调,而无需担心系统内存限制,而且只需几百美元!
参考资料: