谷歌Gemini背后技术的杀手锏,便是原生多模态(natively multimodal)。
因为以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。
这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。
而谷歌Gemini所强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。
具体来说,此次谷歌一共带来了Gemini的三个版本:
Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务
Gemini Pro:可扩展至各种任务的Gemini模型
Gemini Nano:适用于端侧设备的高效Gemini版本(1.8B/3.25B)
其中Gemini Ultra一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平。
而Gemini Pro从今天起,就会在Bard中实装上线
谷歌Bard:【点击我直达】
Gemini 官网:【点击我直达】
评论于:好猫加速器(解锁会员)
评论于:微信小店协议操作
评论于:跳过软件卡密工具附带教学