行业观点Google发布全新的多模态模型Gemini,效果并肩GPT4甚至超越
中信建投 人工智能12月6日,Google发布全新的多模态模型Gemini 1.0,其以Transformer解码器为主体构建,支持文字、音频、图片、视频的输入以及文字和视频输出,通过图像、音频、视频、文本的全面数据训练,Gemini具备强大的跨模态能力,同时具备领先的理解和推理能力。
Gemini 1.0有三个版本:Gemini Ultra用于高度复杂的任务,Gemini Pro用于增强性能和大规模部署,Gemini Nano(18亿和32亿参数)用于端侧设备部署。
性能最为强大的Gemini Ultra在32个测试基准下取得了30个第一的优秀成绩,其中包括12个文本和推理测试,9个图像理解测试,6个视频理解,5个语音识别和翻译。在用于测试人类专家表现的MMLU基准上,Gemini Ultra取得了90.04%的优异成绩,超越了GPT4的87.29%。
Gemini Ultra具备强大的推理能力和多模态理解能力。Gemini Ultra在数学基准测试MGSM和多模态的多学科推理测试MMMU中成绩均优于GPT-4和GPT-4V。通过Youtube的视频数据集训练,Gemini Ultra在字幕任务和零样本视频问答任务中表现优异,展现了强大的视频理解能力和跨时间推理能力,同时Gemini Ultra支持图像生成。
[礼物]Gemini作为Google最新推出的多模态模型取得了重大进步,展现出强大的理解能力和推理能力以及跨模态能力,整体性能并肩GPT4甚至超越。Gemini作为Google重要的技术节点,其将大模型的竞赛推向新高度,需要关注大模型行业可能到来的新一轮技术突破。