太平洋 计算机继
微软 铺开AI Copilot之后,OpenAI发布多模态重大更新
9月25日晚,OpenAI官网发布重大更新,宣布ChatGPT可以看见、听见和说话。1)图像理解能力:根据官网示例,用户通过向ChatGPT发送图片,围绕图片进行提问、对话,即可解决实际场景中的问题。2)听说能力:用户可与ChatGPT进行语音对话,语音识别采用的是OpenAI的Whisper模型,语音合成采用全新AI模型,只需几秒钟的样本音频与文本即可合成用户自己的声音。OpenAI在未来两周内将会向Plus用户和企业用户推出上述功能。
谷歌和OpenAI加速竞逐多模态。据The Information报道,Google已经向一小部分公司开放了Gemini的早期版本,旨在与GPT-4竞争。Gemini由GoogleBrain和DeepMind合并之后研发而成,使用的训练算力比GPT-4大5倍,多模态能力将大幅提升。我们认为随着谷歌和OpenAI竞争加剧,有望加速大模型的迭代和能力的提升,AI产业发展有望超预期。
多模态将会给AI行业带来以下变量:1)算力方面:多模态大模型需要处理的非结构化数据较多,参数规模更大,在训练和推理阶段所需的算力支持更高。据报道,谷歌Gemini 已在 TPUv5 Pod 上进行训练,算力高达~1e26 FLOPS,比训练 GPT-4 的算力还要大 5 倍。2)数据方面:多模态数据涉及图像、视频、语音等多种类型,且规模更大。据报道,Gemini 的训练数据库为 Youtube 上 93.6 亿分钟的视频字幕,总数据集大小约为 GPT-4 的两倍。我们认为这将带来更多
大数据处理需求。3)应用方面,多模态能力的加入使大模型具备了视觉和听觉,进一步接近人类获取信息的方式,有望使模型的泛化能力得到飞速提升,大幅拓展下游应用场景。
风险提示:技术发展不及预期,AI应用落地不及预期,算力资源供给不足风险,法律合规风险。