继微软铺开AI Copilot之后，OpenAI发布多模态重大更新_神股护体

神股护体

+关注

博主要求身份验证

登录用户ID：

太平洋计算机继微软铺开AI Copilot之后，OpenAI发布多模态重大更新

9月25日晚，OpenAI官网发布重大更新，宣布ChatGPT可以看见、听见和说话。1）图像理解能力：根据官网示例，用户通过向ChatGPT发送图片，围绕图片进行提问、对话，即可解决实际场景中的问题。2）听说能力：用户可与ChatGPT进行语音对话，语音识别采用的是OpenAI的Whisper模型，语音合成采用全新AI模型，只需几秒钟的样本音频与文本即可合成用户自己的声音。OpenAI在未来两周内将会向Plus用户和企业用户推出上述功能。
谷歌和OpenAI加速竞逐多模态。据The Information报道，Google已经向一小部分公司开放了Gemini的早期版本，旨在与GPT-4竞争。Gemini由GoogleBrain和DeepMind合并之后研发而成，使用的训练算力比GPT-4大5倍，多模态能力将大幅提升。我们认为随着谷歌和OpenAI竞争加剧，有望加速大模型的迭代和能力的提升，AI产业发展有望超预期。
多模态将会给AI行业带来以下变量：1）算力方面：多模态大模型需要处理的非结构化数据较多，参数规模更大，在训练和推理阶段所需的算力支持更高。据报道，谷歌Gemini 已在 TPUv5 Pod 上进行训练，算力高达～1e26 FLOPS，比训练 GPT-4 的算力还要大 5 倍。2）数据方面：多模态数据涉及图像、视频、语音等多种类型，且规模更大。据报道，Gemini 的训练数据库为 Youtube 上 93.6 亿分钟的视频字幕，总数据集大小约为 GPT-4 的两倍。我们认为这将带来更多大数据处理需求。3）应用方面，多模态能力的加入使大模型具备了视觉和听觉，进一步接近人类获取信息的方式，有望使模型的泛化能力得到飞速提升，大幅拓展下游应用场景。

风险提示：技术发展不及预期，AI应用落地不及预期，算力资源供给不足风险，法律合规风险。

打开淘股吧APP