OpenAI发布Sora模型,看好2024年多模态大模型迎来爆发
[emoji=🔥]OpenAI发布Sora文生视频模型,可生成最长一分钟视频
北京时间2024年2日16日,OpenAI发布文生视频模型Sora,可遵循用户的指示生成长达一分钟的视频,并保持视觉质量。Sora能够生成包含多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。在OpenAI官网上可看到多个由Sora模型生成的视频案例,如时尚女子在东京街头、猛犸象在雪原上行走、在艺术馆中边走边欣赏艺术品等等;
[emoji=🔥]OpenAI通过大模型在视频数据上的大规模训练实现高质量视频生成
OpenAI官方技术文档指出,研究人员探索了生成模型在视频数据上的大规模训练,并在时长、分辨率和宽高比可变的视频和图像上联合训练了文本条件下的扩散模型。与大语言模型使用文本Token不同的是,Sora模型使用了视觉补丁(Visual Patches)方法,OpenAI证明了这种视觉补丁的方法在视频/图像生成模型中非常有用。
[emoji=🔥]Sora模型基于DALL-E和GPT模型研究成果,可实现视频加工、拼接等功能
除了基于文本生成视频的能力,Sora模型也可以接受其他输入,例如预先存在的图像或视频。Sora能够执行多种图像和视频编辑任务,如创建循环视频、为静态图像添加动画、将视频向前或向后延伸、将两段视频进行拼接等。
[emoji=🔥]建议关注标的
我们在2023年11月15日发布的《大地回春,百花齐放——计算机行业2024年度策略》中提出,2024年国内外厂商有望发布更加复杂的多模态大模型,实现文本、语音、图像以及音视频等多模态数据的复杂处理和交互。我们认为OpenAI发布Sora模型,有望开启多模态大模型的新一轮浪潮。
相关标的:
科大讯飞 、
云从科技 、
万兴科技 、
虹软科技 、
焦点科技 ;
风险提示
1、AI 技术迭代不及预期的风险;2、AI 商业化产品发布不及预期;3、政策不确定性带来的风险;4、下游市场不确定性带来的风险;