行业资讯更多

News丨人工智能与量子计算携手，量子机器学习未来潜力有多大

2024-01-15 17:04

Sora爆火，它们都是风口上的赢家→

来源：世展网分类：行业资讯 2024-02-23 17:42 阅读：5114

2024年深圳高交会智慧城市展China Smart City Expo

2024-11-14-11-16

展会结束

2025年中国（深圳）国际高新技术成果展览会-高交会--医药生物高端医疗展CHTF

2025-11-14-11-16

距离266天

第24届高交会半导体显示展CHINA HI-TECH FAIR

2022-11-16-11-20

展会结束

春节假期后的第一周，爆火的Sora在AI市场掀起滔天巨浪。在OpenAI的Sora所带来的讨论声中，GPU芯片大厂英伟达最新一季度财报再次打破市场预期，市值暴增，成为AI风口大赢家。（图源：果壳）

Sora已经在大家的朋友圈刷屏一周了，国内的相关概念股也是涨了又涨。业界一边惊呼“人类将被AI替代”，一边摩拳擦掌争闯AI“竞技场”。所以，Sora究竟神在哪？

根据简单的文本指令，Sora就能生成一段60秒的视频，其中包含多角度镜头切换，呈现相当丰富的细节等等。OpenAI官网发布了多个视频示例，逼真的画面令人很难区分它们是由实拍而得，还是由AI生成。

人物的脸没那么“恐怖谷”，物体运动轨迹也很自然，画面的清晰度和顺畅程度，都像我们用手里的设备拍出来。

Sora甚至可以生成多机位视频。

相比竞品，Sora是“灭霸”级别。之前主流的 AI 生成视频都在4到16秒，还“卡成PPT”，而Sora弯道超车，直接将时长拉到60秒。后者的画面表现，已经媲美视频素材库，放进视频当空镜完全可行。

自然融合两种完全不相干的场景。

那么，这几天刷屏的Sora是如何在短时间内进化到这么强的？在中国，比肩Sora的“文生视频大模型”，又何时可以实现？

技术角度来看，Sora采用了“扩散+Transformer”的视频生成大模型技术路线，可谓有了里程碑式的技术进步。

在文生视频领域，比较成熟的模型思路有循环网络（RNN）、生成对抗网络（GAN）和扩散模型（Diffusion models）。相较于GAN，扩散模型的生成多样性和训练稳定性都要更好，更重要的是，扩散模型在图片和视频生成上有更高的天花板，因为GAN模型从原理上来看本质上是机器对人的模仿，扩散模型则更像是机器学会了“成为一个人”。

而相比以往使用的同为扩散模型的U-Net，Transformer架构的参数可拓展性强，即参数量增加，性能加速提升，同时支持任意分辨率、长宽比、时长的视频训练数据，不会因为压缩导致训练数据质量下降。

左侧为截取尺寸视频训练后模型生成的视频；右侧为原始尺寸视频训练后模型生成的视频。此外，Sora训练了能在时间和空间上压缩视频的自编码器，这也是其能够大幅提升生成视频时长的原因。当然，当前Sora目前存在许多局限性，比如难以准确地模拟复杂场景的物理属性，或者无法理解因果关系的具体实例。该模型还可能混淆提示的空间细节，例如，混淆左和右，并且可能难以精确描述随时间发生的事件。

Sora横空出世后，A股和港股有至少66家Sora概念股热涨，超20家券商关于Sora的研报滚烫出炉。

而据不完全统计，包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技、云从科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。

（相关上市公司纷纷回应Sora爆火，下拉查看更多）云从科技：目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。博汇科技：公司一直在积极关注Sora相关业务的布局及发展。目前，公司业务主要在传媒安全领域，有两个方向：一方面是针对音视频内容运维提供保障，另一方面是针对音视频内容的监管。目前Sora相关产品处于初级阶段，未来的应用还有待进一步研究。Sora后续如果应用场景比较宽泛，产生的视频数据量将有所增长，对产业将有一定促进。因赛集团：预计于2024年3月底前，开发实现文生视频功能，之后推出公测版正式启动商业化。公司目前已收到几家汽车、快消行业知名品牌方发出的AIGC营销项目投标邀请，后续会在确保生成效果和效率的前提下，加快 InsightGPT的商业化进程。汉王科技：Sora目前属于比较前沿的动态，汉王一直在人工智能领域耕耘。公司有自己的核心技术，比如文本识别、图像识别、视频分析等多模态识别技术，并已在多领域进行应用。在识别解析技术方向，公司有自己的大模型（汉王天地），主要在垂直领域进行应用。

不过“文生视频”早已不是新鲜词汇，其实从2023年初开始，“文生视频”赛道就已在中国渐热。

去年3月22日，阿里达摩院在AI模型社区“魔搭”（ModelScope）悄悄放出 “文本生成视频大模型”，在开源模型平台低调对外测试。