Sora爆火,它们都是风口上的赢家→

来源:世展网 分类:行业资讯 2024-02-23 17:42 阅读:5114
分享:

高交会国际触控与显示技术展览会

2022-11-16-11-20

展会结束

2024年深圳高交会智慧城市展China Smart City Expo

2024-11-14-11-16

展会结束

2025年中国(深圳)国际高新技术成果展览会-高交会--医药生物高端医疗展CHTF

2025-11-14-11-16

距离266

第24届高交会半导体显示展CHINA HI-TECH FAIR

2022-11-16-11-20

展会结束

节假期后的第一周,爆火的Sora在AI市场掀起滔天巨浪。在OpenAI的Sora所带来的讨论声中,GPU芯片大厂英伟达最新一季度财报再次打破市场预期,市值暴增,成为AI风口大赢家。(图源:果壳)

Sora已经在大家的朋友圈刷屏一周了,国内的相关概念股也是涨了又涨。业界一边惊呼“人类将被AI替代”,一边摩拳擦掌争闯AI“竞技场”。所以,Sora究竟神在哪?

根据简单的文本指令,Sora就能生成一段60秒的视频,其中包含多角度镜头切换,呈现相当丰富的细节等等。OpenAI官网发布了多个视频示例,逼真的画面令人很难区分它们是由实拍而得,还是由AI生成。

人物的脸没那么“恐怖谷”,物体运动轨迹也很自然,画面的清晰度和顺畅程度,都像我们用手里的设备拍出来。

Sora甚至可以生成多机位视频。

相比竞品,Sora是“灭霸”级别。之前主流的 AI 生成视频都在4到16秒,还“卡成PPT”,而Sora弯道超车,直接将时长拉到60秒。后者的画面表现,已经媲美视频素材库,放进视频当空镜完全可行。

自然融合两种完全不相干的场景。

那么,这几天刷屏的Sora是如何在短时间内进化到这么强的?在中国,比肩Sora的“文生视频大模型”,又何时可以实现?

技术角度来看,Sora采用了“扩散+Transformer”的视频生成大模型技术路线,可谓有了里程碑式的技术进步。在文生视频领域,比较成熟的模型思路有循环网络(RNN)、生成对抗网络(GAN)和扩散模型(Diffusion models)。相较于GAN,扩散模型的生成多样性和训练稳定性都要更好,更重要的是,扩散模型在图片和视频生成上有更高的天花板,因为GAN模型从原理上来看本质上是机器对人的模仿,扩散模型则更像是机器学会了“成为一个人”。而相比以往使用的同为扩散模型的U-Net,Transformer架构的参数可拓展性强,即参数量增加,性能加速提升,同时支持任意分辨率、长宽比、时长的视频训练数据,不会因为压缩导致训练数据质量下降。左侧为截取尺寸视频训练后模型生成的视频;右侧为原始尺寸视频训练后模型生成的视频。此外,Sora训练了能在时间和空间上压缩视频的自编码器,这也是其能够大幅提升生成视频时长的原因。当然,当前Sora目前存在许多局限性,比如难以准确地模拟复杂场景的物理属性,或者无法理解因果关系的具体实例。该模型还可能混淆提示的空间细节,例如,混淆左和右,并且可能难以精确描述随时间发生的事件。

Sora横空出世后,A股和港股有至少66家Sora概念股热涨,超20家券商关于Sora的研报滚烫出炉。

而据不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技、云从科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。

(相关上市公司纷纷回应Sora爆火,下拉查看更多)云从科技:目前,从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模,通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上,云从科技与天津港、华为等共同开发港口大模型PortGPT,核心是AI智能体,通过AI生成交互画面,协同数据分析,提高港口运转效率及安全性。此外,还在文生图像、视频等跨模态领域积极布局,包括发布数字人能力平台,生成AI视频;与中国电信合作AI营销海报生成等。博汇科技:公司一直在积极关注Sora相关业务的布局及发展。目前,公司业务主要在传媒安全领域,有两个方向:一方面是针对音视频内容运维提供保障,另一方面是针对音视频内容的监管。目前Sora相关产品处于初级阶段,未来的应用还有待进一步研究。Sora后续如果应用场景比较宽泛,产生的视频数据量将有所增长,对产业将有一定促进。因赛集团:预计于2024年3月底前,开发实现文生视频功能,之后推出公测版正式启动商业化。公司目前已收到几家汽、快消行业知名品牌方发出的AIGC营销项目投标邀请,后续会在确保生成效果和效率的前提下,加快 InsightGPT的商业化进程。汉王科技:Sora目前属于比较前沿的动态,汉王一直在人工智能领域耕耘。公司有自己的核心技术,比如文本识别、图像识别、视频分析等多模态识别技术,并已在多领域进行应用。在识别解析技术方向,公司有自己的大模型(汉王天地),主要在垂直领域进行应用。

不过“文生视频”早已不是新鲜词汇,其实从2023年初开始,“文生视频”赛道就已在中国渐热。

去年3月22日,阿里达摩院在AI模型社区“魔搭”(ModelScope)悄悄放出 “文本生成视频大模型”,在开源模型平台低调对外测试。

阿里达摩院“文本生成视频大模型”根据口令“一直长颈鹿在微波炉下面”生成的视频。

去年3月16日,百度发布文心一言也提供文字生成视频功能,在8月又上线了文本转视频原生插件。

文心一言上线的文本转视频插件。

无论是国外的Runway,还是国内的基础大模型公司,各自都在做“文生视频”模型,但与Sora相比还有一定差距,一方面是体现在持续时长上,绝大多数视频时长还在4-10秒左右,其连贯性也有所不足。另一方面是镜头的组合,绝大多数视频都是单镜头。


在第二十五届高交会上,已有众多AI领域的科技公司携最新产品摩拳擦掌,我们也期待即将在今年举办的第二十六届高交会的IT展与人工智能上,包括“文生视频”大模型在内的更多AI产品精彩亮相。

2024高交会招展信息即将陆续发布,下一个应用创新爆点等你来引爆!

封面来源:果壳内容来源:智东西、香港经济导报、果壳、虎嗅、知危


声明

· 本公众号文章内容未经授权不得擅自使用,如需转载请注明出处和保持信息完整性。

· 本文内有未注明出处的信息、图片或素材,如无意中侵犯某方的知识产权,请联系我们删除。


精彩推荐

▲第二十六届高交会向你发出邀请

▲一图速览会期资讯→

会务组联系方式  

展会咨询13248139830

X
客服
电话
13924230066

服务热线

扫一扫

世展网公众号

微信小程序

销售客服

门票客服

TOP
X