李彦宏坚称不做视频生成模型,中国版Sora到底值不值得做?

2024-10-22 00:24:02

界面新闻记者 | 肖芳

界面新闻编辑 | 宋佳楠

近日,百度CEO李彦宏百度不做Sora演讲被媒体曝光有关“中国Sora到底值不值得做”话题又在微博、小红书社交媒体引发众多争论。

李彦宏内部讲话Sora这种视频生成模型投入周期太长1020可能拿不到业务收益无论多火百度不去

反对声音认为,这属于百度自身业务问题国内目前在视频生成模型最有希望的公司是快手字节跳动,二者业务视频更近,待其视频生成足够优秀之后会快速完成拉新,并带动用户体验提升

快手字节跳动国内互联网大厂中积极布局视频生成大模型公司Sora发布快手便推出文生视频大模型“可灵”,其背后的技术原理和OpenAI的Sora类似,都是把常用于视频生成人工智能的扩散模型与Transformer架构相结合,依托于快手短视频平台,拥有大量可用于训练的视频数据“可灵”发布几个月之后字节跳动旗下火山引擎发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。

字节跳动快手之外今年发布视频生成模型公司包括阿里云Minimax生数科技智谱AI公司

国内视频生成模型领域虽然看起来火热确实面临非常严峻挑战李彦宏视频生成做出判断并非无稽之谈

界面新闻从一位负责视频生成模型技术人士处了解生成式AI技术正大幅降低视频生成的门槛,导致视频数据以20倍左右的速度增长对计算成本和效率提出了严峻的挑战。以Sora模型为例,其训练和推理所需的算力需求分别达到了GPT-4的4.5倍和近400倍

中国银河证券研究院报告显示Sora对算力需求呈指数级增长根据Sora参数规模推演训练单次算力需求或可达到2.6×10^24Flops,相当于GPT-3175B的8.2倍。目前Sora还在初级阶段,伴随不断迭代调优,其训练数据集规模将进一步增大,未来算力需求大幅增加

上述技术人士表示编解码层框架层视频生成模型面临诸多挑战一方面效率问题另一方面是在计算需求日益增长的情况下,能否灵活处理越来越复杂需求

这些都对视频生成模型形成巨大考验,但其商业化形势仍然不够明朗一定程度上使训练推理成本挑战更为严峻

界面新闻了解目前视频生成模型的落地大多在影视制作、电商营销等领域处于概念多于实质阶段

快手曾高调推出由可灵深度参与制作的奇幻微短剧《山海奇镜之劈波斩浪》,并于近日联合李少红、贾樟柯等9位知名导演,启动了完全依托视频生成大模型制作电影短片“可灵AI”导演共创计划,试图以此来证明视频生成大模型在影视制作领域的可用性。

《山海奇镜之劈波斩浪》整部影片并不是由AI一气呵成,而是使用可灵大模型的文生图和图生视频功能生成了很多时长5秒的分镜头,再由后期剪辑团队剪辑而成。其在成本整体的降幅不超过四分之一远不如外界预期的那么大

快手近期一系列动作来看仍然可灵AI落地寻找更多应用场景比如快手试图通过资源流量扶植方式品牌方、制作机构、媒体等需求方能够与AIGC创作者进行商务合作支持使用可灵AI的创作者获得变现机会一定程度反映AIGC变现并不像想象那么容易

这些挑战之下视频生成模型领域一个发展趋势降本虽然很多公司依然积极投入视频生成模型尽可能降低训练和推理成本,已经很多公司都在探索方向

预处理过程统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,则是其他一些公司降本的重点抖音一位视频架构技术负责人表示超大规模视频训练数据集导致计算和处理成本激增、视频样本数据参差不齐,以及处理链路环节多、工程复杂等,都视频生成模型训练和推理成本增加同时,对GPU、CPU、ARM等多种异构算力资源的调度部署也是挑战之一

据界面新闻了解,豆包视频生成模型自研了多媒体处理框架BMF来应对模型训练的算力成本挑战,该方案可使用大量潮汐资源,为模型训练提供支撑

除此之外,通过自研芯片在同等视频压缩效率下实现视频大模型训练和推理成本降低,是部分互联网大厂选择方向。而一些AIGC公司则在探索将低质量视频与高质量图像相结合,保障视频输出画质基础上降低训练模型成本方法。当成本真的降下来,视频生成模型的未来之路也会更加明晰。