视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Keras 之父 François Chollet 则认为,Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?这些问题至关重要,决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。最后他指出,不能简单地通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。
此后,关于视频生成模型到底有没有在学习、理解物理规律,业界始终没有一个定论。直到近日,字节豆包大模型团队公布的一项系统性研究,为两者之间的关系「划上了不等号」。
该团队通过大规模实验发现 —— 即便依照 Scaling Law 扩大模型参数与训练数据量,模型依然无法抽象出一般物理规则,甚至连牛顿第一定律、抛物线运动都无法领会。
「视频生成模型目前就像一个只会『抄作业』的学生,可以记忆案例,但还无法真正理解物理规律,做到『举一反三』。因此,模型遇到未学习过的场景就会『犯迷糊』,生成结果与物理规则不符。」研究作者表示。
相关推文在 X 发布后,获得 Yann LeCun 点赞转发,还评价道 —— 结果虽不意外,但有人尝试研究确实是一件好事。
此外,CV 大牛谢赛宁和常年活跃的 Gary Marcus 等人也纷纷跟进关注。
Sora 的世界里,物理学存在么?
此前 Sora 发布时,OpenAI 就在其宣传页面写道:我们的成果揭示了 —— 提升视频生成模型参数与数据量,为构建物理世界通用模拟器,提供了一条可行之路。
给人希望的同时,业内质疑声纷至沓来,很多人并不认为基于 DiT 架构的视频生成模型能够真正理解物理规律。其中尤以 LeCun 为代表,一直以来,这位人工智能巨头一直坚称,基于概率的大语言模型无法理解常识,其中包括现实物理规律。
尽管大家众说纷纭,但市面上,系统性针对该问题的研究一直寥寥。出于对这一课题的好奇,字节豆包大模型相关团队于 2025 年初启动了这一研究立项,并历经 8 个月终于完成系统性实验。
原理与实验设计
在本次工作中,如何定量分析视频生成模型对于物理规律的理解,是一大挑战。
豆包大模型团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流 DiT 架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有「世界模型」的潜力。
针对视频生成模型在学习物理定律时的泛化能力,团队探讨了下面三种场景的表现:
在基于视频的观察中,每一帧代表一个时间点,物理定律的预测则对应于根据过去和现在的帧生成未来的帧。因此,团队在每个实验中都训练一个基于帧条件的视频生成模型,来模拟和预测物理现象的演变。
通过测量生成视频每个帧(时间点)中物体位置变化,可判断其运动状态,进而与真实模拟的视频数据比对,判断生成内容是否符合经典物理学的方程表达。
实验设计方面,团队聚焦于由基本运动学方程支配的确定性任务。这些任务能清晰定义分布内 (ID) 和分布外 (OOD) 泛化,并且能够进行直观的误差量化评估。
团队选择了以下三种物理场景进行评估,每种运动由其初始帧决定:
中的底层物理规律是确定性的。
# github
# 很好
# 至关重要
# 所示
# 的是
# 如下图
# 多个
# 是在
# 这一
# 三种
# 见过
# https
# keras
# 人工智能
# idea
# 字节跳动
# 对象
# 并发
# 架构
# 豆包app
# 抖音豆包
# 豆包
# 为什么
# 模拟器
# 区别
# bing
# ai
# 苹果
# git
# 豆包大模型
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】
Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】
Codova AI:终极动态QR码生成器教程与功能详解
ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法
Depseek怎样写产品描述提示词_Depseek产品文案提示词技巧【技巧】
去哪旅行ai抢票助手怎样添加备选车次_去哪旅行ai抢票助手备选车次设置与切换【攻略】
CareerCraft AI:提升大学生实习就业的智能平台
千问如何生成预算执行总结_千问预算数据与执行对比分析【方法】
PixianAI抠图如何导出PSD_PixianAI分层导出与PSD保存设置【实操】
免费高效获客!ChatGPT助你快速生成潜在客户名单
AI语音生成器终极指南:免费工具与逼真语音编辑
AI婴儿播客视频制作终极指南:免费工具与步骤
使用文心一言进行中文客服话术库的逻辑优化
飞常准AI如何预判放票时间_飞常准AI放票时间预测与抢票时机【技巧】
通义万相做小红书配图怎么用_通义万相做小红书配图使用方法详细指南【教程】
Tradie Hub:领先的线索管理系统,助力业务增长
AI代码助手的崛起:软件工程的未来展望与实用指南
tofai入口官方网站 tofai网页版入口地址
宗教领袖影响力反思:警惕精神控制与信仰危机
千问怎么用提示词生成演讲稿_千问演讲稿提示词框架与开场【教程】
135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】
Cred.ai信用卡深度评测:信用提升的秘密武器
斑马AI能否关联学校教材_斑马AI教材同步与版本匹配【技巧】
如何使用豆包 AI 练习托福雅思口语对练
涉及超300座!保时捷中国宣布自建充电站将停止运营
AI广告全面解析:免费教程、JSON提示与营销策略
ChatGPT 在电商产品描述批量生成中的应用
ChatGPT 处理超长 PDF 文件的核心步骤
超频爱好者盛宴:液氮超频Xeon 28核处理器
文心一言 4.0 在公文写作规范中的实战技巧
使用Go语言构建图像识别系统:完整指南
轻松入门:如何创建自己的图像识别模型
AI论文写作终极指南:DeepSeek与HIX Bypass结合使用教程
VHEER AI:免费在线AI图像生成器终极指南
人脸识别的伦理困境:Massive Attack的演出引发的思考
AI CRM集成:提升客户关系管理效率的关键
Decart Lucy 14B:颠覆AI视频生成领域的革命性模型
MemeGIF Studio:AI驱动的GIF生成器全面评测与使用指南
宝可梦朱紫:如何高效刷闪异色宝可梦,提升游戏体验
电脑百度ai助手怎么关闭 电脑版百度ai助手移除教程
使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio
轻松生成二维码:免费AI工具终极指南
OpenAI Codex最强攻略:提升AI编码效率的秘诀
ClaudePC端怎么设快捷键_ClaudePC端快捷键设置【方法】
Apollo.io vs Instantly AI:深度测评与功能对比
lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】
豆包 AI 辅助进行家庭装修风格对比分析
讯飞星火怎样一键生成教案_讯飞星火教案生成与学科选择【教程】
即梦AI怎样生成产品描述_即梦AI产品描述生成与卖点提炼【实操】
AI加持:2025年最佳人工智能潜在客户生成工具
2024-11-08
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。