2025年12月6日 星期六

美团开源 LongCat-Video,5分钟视频生成技术引爆AI创作新纪元

美团开源LongCat-Video,5分钟视频生成引领AI创作新革命

美团 LongCat Video 生成模型 AI 视频

​​唠唠资讯2025年10月27日 13:44消息,美团开源LongCat-Video,支持稳定生成5分钟视频内容。

   2025年10月27日,今日上午,美团LongCat团队正式发布并开源了LongCat-Video视频生成模型。据官方介绍,该模型在文本生成视频、图像生成视频等基础任务中均达到开源领域的最先进水平。同时,通过原生视频续写任务的预训练,LongCat-Video实现了分钟级的长视频连贯生成,有效保障了跨帧之间的时序一致性和物理运动的合理性,在长视频生成领域展现出显著优势。

   根据介绍,近年来,“世界模型”(World Model)被认为是通向下一代人工智能的核心技术,它使人工智能能够真正理解、预测甚至重构现实世界。作为一种能够模拟物理规律、时空变化和场景逻辑的智能系统,“世界模型”让人工智能具备了“观察”和“理解”世界运行本质的能力。而视频生成模型则有望成为构建世界模型的重要途径:通过视频生成任务,人工智能可以整合几何、语义、物理等多方面的知识,在数字空间中进行模拟、推演乃至预演真实世界的运作过程。

   作为一款基于DiffusionTransformer(DiT)架构的多功能统一视频生成基础模型,LongCat-Video创新性地通过“条件帧数量”来区分不同任务——文本生成视频时无需提供条件帧,图像生成视频时需输入1帧参考图,视频续写则依赖于多帧前序内容。该模型原生支持三大核心任务,无需额外模型调整,构建起“文生视频/图生视频/视频续写”的完整任务闭环。

   文生视频:可生成720p、30fps的高清视频,能够准确解析文本中的物体、人物、场景及风格等细节指令,其语义理解与视觉生成能力达到开源领域的最先进水平。

   图生视频:严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持详细指令、简洁描述、空指令等多类型输入,内容一致性与动态自然度表现优异。这一技术在图像生成领域展现出强大的能力,尤其在保持画面结构和逻辑关系方面具有显著优势。无论是复杂场景还是细微变化,系统都能精准还原原始图像的核心特征,同时确保动态过程的合理性与自然流畅。这种技术不仅提升了生成内容的质量,也为后续应用提供了更可靠的支撑。

   视频续写:视频续写是LongCatVideo的核心竞争优势,能够基于多帧条件帧延续视频内容,为长视频的生成提供原生的技术支持。

   依托视频续写任务的预训练技术、Block-Causal Attention机制以及GRPO后训练方法,LongCat-Video能够稳定生成5分钟长度的视频内容,且保持高质量输出,被称作行业“顶尖”水平。

   附有关链接如下:

   GitHub:https://github.com/meituan-longcat/LongCat-Video

   Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video

   Project Page:https://meituan-longcat.github.io/LongCat-Video/

相关阅读

微软紧急辟谣:AI销售目标被误读为硬性配额,实际为动态增长指引
联想杨元庆:2026年1月6日将发布个人超级智能体
AI火眼金睛上线!抖音直播严打低俗诱导,8.8万用户遭处罚
华为WATCH ULTIMATE DESIGN紫金款震撼登场:明日开启预售,智能腕表新标杆

发表评论

请输入您的姓名
请输入有效的邮箱地址
请填写评论内容

人工智能AI栏目

唠唠资讯人工智能AI栏目为您提供第一时间的新闻报道、深度分析和独家视角。

即时资讯

全天候更新热点事件,第一时间传递重要新闻

深度分析

专业团队解读事件背景与深层影响

24小时热文

友情链接

与优秀科技平台合作,共同构建创新数字生态

合作伙伴持续增加中,期待与更多优秀平台建立联系