2025年12月6日 星期六

腾讯混元开源端到端AI模型 Hunyuan-Foley:文字+视频=电影级音效生成神器

文字生音效,视频变电影——腾讯混元开源端到端AI模型引领音效生成新纪元

腾讯混元 AI 视频音效 电影级 开源

​​唠唠资讯2025年08月28日 12:59消息,腾讯混元开源端到端AI模型Hunyuan-Foley,实现视频与文字生成电影级音效。

   8月28日消息,腾讯混元今日中午宣布开源端到端视频音效生成模型Hunyuan-Foley,用户只需输入视频和文字,就能为视频匹配电影级音效。 这一技术的推出,标志着AI在视频内容制作领域的进一步深化。通过将文字描述与视频内容结合,自动生成高质量音效,不仅提升了视频制作的效率,也为创作者提供了更多可能性。尤其在影视、短视频等应用场景中,这种自动化音效生成能力或将大幅降低后期制作成本,推动行业向智能化方向发展。同时,开源举措也表明腾讯在推动AI技术普及和生态建设方面的积极态度。

   根据官方介绍,HunyuanVideo-Foley不仅突破了AI生成视频只能“观看”而无法“聆听”的限制,让无声AI视频成为过去式,更实现了“理解画面、解析文字、精准匹配音效”,为用户带来更加沉浸的视听体验。这款音效生成工具可广泛应用于短视频创作、影视制作、广告设计以及游戏开发等多个领域。

   文字描述:Engine revving loudly and accelerating.

   文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.

   混元团队打造了一套完整的数据处理流程,实现了音视频数据的自动标注与筛选,构建了一个规模达10万小时的高质量TV2A数据集,为模型训练提供了坚实的基础,从而提升了模型的泛化能力。该模型能够在多种复杂的视频环境下生成音画同步、语义一致的高质量音频,包括音效和背景音乐。生成的音频可与无声音频视频配合使用,显著增强了视频的真实感和沉浸体验。

   附有关链接如下:

   体验入口:https://hunyuan.tencent.com/video/zh?tabIndex=0

   项目官网:https://szczesnys.github.io/hunyuanvideo-foley/

   代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

   技术报告:https://arxiv.org/abs/2508.16930

   Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley

相关阅读

微软紧急辟谣:AI销售目标被误读为硬性配额,实际为动态增长指引
联想杨元庆:2026年1月6日将发布个人超级智能体
AI火眼金睛上线!抖音直播严打低俗诱导,8.8万用户遭处罚
华为WATCH ULTIMATE DESIGN紫金款震撼登场:明日开启预售,智能腕表新标杆

发表评论

请输入您的姓名
请输入有效的邮箱地址
请填写评论内容

人工智能AI栏目

唠唠资讯人工智能AI栏目为您提供第一时间的新闻报道、深度分析和独家视角。

即时资讯

全天候更新热点事件,第一时间传递重要新闻

深度分析

专业团队解读事件背景与深层影响

24小时热文

友情链接

与优秀科技平台合作,共同构建创新数字生态

合作伙伴持续增加中,期待与更多优秀平台建立联系