唠唠资讯2025年08月28日 12:59消息,腾讯混元开源端到端AI模型Hunyuan-Foley,实现视频与文字生成电影级音效。
8月28日消息,腾讯混元今日中午宣布开源端到端视频音效生成模型Hunyuan-Foley,用户只需输入视频和文字,就能为视频匹配电影级音效。 这一技术的推出,标志着AI在视频内容制作领域的进一步深化。通过将文字描述与视频内容结合,自动生成高质量音效,不仅提升了视频制作的效率,也为创作者提供了更多可能性。尤其在影视、短视频等应用场景中,这种自动化音效生成能力或将大幅降低后期制作成本,推动行业向智能化方向发展。同时,开源举措也表明腾讯在推动AI技术普及和生态建设方面的积极态度。
根据官方介绍,HunyuanVideo-Foley不仅突破了AI生成视频只能“观看”而无法“聆听”的限制,让无声AI视频成为过去式,更实现了“理解画面、解析文字、精准匹配音效”,为用户带来更加沉浸的视听体验。这款音效生成工具可广泛应用于短视频创作、影视制作、广告设计以及游戏开发等多个领域。
文字描述:Engine revving loudly and accelerating.
文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.
混元团队打造了一套完整的数据处理流程,实现了音视频数据的自动标注与筛选,构建了一个规模达10万小时的高质量TV2A数据集,为模型训练提供了坚实的基础,从而提升了模型的泛化能力。该模型能够在多种复杂的视频环境下生成音画同步、语义一致的高质量音频,包括音效和背景音乐。生成的音频可与无声音频视频配合使用,显著增强了视频的真实感和沉浸体验。
附有关链接如下:
体验入口:https://hunyuan.tencent.com/video/zh?tabIndex=0
项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
技术报告:https://arxiv.org/abs/2508.16930
Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley