YingSound

Content

Promotional Video
Abstract
Method
V2A Generation Results Visualization
V2A Generation Examples
Audio Generation for Game
Audio Generation for Animation
Audio Generation for Real World
Audio Generation for Long Time Video
Audio Generation for AI Generated Video
Audio Generation Comparison with Prior Work
Text Control

Promotional Video

Abstract

Generating sound effects for videos requires creating industry-standard sound effects that diverge significantly to produce high-quality audio generation in few-shot settings. To address this problem, we introduce YingSound, a foundation model designed for video-guided sound generation that supports high-quality audio generation in few-shot settings. The foundation model consists of two modules. The first module is a conditional flow matching transformer that builds a fine-grained, learnable Audio-Vision Aggregator (AVA) that integrates high-resolution visual features with corresponding audio features across multiple stages. The second module is a multi-modal visual-audio chain-of-thought framework that leverages advanced audio generation techniques to produce high-quality audio in few-shot settings. Finally, an industry-standard video-to-audio dataset that encompasses a diverse array of real-world scenarios is presented. Through both automated evaluations and human studies, we show that YingSound effectively generates high-quality synchronized sounds across diverse conditional inputs, surpassing existing methods in performance.