核电站: 那种图生视频怎么做到的？

2024/09/29

核心技术就是唇形同步，这个是有现成的项目的。就是你上传一个音频，再上传一张照片，可以自动帮你生成。

比较早的是:

sadtalker

https://github.com/OpenTalker/SadTalker

这个比较早了，所以效果差一些。

还有一个wav2lip
https://github.com/Rudrabha/Wav2Lip

有个项目叫dinet的，也可以做：
https://github.com/MRzzm/DINet

复旦大学开源了一个hallo:
https://github.com/fudan-generative-vision/hallo

腾讯还出了个musetalk
https://github.com/TMElyralab/MuseTalk

如果自己不会部署，就在网上找个整合包。

核电站