核心技术就是唇形同步,这个是有现成的项目的。就是你上传一个音频,再上传一张照片,可以自动帮你生成。
比较早的是:
sadtalker
https://github.com/OpenTalker/SadTalker
这个比较早了,所以效果差一些。
还有一个wav2lip
https://github.com/Rudrabha/Wav2Lip
https://github.com/Rudrabha/Wav2Lip
有个项目叫dinet的,也可以做:
https://github.com/MRzzm/DINet
https://github.com/MRzzm/DINet
复旦大学开源了一个hallo:
https://github.com/fudan-generative-vision/hallo
https://github.com/fudan-generative-vision/hallo
腾讯还出了个musetalk
https://github.com/TMElyralab/MuseTalk
https://github.com/TMElyralab/MuseTalk
如果自己不会部署,就在网上找个整合包。
没有评论:
发表评论