SadTalker

開源免費的會說話照片生成器。丟一張靜態人像加一段音訊,它就讓臉部跟著聲音動起來、對上嘴型與表情。能在 Hugging Face、Colab 或自己電腦上跑,是研究與愛好者圈的人氣專案。

免費 ★ 4 / 5

一句話介紹：開源免費的會說話照片生成器。丟一張靜態人像加一段音訊,它就讓臉部跟著聲音動起來、對上嘴型與表情。能在 Hugging Face、Colab 或自己電腦上跑,是研究與愛好者圈的人氣專案。

SadTalker 是什麼

SadTalker 是一個開源、完全免費的「會說話照片」生成工具,由 Xiaodong Cun(Vinthony)等人開發。概念很簡單:你給它一張靜態人像照,再配一段音訊,它就會分析聲音、讓照片裡的臉跟著動起來——嘴型對上說話內容,連表情與頭部動作也一併模擬,把一張不會動的圖變成一段像在說話的影片。

它最大的特點是「開源 + 免費 + 自己掌控」。你可以在 Hugging Face Spaces 上直接線上玩、用 Google Colab 跑、或是把 GitHub 上的程式碼拉下來在自己電腦本地執行。對於不想把人像與音訊上傳到第三方商業服務的人,本地跑這條路特別有吸引力。也因為開源,它在 AI 研究與愛好者社群裡累積了相當高的人氣,常被拿來做實驗與二次開發的基底。

功能特色與適用場景

SadTalker 提供幾個可調的設定,例如預處理方式、靜止模式(still mode)、以及臉部增強,讓你能微調生成出來的頭部動作幅度與影片品質。輸入端就是一張圖加一段音訊,輸出端是對上嘴型的說話影片,流程相當直覺。

適合的場景包含:研究人員與開發者拿它做數位人、虛擬主播的技術驗證;內容創作者想把一張角色立繪變成會講話的片段;或是想在不外送資料的前提下,本地生成 talking head 影片的人。要務實看待的是,它是研究導向的開源專案,品質與穩定度不見得比得上打磨成熟的商業產品,本地安裝時也可能被防毒軟體誤報,介意這些的人改用 Colab 等雲端方式會比較省心。它的價值在於免費、透明、可自架,而不是開箱即用的極致體驗。