影/七嘴八舌聽不清?Google AI 新技能─獨立特定音訊 跟惱人環境音說掰

影/七嘴八舌聽不清?Google AI 新技能─獨立特定音訊 跟惱人環境音說掰
▲Google AI 能抽出特定音訊,分清楚誰在說話。(圖/翻攝自YouTube)

吳佳臻/綜合報導

在吵雜、人潮多的場所中,當人們談論到自己的名字或感興趣的議題時,我們可以自動遮蔽其他噪音,只關注在欲得知的事物上,這是人類擁有的能力之一,被稱之為「雞尾酒會效應」,近日 Google AI 也學會了這項特技。

儘管近年語音辨識技術已有顯著進步,但是雞尾酒會效應(cocktail party effect)仍是一道跨不過去的坎,原因在於機器若無法擷取單獨音訊,自然沒辦法分辨語音內容。好消息是,近日 Google 終於有了新突破,並將該技術稱之為「Looking to Listen」。

Google 研究團隊打造出一個深度學習視聽模型,仿照雞尾酒會效應,從混合音訊中分離出單一音訊,例如以增強特定對象的人聲、降低環境音等方式等,讓模型專注於辨識單一特定的人聲。

▲分離打在一起的對話。(影片/取自 YouTube,若遭移除請見諒,下同)

該模型最大的突破在於,讓它同時判讀影像和音訊,透過視覺特徵來辨識當下正在說話的人,具體來說透過嘴型和聲音,協助判斷影片中的人物與聲音的對應,再經過音訊分離模型之後,輸出個別聲音資料,這樣的效果比起單純語音辨識更加準確。

▲「Looking to Listen」運作過程。(圖/翻攝自 Google)

為了訓練模型,Google 收集了 YouTube上 10 萬筆的演講影片,從中截取出 2000 個小時只有講者聲音沒有任何雜音的「乾淨」影音,再將這些片段合成出人工雞尾酒派對資料庫,並與其他資料庫結合,作為深度學習的數據。運作的成果,能分離不同的聲音,辨識獨立的人聲。

這項技術的應用領域相當廣泛,例如提供更準確的自動生成字幕,會議或吵雜環境的影音後期處理等。目前 Google 也公布利用該模型,進行人聲增強、分隔語音的示範影片。

▲消除咖啡廳背景音。

▲只留下主要說話者聲音。

留言

延伸閱讀