亞馬遜的Alexa可根據(jù)語音判斷你需要的選擇,但是人工智能(AI)卻可以感知你是否生氣。麻省理工學院媒體實驗室的分支機構(gòu)Affectiva的聲聯(lián)網(wǎng)系統(tǒng),可在短短1.2秒內(nèi)從音頻數(shù)據(jù)中分辨出你的憤怒。無論是什么語言,這個時間剛好超過人類感知憤怒所需的時間。
AI可分辨人類的憤怒
Affectiva的研究人員在Arxiv.org上最新發(fā)表的一篇論文中描述了這一現(xiàn)象(“從聲音表征中轉(zhuǎn)移學習,用于語音中的憤怒檢測”)。它建立在語音和面部數(shù)據(jù)的基礎(chǔ)上,并建立相關(guān)的情感檔案。今年,該公司與Nuance合作開發(fā)了一種車載人工智能系統(tǒng),可以從攝像頭的反饋中檢測駕駛員疲勞的跡象。在2017年12月,它推出了語音API,該API使用語音識別功能,諸如大笑、憤怒等情緒,以及音量、音調(diào)、速度和停頓。
論文的共同作者寫道:“利用深度學習網(wǎng)絡(luò)的力量進行情感識別的一個重要問題是,深度網(wǎng)絡(luò)所需的大量數(shù)據(jù),與小規(guī)模的語音數(shù)據(jù)之間的不匹配。經(jīng)過訓練的憤怒檢測模型提高了性能,并能很好地概括各種行為,從而引發(fā)情緒言語的數(shù)據(jù)集。此外,我們提出的系統(tǒng)具有較低的延遲,適用于實時應(yīng)用。”
什么是聲聯(lián)網(wǎng)?
SoundNet(聲聯(lián)網(wǎng))由一個卷積神經(jīng)網(wǎng)絡(luò)(一種通常用于分析視覺圖像的神經(jīng)網(wǎng)絡(luò))組成,它在視頻數(shù)據(jù)集上進行訓練。為了讓它識別言語中的憤怒情緒,研究小組首先搜集了大量的普通音頻數(shù)據(jù)——200萬段視頻,或者僅僅相當于一年多的時間——使用另一種模型生成的ground truth。然后,他們使用一個更小的數(shù)據(jù)集IEMOCAP對其進行微調(diào),該數(shù)據(jù)集包含12個小時的帶注釋的視聽情感數(shù)據(jù),包括視頻、語音和文本轉(zhuǎn)錄。
為了測試人工智能模型的通用性,該團隊評估了它的英語訓練模型用于漢語普通話語言的情感數(shù)據(jù)(普通話情感語料庫,簡稱MASC),他們的報告說,它不僅很好地推廣到英語語音數(shù)據(jù),而且對漢語數(shù)據(jù)也很有效——盡管性能略有下降。
AI可識別語音情感模型
研究人員說,他們的成功證明了一種“有效的”和“低延遲的”語音情感識別模型,可以通過轉(zhuǎn)移學習得到顯著改善。轉(zhuǎn)移學習是一種技術(shù),它利用人工智能系統(tǒng)在之前標注過的樣本的大數(shù)據(jù)集上訓練,在一個數(shù)據(jù)稀疏的新領(lǐng)域中引導(dǎo)訓練——在這種情況下,人工智能系統(tǒng)能通過訓練分類一般聲音。
這一結(jié)果是有希望的,因為盡管情感語音數(shù)據(jù)集很小,而且獲取起來也很昂貴,但是大量的自然聲音事件數(shù)據(jù)集是可用的,比如用于訓練SoundNet的數(shù)據(jù)集或谷歌的音頻集。僅這兩個數(shù)據(jù)集就有大約1.5萬個小時的標記音頻數(shù)據(jù)。“憤怒分類有很多有用的應(yīng)用,包括對話界面和社交機器人、交互式語音應(yīng)答系統(tǒng)、市場研究、客戶代理評估和培訓,以及虛擬現(xiàn)實和增強現(xiàn)實。”
他們把開發(fā)其他大型公共語料庫的工作留給了未來,并為相關(guān)的語音任務(wù)訓練人工智能系統(tǒng),比如識別其他類型的情感和情感狀態(tài)。相信,在未來AI將發(fā)揮更多的作用,你認為未來的AI還能應(yīng)用在哪些領(lǐng)域呢?
【來源:千家網(wǎng)】