您現(xiàn)在的位置是:首頁 >要聞 > 2020-11-30 15:03:38 來源:
通過學(xué)習(xí)音樂家的肢體語言來識別旋律
導(dǎo)讀 我們用耳朵聽音樂,也用眼睛聽音樂,欣賞鋼琴演奏者的手指在琴鍵上飛舞,小提琴演奏者的弓弦越過琴弦。當(dāng)耳朵無法分辨兩種樂器時,眼睛通常
我們用耳朵聽音樂,也用眼睛聽音樂,欣賞鋼琴演奏者的手指在琴鍵上飛舞,小提琴演奏者的弓弦越過琴弦。當(dāng)耳朵無法分辨兩種樂器時,眼睛通常會通過將每個樂手的動作與每個聲部的節(jié)拍相匹配來進行調(diào)整。
MIT-IBM Watson AI Lab開發(fā)的一種新的人工智能工具利用計算機的虛擬眼睛和耳朵來分離相似的聲音,這些聲音即使對于人類也很難區(qū)分。該工具通過將各個音樂家的動作(通過其骨骼關(guān)鍵點)與各個部分的速度進行匹配來改進早期迭代,從而使聽眾可以在多個長笛或小提琴中隔離單個長笛或小提琴。
這項工作的潛在應(yīng)用范圍包括混音,增加錄音中的樂器音量,以及減少導(dǎo)致人們在視頻會議通話中互相交談的混亂情況。這項工作將在本月的虛擬計算機視覺模式識別會議上進行介紹。
該研究的主要作者,該實驗室的IBM研究人員Chuang Gan說:“人體關(guān)鍵點提供了強大的結(jié)構(gòu)信息。” “我們在這里使用它來提高AI收聽和分離聲音的能力。”
在這個項目以及其他類似項目中,研究人員已經(jīng)利用同步音視頻軌道來重現(xiàn)人類的學(xué)習(xí)方式。通過多種感覺模式學(xué)習(xí)的AI系統(tǒng)可能能夠以更少的數(shù)據(jù)更快地學(xué)習(xí),而無需人類為每個現(xiàn)實世界的表示添加討厭的標(biāo)簽。麻省理工學(xué)院教授,??該研究的共同資深作者安東尼奧·托拉爾巴(Antonio Torralba)說:“我們從所有的感官中學(xué)習(xí)。“多傳感器處理是可以執(zhí)行更復(fù)雜任務(wù)的嵌入式智能和AI系統(tǒng)的先驅(qū)。”