您現(xiàn)在的位置是:首頁 >財經(jīng) > 2021-04-29 22:02:14 來源:
麻省理工學(xué)院的PixelPlayer可以使用AI隔離樂器的聲音
均衡器是用你喜愛的曲調(diào)提升低音的一種方法,但麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的研究人員有更好的解決方案。他們的系統(tǒng)--PixelPlayer--使用人工智能來區(qū)分和隔離樂器的聲音,并使它們更響亮或更柔和。
經(jīng)過全面訓(xùn)練的PixelPlayer系統(tǒng),以視頻作為輸入,分離伴隨音頻并識別聲音源,然后計算圖像中每個像素的音量并“空間定位”它 - 即識別剪輯中的區(qū)域產(chǎn)生類似的聲波。
詳情見“ 像素之聲 ”,即將于9月在德國慕尼黑舉行的歐洲計算機視覺會議上接受的一篇新論文。
“我們期待一個最好的情況,我們可以識別出哪種樂器會發(fā)出哪種聲音,”CSAIL的博士生和該論文的共同作者Hang Zhao說。“我們很驚訝我們實際上可以在像素級別空間定位儀器。能夠做到這一點開辟了許多可能性,例如只需點擊一下視頻即可編輯各個樂器的音軌音頻。
PixelPlayer的核心是一個在MUSIC(儀器組合的多模態(tài)源)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),這是一個由YouTube提供的714個未經(jīng)修改的,未標(biāo)記的視頻數(shù)據(jù)集。(500個視頻 - 60個小時的價值 - 被用于訓(xùn)練,其余用于驗證和測試。)在訓(xùn)練過程中,研究人員用演奏聲學(xué)吉他,大提琴,單簧管,長笛,和其他工具。
它只是PixelPlayer多管機器學(xué)習(xí)框架的一部分。在經(jīng)過訓(xùn)練的視頻分析算法從剪輯的幀中提取視覺特征之后,第二個神經(jīng)網(wǎng)絡(luò) - 音頻分析網(wǎng)絡(luò) - 將聲音分成組件并從中提取特征。最后,音頻合成器網(wǎng)絡(luò)使用來自兩個網(wǎng)絡(luò)的輸出來將特定像素與聲波相關(guān)聯(lián)。
PixelPlayer完全是自我監(jiān)督的,這意味著它不需要人類注釋數(shù)據(jù),并且能夠識別超過20種樂器的聲音。(趙說,一個更大的數(shù)據(jù)集將允許它識別更多,但它將難以處理儀器的子類之間的微妙差異。)它還可以識別音樂的元素,如小提琴的諧波頻率。
研究人員認為PixelPlayer可以幫助進行聲音編輯,或者用于機器人以更好地理解動物,車輛和其他物體所產(chǎn)生的環(huán)境聲音。
他們寫道:“我們希望我們的工作可以開辟新的研究途徑,通過視覺和聽覺信號來理解聲源分離的問題。