【全國】 集團(tuán)簡介 關(guān)注我們
幫學(xué)院 商標(biāo)分類表-2024尼斯分類 知識產(chǎn)權(quán)交易

快幫集團(tuán)

騰訊企業(yè)郵箱,QQ企業(yè)郵箱,企業(yè)郵箱---騰訊音視頻實(shí)驗(yàn)室Interspeech 2017論文:單通道語音分離中應(yīng)用深度

2019-04-30
 
騰訊企業(yè)郵箱,QQ企業(yè)郵箱,唯一與微信完美結(jié)合的企業(yè)郵箱.騰訊企業(yè)郵箱客服電話4008-919-003,騰訊企業(yè)郵箱團(tuán)隊(duì)傾力打造,收費(fèi)版整合了更多企業(yè)應(yīng)用,速度更快,收發(fā)更順暢,服務(wù)更穩(wěn)定.騰訊企業(yè)郵箱登錄入口,QQ企業(yè)郵箱登錄入口,購買騰訊企業(yè)郵箱,騰訊QQ企業(yè)郵箱,騰訊免費(fèi)企業(yè)郵箱,騰訊企業(yè)郵箱經(jīng)銷商,深圳騰訊企業(yè)郵箱,廣東騰訊企業(yè)郵箱,東莞騰訊企業(yè)郵箱.
 
語音通訊領(lǐng)域的國際頂級學(xué)術(shù)會(huì)議 Interspeech 2017 在瑞典斯德哥爾摩舉辦,騰訊音視頻試驗(yàn)室王燕南博士的一篇論文中選,并獲邀在大會(huì)作了 oral 陳說,本文對此論文進(jìn)行了介紹。讀者可點(diǎn)擊閱讀原文檢查該論文。 
 
Interspeech 是由國際語音通訊協(xié)會(huì) ISCA(International Speech Communication Association)安排的語音研討領(lǐng)域的頂級會(huì)議之一,是全球最大的綜合性語音信號處理領(lǐng)域的科技盛會(huì),該會(huì)議每年舉辦一次,每次都會(huì)招引全球語音信號領(lǐng)域以及人工智能領(lǐng)域出名學(xué)者、企業(yè)以及研發(fā)人員參與。 
 
騰訊音視頻試驗(yàn)室王燕南博士的論文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》中選 Interspeech 2017,并受邀在會(huì)場進(jìn)行了 oral 陳說。 
 
王燕南博士的論文主要內(nèi)容是研討在單通道語音分別中運(yùn)用的深度神經(jīng)網(wǎng)絡(luò)的操練優(yōu)化,該技術(shù)旨在從混合的多個(gè)說話人的語音信號中分別出政策說話人的語音,在語音辨認(rèn)、語音通話以及殘疾人助聽領(lǐng)域等均具有重要運(yùn)用。 
 
 
 
瑞典當(dāng)?shù)貢r(shí)間 8 月 22 日下午兩點(diǎn)半,在 Interspeech 2017 會(huì)場,王博士做 oral 陳說。 
 
在這篇論文中,王博士的研討著重于改進(jìn)單通道語音分別匯總依據(jù)深度神經(jīng)網(wǎng)絡(luò)的頻譜映射方法中常用的最小均方過失準(zhǔn)則(MMSE, minimum mean squared error)。在依據(jù)深度神經(jīng)網(wǎng)絡(luò)的單通道語音分別中,通過多類回歸方法從混合語音頻譜中恢復(fù)政策說話人的語音,主要是依據(jù) MMSE 準(zhǔn)則最小化網(wǎng)絡(luò)輸出的語音頻譜和政策頻譜的差異。對此,王博士等人通過對深度神經(jīng)網(wǎng)絡(luò)的輸出的猜想過失進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)輸出的對數(shù)功率譜每一維分量都遵守一個(gè)單峰分布,如下圖所示: 
 
由此引入零均值的高斯分布函數(shù)來描繪神經(jīng)網(wǎng)絡(luò)的猜想過失矢量,引入對其進(jìn)行概率分布的學(xué)習(xí),然后運(yùn)用最大似然估計(jì)方法操練深度神經(jīng)網(wǎng)絡(luò)的參數(shù),如下圖所示。 
 
 
 
通過試驗(yàn)對比發(fā)現(xiàn),依據(jù)該最大似然方法操練的神經(jīng)網(wǎng)絡(luò)分其他語音在不同的客觀指標(biāo)上均超過了運(yùn)用傳統(tǒng)的最小均方過失準(zhǔn)則操練的神經(jīng)網(wǎng)絡(luò)。 
 
 
 
 
其他,通過在驗(yàn)證集上的 reconstruction loss 的改動(dòng)情況對比,王博士等人發(fā)現(xiàn)該模型有更強(qiáng)的泛化才能,而在收斂速度上,該方法也具有顯著的優(yōu)勢,對比情況如下圖所示。 
 
 
 
作者簡介 
 
王燕南,結(jié)業(yè)于中國科學(xué)技術(shù)大學(xué)語音信號與信息處理國家工程試驗(yàn)室,研討領(lǐng)域包括語音增強(qiáng)和分別、語種辨認(rèn)、手寫辨認(rèn)等,在 Interspeech 等出名語音國際會(huì)議以及 IEEE Transaction on Audio,Speech and Language Processing 期刊宣布多篇文章,在無監(jiān)督語音分別方法上做出了重要貢獻(xiàn)。王博士于 2017 年參與騰訊音視頻試驗(yàn)室,專注于語音增強(qiáng)以及分別等前端信號處理領(lǐng)域研討。 
 
關(guān)于騰訊音視頻試驗(yàn)室 
 
騰訊音視頻試驗(yàn)室,組建于 2016 年 11 月,專注于音視頻通訊技術(shù)的前瞻性研討,包括全球?qū)崟r(shí)音視頻網(wǎng)絡(luò)優(yōu)化,音視頻編解碼前沿算法研討、計(jì)算機(jī)視覺圖畫處理、依據(jù) AI 的音頻語音增強(qiáng)、動(dòng)靜美化及音視頻質(zhì)量評測等。 
 
在效力于騰訊外交體系下的海量用戶一同,在實(shí)時(shí)音視頻通訊、圖畫處理和音視頻處理等技術(shù)領(lǐng)域積累了十幾年的研討閱歷,具有工作搶先的技術(shù)水平?,F(xiàn)在已為工作數(shù)百個(gè)產(chǎn)品供應(yīng)了音視頻技術(shù)支撐與效力,如 QQ 電話、騰訊云、企業(yè)微信、QQ 空間、全民 K 歌、快手、斗魚、虎牙、蘑菇街等。 
 

文章內(nèi)容來源于網(wǎng)絡(luò),侵刪

常見問題

京公網(wǎng)安備 11010802036823號

   

京ICP備16051929號

   

增值電信業(yè)務(wù)許可證編號:京B2-20190686

   

專利代理機(jī)構(gòu)代碼:16087

   

人力資源服務(wù)許可證編號:1101082019043

   

代理記賬許可證書編號:DLJZ11010820210015

0