噪聲回放系統(tǒng)的研究與運(yùn)用
劉大千
(睿輝聲學(xué)(深圳)科技有限公司,深圳市 518000)
摘 要:在現(xiàn)實(shí)生活中充斥著各式各樣的環(huán)境噪聲,背景噪聲傳輸質(zhì)量是影響語音感知整體質(zhì)量的一個(gè)重要因素。在一定的聲學(xué)環(huán)境中模擬出逼真的環(huán)境噪聲能對降噪算法的研發(fā)提供很大的幫助。本文描述了噪聲回放系統(tǒng)的原理與基礎(chǔ)架構(gòu),為通話降噪、ANC降噪、語音識別測試提供良好的聲學(xué)環(huán)境。
關(guān)鍵詞:環(huán)境噪聲;語音感知;噪聲回放;降噪算法;聲學(xué)環(huán)境
0 引言
隨著人們的生活品質(zhì)提高,對于音頻產(chǎn)品的要求也越來越高。在乘坐飛機(jī)、火車時(shí),為了獲得安靜的休息 空間,人們通常會選用帶ANC降噪的耳機(jī),減小耳道內(nèi)的噪聲干擾。人們在進(jìn)行通話的時(shí)候,對方希望突出主講方的話語聲,周圍的環(huán)境噪聲需要被過濾掉,因此通訊設(shè)備必須具備通話降噪算法。再或者是人們需要在嘈雜 的環(huán)境下使用智能語音交互設(shè)備,比如開著電視的時(shí)候想讓自己的智能音箱播報(bào)時(shí)間, 如果不對麥克風(fēng)收到的聲音信號做過濾處理,智能設(shè)備可能不能被喚醒,或者被誤喚醒。
因此,在音頻領(lǐng)域,對噪聲的處理已經(jīng)變得越來越重要。音頻工程師在調(diào)試噪聲處理算法的時(shí)候,如果去戶外進(jìn)行調(diào)試,戶外的噪聲環(huán)境多變,調(diào)試完成后并不能準(zhǔn)確的復(fù)現(xiàn)前一次的場景。因此怎樣在實(shí)驗(yàn)室環(huán)境下,真實(shí)復(fù)現(xiàn)實(shí)際環(huán)境中不同場景下的背景噪聲,就顯得非常必要。
1 噪聲回放系統(tǒng)的運(yùn)用
噪聲回放系統(tǒng)主要運(yùn)用在于需要在特定的聲場環(huán)境 中復(fù)現(xiàn)出多種不同的實(shí)景噪聲,給聲學(xué)算法研發(fā)提供一個(gè)穩(wěn)定可控的測試環(huán)境。 目前噪聲回放系統(tǒng)主要運(yùn)用在三個(gè)領(lǐng)域:隔音降噪測試、通話降噪測試、語音識別測試。
1.1 隔音降噪測試
隔音降噪的作用,是讓人能盡可能的聽不到外界的噪聲。如乘坐飛機(jī)、火車等交通工具的時(shí)候,人們需要一個(gè)安靜的環(huán)境休息,或者在安靜的環(huán)境下享受一些音樂,耳機(jī)隔音降噪便能在這樣的情境下起到很大的作用。 再或者車內(nèi)需要一個(gè)安靜的環(huán)境,不能被路噪干擾太多。
隔音降噪分為兩部分,物理降噪和算法降噪。物理降噪是靠物體本身,如耳機(jī)的耳塞部分,車的整體密封性,都能起到一定的降噪作用。低頻的聲音繞射能力強(qiáng), 高頻的聲音繞射能力弱,因此物理降噪針對高頻有良好的降噪效果。針對低頻噪聲,一般采用ANC降噪,也就是反相波抵消的方式降噪。揚(yáng)聲器播放與外界噪聲同幅反相的聲波,使其與噪聲疊加抵消。而高頻很難適用。 根據(jù)公式 (1)
100Hz的聲音傳過自身波長的時(shí)間是10ms ,5000Hz的聲音傳過自身波長的時(shí)間是0.2ms,算法的適配時(shí)間很難做到這么低,因此高頻很難使用ANC降噪。
在實(shí)驗(yàn)室中,我們實(shí)際采用實(shí)際錄制的環(huán)境噪聲,在消聲室中進(jìn)行噪聲回放,測試Airpods Pro的降噪曲線,如圖1所示。
藍(lán)線:原始噪聲曲線 紅線:被動(dòng)降噪曲線
綠線:主動(dòng)降噪曲線
圖1 AirPods Pro 的降噪曲線
1.2 通話降噪測試
在通訊過程中,背景噪聲傳輸質(zhì)量是影響語音感知整體質(zhì)量的一個(gè)重要因素。 通話降噪一般采用多mic降噪,利用波束成型的算法,針對人嘴方向作為主要收音方向,其余方向的聲音被作為環(huán)境噪聲。利用wiener filter等濾波器進(jìn)行噪聲的剔除。
測試采用ETSI 103 106的標(biāo)準(zhǔn),在消聲室中進(jìn)行回放標(biāo)準(zhǔn)的場景噪聲,同時(shí)人工頭說標(biāo)準(zhǔn)的語音。分析麥克風(fēng)采集到的聲音,傳輸背景噪聲不能太大,并且時(shí)域與頻域都要平穩(wěn)為佳。人嘴的語音要完整清晰,不能有過多衰減。測試結(jié)果為mos值評定。Nmos評估對噪聲的抑制能力,Smos評估對語音的還原能力。測試值從1~5分進(jìn)行打分,分?jǐn)?shù)越高代表能力越佳。
1.3 語音識別測試
語音識別與通訊降噪類似,需要在噪聲+與語音的環(huán)境中識別語音剔除噪聲,并且進(jìn)行識別。在有混響的聽音室中進(jìn)行噪聲回放,模擬家庭/戶外的環(huán)境噪聲,測試智能設(shè)備在噪聲下的喚醒率、識別率、誤喚醒率。
2 噪聲回放系統(tǒng)的硬件架構(gòu)
2.1 原始聲場錄音設(shè)備
噪聲回放系統(tǒng)的錄音通常需要模擬人耳的聽感,使回放后的聲音與原始噪聲場的聽感完全相同。錄音采用能代表多數(shù)人頭模型的頭肩模擬器,頭肩模擬器應(yīng)滿足ITU-T P.58的標(biāo)準(zhǔn)。人工頭垂直頭部截面尺寸如圖2所示, 耳廓的設(shè)計(jì)需滿足ITU-T P.57的標(biāo)準(zhǔn)要求,耳廓的平面與截面如圖3所示。
圖2 垂直頭部截面尺寸(單位毫米)
圖3 耳廓的平面與截面(單位毫米)
圖4中所示的由Brüel & Kj?r公司制作4128C人工頭Type3.3右耳的測量數(shù)據(jù),從2N~ 18N, 以2N作為一個(gè)步進(jìn),測量各頻點(diǎn)的靈敏度。
圖4 不同壓力下的耳頻響曲線測試
因?yàn)槿祟^設(shè)計(jì)有差異,不同的人頭會對聲場會有不同的頻響曲線。為了使不同的人頭的得到的曲線歸一化, 錄音時(shí)會引入雙耳均衡。雙耳均衡一般有三種:
(1) 自由場均衡(Free Field Equalization):接收在消聲室中從正面?zhèn)鱽淼娜肷渎晻r(shí),人頭頻響曲線是一條直線。
(2) 擴(kuò)散場均衡(Diffuse Field Equalization):接收在擴(kuò) 散場中從隨機(jī)方向傳來的入射聲時(shí),人頭頻響曲線是一 條直線。
(3) 無方向場均衡(Independent ofDirection Equalization):只考慮無方向性的器件影響(如共振,耳道等),人頭頻響曲線是一條直線。
2.2 測試聲場要求
噪聲回放系統(tǒng)需要在特定的房間中進(jìn)行搭建,房間要求如下:
· 房間尺寸: 房間尺寸需要在2.5×3m到3.5×4m之間。房間高度在2.2m到2.5m之間。
· 在200Hz-8KHz之間,房間混響時(shí)間小于0.7s。
· 房間的本底噪聲小于30 dBSPL(A)。
2.3 背景噪聲回放設(shè)備
· 四個(gè)高保真揚(yáng)聲器,揚(yáng)聲器功率在100 Watt以上, 靈敏度至少80dB( 1Watt/1m),頻響曲線至少在120-20KHz的區(qū)間范圍內(nèi)波動(dòng)不超過±3。
· 低音炮,提供20-200Hz的低頻聲音。
· 國際標(biāo)準(zhǔn)人工頭(同2. 1)。
· 高品質(zhì)功放。
· 高品質(zhì)聲卡(能進(jìn)行EQ調(diào)試)。
· 測量分析系統(tǒng)(如 HBK LAN-XI 3160-A042)。
3 噪聲回放系統(tǒng)搭建流程
3.1 聲場還原技術(shù)要求
聲場的還原應(yīng)做到人在聲場中心的聽感與在實(shí)際場景中的聽感沒有太大區(qū)別。在數(shù)據(jù)上表現(xiàn)為原始聲場與模擬聲場平均的聲壓級的大小差異應(yīng)在±1dB之內(nèi),頻域曲線對比每個(gè)頻域點(diǎn)差值在±3dB之內(nèi)。
3.2 聲場布置
揚(yáng)聲器的布置應(yīng)是按照矩形擺放,如圖5所示。人工頭放在聲場的正中心位置,四個(gè)揚(yáng)聲器按照矩形放在人頭的四個(gè)角上,距離為兩米,但是不要放置在房間的四個(gè)角上。如果房間是一個(gè)非矩形的形狀,音箱不按照嚴(yán)格的矩形擺放,稍不對稱是可取的。高質(zhì)量的揚(yáng)聲器應(yīng)與理想的頻率響應(yīng)相差9dB之內(nèi),過于強(qiáng)烈的濾波器需求,通常會導(dǎo)致不穩(wěn)定的聲場。在全消聲室中,稍微的不對成擺放可以減輕梳狀濾波器由于對稱所造成的干擾。 四個(gè)揚(yáng)聲器的高度基本相同,低音炮的擺放方式不重要,由于低頻的強(qiáng)穿透效果,低音炮可以擺放在除了房間角落之外的任何區(qū)域。
圖5 揚(yáng)聲器的布置位置
3.3 聲場聲壓級調(diào)節(jié)
人工頭放在中心位置,選用與錄音時(shí)相對應(yīng)的濾波方式(FF,DF,ID)采集聲音。調(diào)節(jié)揚(yáng)聲器音量大小。 由于聲場是需要由四個(gè)揚(yáng)聲器一起形成的,因此每個(gè)揚(yáng)聲器的聲音需要比音源大小小6dB。
3.4 聲場均衡
1 對單個(gè)揚(yáng)聲器進(jìn)行均衡。使用一個(gè)粉紅噪聲,分別給到四個(gè)揚(yáng)聲器 。給的信號頻率范圍為120Hz~ 20000Hz。左邊的揚(yáng)聲器作為左通道被左耳接收,計(jì)算耳接收到的頻率曲線,與原始音源的頻率曲線相 比較,根據(jù)公式 (2)
可以計(jì)算出揚(yáng)聲器的相對頻響曲線, |HLS(f)l 取3rd oct。 獲得了相對頻響曲線后,需要反向推出濾波均衡函數(shù)
(3)
均衡的結(jié)果在120Hz ~10KHz之間的波動(dòng)在±3dB之內(nèi)。且均衡最大衰減或補(bǔ)償值不能超過9dB。均衡后的曲線如圖6。
圖6 均衡后的頻響曲線
2 將左/右兩個(gè)揚(yáng)聲器作為一組,如②步驟調(diào)節(jié)濾波器進(jìn)行均衡,使得一組揚(yáng)聲器的曲線能夠在±3dB之內(nèi)波動(dòng)。為了消除粉紅噪聲周期性帶來的干擾,這個(gè)音源一般使用平穩(wěn)的實(shí)際錄音(如車噪) 。如果一組揚(yáng)聲器可以達(dá)到符合框線的頻響曲線,單個(gè)揚(yáng)聲器沒有達(dá)到也是被允許的。
3 低音炮的均衡頻率在30Hz~120Hz之間。高于120HZ的部分需要以18 dB/oct的分頻斜率做低通濾波。為了避免過多的低頻干擾,可以使用50Hz的高通濾波 器,分頻斜率為12dB/oct。均衡依舊采用粉紅噪聲作為測試音源,用1/3 OCT做頻域曲線,框線銜接高頻揚(yáng)聲器,為±3dB。
4 為了減輕揚(yáng)聲器疊加所產(chǎn)生的相位干擾與梳狀濾波 器效應(yīng),四個(gè)揚(yáng)聲器需要被加上不同的延時(shí)值。 由于房間與擺放的不同方式,延時(shí)值需要搭配FIR/IIR濾波器使用。最大的延時(shí)長度不應(yīng)超過50ms。在標(biāo)準(zhǔn)的矩形消聲室中,布置標(biāo)準(zhǔn)的揚(yáng)聲器位置,四個(gè)揚(yáng)聲器的延時(shí)值約為0ms、11ms、17ms、29ms。
3.5 聲場驗(yàn)證
驗(yàn)證聲場的均衡,將四個(gè)揚(yáng)聲器與低音炮一起播放音源,音源選擇平穩(wěn)的實(shí)際錄音。檢查頻率范圍 50Hz~ 10KHz,檢查頻響曲線是否在±3dB的框線之內(nèi),檢查人耳聽到的平均聲壓級與音源的聲壓級的差值在±1dBz之 內(nèi)。
4 聲場回放效果對比分析
在VoiceX實(shí)驗(yàn)室中,搭建HBK的STQ型背景噪聲回放系統(tǒng),如圖7所示。
圖7 VoiceX噪聲回放實(shí)驗(yàn)室
HBK的STQ型背景噪聲回放系統(tǒng)做到了全程聲場均衡自動(dòng)化,能非常精準(zhǔn)的進(jìn)行聲場均衡校準(zhǔn)。如圖8所示。
圖8 HBK STQ型背景噪聲回放系統(tǒng)均衡界面
聲場布置完成后進(jìn)行實(shí)際測試檢驗(yàn)。將人工頭放在聲場中間,播放錄制好的場景噪聲,用人工頭的左耳和右耳分別錄制背景噪聲,得到頻域曲線。再將頻域曲線與原始錄音的頻域曲線進(jìn)行對比,如圖9、圖10所示。由圖可見,均衡后的聲場與原始噪聲聲場頻域曲線幾乎貼合,擁有較好的聲場還原性。
圖 9 左耳曲線對比
圖10 右耳曲線對比
5 總結(jié)
本文圍繞在實(shí)驗(yàn)室環(huán)境中實(shí)現(xiàn)背景噪聲聲場還原的需求,提出了背景噪聲回放系統(tǒng)的搭建技術(shù)要求和實(shí)現(xiàn)手段,重點(diǎn)分析了聲場濾波均衡的過程,實(shí)現(xiàn)了在實(shí)驗(yàn)室中就可復(fù)現(xiàn)出外界環(huán)境噪聲的期望,為音頻算法的研發(fā)提供了極大的便利。
未來,該系統(tǒng)可搭配語音識別系統(tǒng)使用。并且可增加通道數(shù),將音箱數(shù)量擴(kuò)大到8個(gè)甚至更多,形成環(huán)繞的音箱矩陣,讓模擬的聲場具有更良好的方向感。人在聲場中間閉眼傾聽,仿佛身臨其境,從聲場感受出環(huán)境中的位移變換。該系統(tǒng)還可用于車載中,在高速行駛的車中使用多麥克風(fēng)錄音后,在實(shí)驗(yàn)室中還原出車在行駛時(shí)的噪聲,可為車載降噪技術(shù)提供強(qiáng)有力的輔助。
參考文獻(xiàn)
[1] ETSI ES 202 396-1 V1.7. 1 (2017-10) Speech and multimedia Transmission Quality (STQ);Speech quality performance in the presence of background noise;Part 1: Background noise simulation technique and background noise database[S].
[2] ETSI TS 103 106 V1.5. 1 (2018-04) Speech and multimedia Transmission Quality (STQ);Speech quality performance in the presence of background noise:Background noise transmission for mobile terminals-objective test methods[S].
[3] ITU-T P.57 ( 12/2011) Artificial ears[S].
[4] ITU-T P.58 (05/2013) Head and torso simulator for telephonometry[S].