BLOG + NEWS

HOME BLOG
2024 INTERSPEECH 發表大成功!
BLOG・BIICer's Life 經驗分享
SHARE
2024 INTERSPEECH 發表大成功!
2024 INTERSPEECH 發表大成功!
10
SEP
2024
315

INTERSPEECH 為語音界兩大國際權威頂級會議之一,在語音訊號及語言處理領域具有極重要地位,其每年召開一次,為期 5 天的 2024 年 INTERSPEECH 2024 會議在希臘科斯島(Kos, Greece)舉辦。此次會議有許多前瞻及重要領域的著名學者出席,提供一個絕佳的機會,讓來自世界各地志同道合的專業人士交流切磋,激發與會研究者靈感、擴展學術視野。

這次 INTERSPEECH 會議中,感謝各方單位厚愛以補助支持,BIIC Lab 很榮幸能在大會上發表 8 篇論文!


(一)“RW-VoiceShield: Raw Waveform-based Adversarial Attack on One-shot Voice Conversion”
這篇論文由由實驗室碩士班學生楊晶宇報告,著重在應對近年來進展甚大的單句語音轉換(one-shot voice conversion)技術,即改變一句話中語者的語音特徵;隨著技術成熟和逼真度提高,語音轉換技術面臨著被不當利用的隱私問題,譬如近年來屢見報章報導的深偽(deepfake)議題。為了更進一步保護隱私,這篇研究提出RW-VoiceShield,透過產生細微噪聲來攻擊單句語音轉換模型來保護語音免受複製。根據實驗,經 RW-VoiceShield 保護後,VC 模型生成的語音與原始語音在語者特徵方面存在顯著差異。此外,即使在受保護的語音中加入對抗性噪聲,語者的特徵仍然可以被明確識別。  
(二)“An Investigation of Group versus Individual Fairness in Perceptually Fair Speech Emotion Recognition”
由實驗室博士班學生簡婉軒進行報告,承繼著他一直以來的研究關懷,這篇研究從兩個資料集(IEMOCAP 和 BIIC-Podcast,前者公開供學術自由使用,後者是由我們自己搜集並建立的資料集)探討了語音情緒識別(SER)中群體公平性和個體公平性之間的關係,分析評分者性別對情緒標籤的影響。研究發現,在 IEMOCAP 資料集中,男性評分者的觀點對最終標籤的影響較大,顯示出潛在的性別偏見。這種偏見可能導致SER模型在識別女性情緒時表現較差。相對地,BIIC-Podcast 資料集由於評分者數量較多,性別偏見的影響較小。此外,在探討群體與個體間的權衡後,這篇論文發現,過度強調群體公平性可能會損害個體公平性;例如,當模型被訓練成減少基於性別的群體差異時,可能會降低其準確識別某些個體情緒的能力。最後,研究還發現,資料集中群體間的差異越大,這種權衡就越明顯。        
(三) “SWiBE: A Parameterized Stochastic Diffusion Process for Noise-Robust Bandwidth Expansion”
這篇論文由實驗室碩士班學生林蔭澤進行報告,提出了一種基於分數匹配生成模型(SGM)的新方法SWiBE用於進行語音頻寬擴展(BWE),並提升模型在噪聲環境下的穩健性;其將頻寬擴展過程轉化為逐步擴展的隨機擴散過程,並使用了 VoiceBank-DEMAND 資料集以評估模型成效。實驗結果顯示,與基準方法相比,SWiBE 在客觀指標和主觀聽感評測上都取得了顯著的效能提升。      
(四)“A Cluster-based Personalized Federated Learning Strategy for End-to-End ASR of Dementia Patients”,
本論文探討了應用於阿茲海默症檢測的聯邦學習(FL)中的資料異質性問題。研究提出了一種基於集群的聯邦學習方法(CPFL-CharDiv),利用字元級多樣性嵌入(CharDiv)將資料劃分到不同的集群中,以減少客戶端資料異質性帶來的影響。實驗結果顯示,CPFL-CharDiv 能有效降低詞錯誤率(WER),特別是在具有較長停頓的語音樣本上表現更佳。          
(五)“An Inter-Speaker Fairness-Aware Speech Emotion Regression Framework”
此研究由實驗室碩士生周星航分享,聚焦於語音特徵的影響關心SER模型中的公平性。研究人員使用 MSP-Podcast 和 IEMOCAP 兩個資料集,開發了感知三種群體——性別、語者、集群——公平性的 SER 模型 (Fairgender、Fairspeaker、Faircluster)。結果顯示,三組 Fair 模型在兩個資料集上都能在保持高辨識效能的同時,有效降低不同群體之間的偏見;此外,研究也發現,透過增強語者的公平性,也能有效保護語者的隱私、使模型更難以從語音特徵中識別特定語者。    
(六)“Can Modelling Inter-Rater Ambiguity Lead To Noise-Robust Continuous Emotion Predictions?”  
由實驗室博士班學生吳亞澤發表,在這篇論文中,作者們探討了在連續情緒識別(CER)中建模評估者間模糊性的問題,並提出了一種新的損失函數,將評估者間的模糊性納入模型訓練中,以提升模型在噪音環境下的穩健性。研究人員使用 RECOLA 資料集進行實驗,結果顯示,與未考慮評估者間模糊性的模型相比,新提出的損失函數能顯著提升模型在不同噪音條件下的運算速度與準確度。    
(七)“Emo-bias: A Large Scale Evaluation of Social Bias on Speech Emotion Recognition”  
由實驗室畢業生周惶振博士參與研究,在這篇論文中,研究了以自我監督方法訓練語音情緒識別模型時所可能產生的性別偏見,並探討這種偏見對後續情緒識別的影響。研究人員使用了多個情緒資料集和預訓練模型,並利用語音鑲嵌關聯測試(SpEAT)來評估模型表徵中的性別偏見;結果發現,大多數模型都存在一定程度的性別偏見,特別是自動回歸預測編碼(APC)、非自動回歸預測編碼(NPC)和向量量化(VQ)-APC模型,並且性別偏見會影響到後續的SER應用中,導致模型在識別不同性別情緒時表現出差異。  
(八)“A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition”  
這篇論文由實驗室博士生Shreya Upadhyay報告,關注跨語言的語音情緒識別,並提出基於語音錨點的遷移學習方法,以解決不同語言之間情緒表達差異的問題。論文使用了兩個資料集:MSP-Podcast(MSP-P)作為源資料集,BIIC-Podcast(BIIC-P)作為目標資料集,並比較了WavLM和Whisper兩種預訓練模型的效能。結果顯示,相較於優於基於情感標籤的遷移學習方法,基於語音錨點的遷移學習方法能有效提升跨語言語音情緒識別的效能。    
SHARE