用於語音情緒理解的音訊大語言模型之國際化
本計畫與 Google 合作,旨在推動跨文化語音大本計畫與 Google 合作,旨在推動跨文化語音大型語言模型(Audio-based Large Language Model, Audio-LLM)於情緒理解領域之研究與國際化發展。研究目標在於建構能理解並分析多語、多文化語音資料的模型架構,並探討不同文化語境下語音特徵、語意關鍵詞對模型輸出之影響與潛在偏誤(bias)。
在技術層面,計畫將聚焦於「語音情緒辨識」與「語音內容理解」兩大主題。透過蒐集並標註具文化差異性的語音資料,分析各式音訊大型語言模型於跨文化語料上的行為差異,檢驗模型在情緒判定與語意理解上的穩健性與公平性,進而提出減少文化偏差的模型調適策略。
此外,計畫亦著重於「具同理心與情緒回應能力的對話生成模型」開發。此模型輸入為富含情緒的語音訊號,輸出則以具情感理解的文字回應為主,未來將進一步延伸至語音回應生成,使模型能以自然且具同理心的語調進行互動。
整體而言,本計畫將結合語音訊號處理、自然語言理解與跨文化心理語言學觀點,建立具國際化視野與社會影響力的音訊大語言模型研究基礎,促進人機互動技術在全球多語環境中的公平與包容發展。