國立清華大學和中央研究院在本月同舉辦「國際自動語音辨識」學術會議 IEEE ASRU 2023(Automatic Speech Recognition and Understanding),超過 400 位來自世界各地的學者齊聚台北北投,展開為期五天的交流,共同研討 AI 自動語音辨識科技的前景。
適逢 ASRU 所屬的 IEEE 訊號處理學學會(IEEE Signal Processing Society)成立75週年,今年的 ASRU 會議比之以往更受關注。大會主席由三位台灣學者伊同擔任:清華大學電機系李祈均教授、資創中心曹昱研究員與資訊所王新民研究員,他們帶領數十位國內外學者,籌備超過一年,用心把會議擴大舉行,五天內足足有六場論文海報展登場、十位重量級學者演講。
今年大家最熱烈討論的議題是語音科技的公平性問題:如何讓自動語音辨識科技聽懂世界上每一個人說的話?科技要重視人的多元性,服務不同性別、年齡、口音和語言使用者,不漏掉特定族群,才能避免再製社會不平等。
會議特別邀請了荷蘭台夫特科技大學(Delft University of Technology)教授 Odette Scharenborg,也是目前國際語言通訊協會(ISCA)主席,她強調:「世界上有多達 6900 種語言,但只有不到 2%的語言可以用 AI 進行自動語音辨識。此外,面對非母語的口音時,AI 的精準度會大幅下降,無意間造成了口音歧視。」呼籲 AI 領域學者們應當積極瞭解語言學理論,並向跨領域學者尋求合作,共創公平、可信賴的自動語音辨識科技。
Odette Scharenborg 也表示,她理解台灣有部分語言使用人口較少,甚至面臨消失的危機;過去這些學者更難收集大量的語料庫,未來可以努力的方向,就是積極為多元語言建立語料庫,並且要更有效地運用語料,把有限資料的作用發揮到淋漓盡致。
在談會的環節,所有與會者也非常關心「數據收集方式」與「AI 模型偏見」之間的關聯性。台灣大學教授李宏毅提到,他實驗在 ChatGPT 中輸入一段故事,問 ChatGPT 對這段故事的看法,令人意外的是,根據故事角色的性別不同,會得到全然不同的回覆。這些潛在的偏見,都可能跟數據的收集有關聯。另有與會聽眾提及,大型語言模型公司近來被指疑用過於低廉的薪資聘顧資料標記員工,這也是 AI 科技發展過程中不能忽視的問題。
李祈均教授表示:「目前語音技術研究面向很多元,不再只讓電腦聽懂我們說話而已。舉凡說話者的情緒辨識、電腦的回應方式、醫療應用等,都有許多學者投入。當然,還有使用倫理問題,科技跟社會正義不可以脫鉤。」
今年 ASRU 有數百位來自歐、美、日、韓、印、澳等地的學者,是個大好機會,讓大家對台灣留下好印象。除了顧好學術交流品質,還安排具有台灣夜市風情的晚宴,讓大家體驗夜市美食與氣氛。
清華大學電機系出動了10位同學擔任工作人員,甚至有海外工作留學的校友專程回來幫忙。電機系碩二楊晶宇同學觀察表示:「有很多人表示這是人生第一次來到台灣,對台灣充滿好奇,並打算在會議結束後留後到附近旅遊。」
清華大學非常難得有機會主辦 IEEE 國際會議,很榮幸能促進自動語音辨識科技推進,讓國際間學者看見台灣的實力。