Blog

featured image

Speaker Diarization 近期發展


隨著訓練資料倍增、需求場景變換,speaker diarization領域一直都在蓬勃發展、因應著產業而不斷創新,其中最大的莫過於神經網絡的引入啦。神經網絡的應用最主要有兩個:特徵提取以及end-to-end框架。

本文將會討論speaker diarization的近期發展,一起來看看目前都取得了哪些成果吧!
more...


featured image

社交行為功能簡介:腦與心智(下)


每當我們與他人互動時,大腦都在運籌帷握我們對情緒的理解與行為的掌控,那你對你的情緒與執行功能了解多少呢?
本文將帶你認識心智理論、執行功能以及自閉症背後的原因。
more...


featured image

社交行為功能簡介:腦與心智(上)


小妹:「嗨,小明,你今天看起來很開心。」
小明:「對呀,今天發生了一件有趣的事…」
從這簡單的兩句對話過程中,大腦處理了人臉辨識認知到對話者是小明、情緒辨識知道小明的情緒是開心、語言產生與小明進行對話,這三個過程看似簡單,但在人類的大腦處理又是怎麼一回事呢?
more...


featured image

社交行為功能簡介——人類神經系統概論


近幾年蓬勃發展的深度學習技術仿造自人體的神經元,並由這個基礎開始建立類神經網路,結合了神經生理及電腦科技而成為人工智慧的核心技術。人類腦部有著複雜且特殊的結構,類神經網路則試圖用電腦來模仿人腦的結構和功能,因此瞭解人體神經系統與類神經網路之相關性是個重要且有趣的議題,本文將針對與類神經網路相關的人體神經系統做一個簡單介紹。
more...


featured image

誰在說話?淺談 Speaker Diarization 「語者自動分段標記」


有沒有想過人類如何能從一段語音中聽出有幾個說話者,他們又分別說了什麽?人的大腦可以輕而易舉地做到,但是要教會電腦做這件事就需要費一番波折。
「語者自動化標記」,即說話者分辨(speaker diarization),就是用來解決這個問題的,它可以從一段語音中辨識説話者以及他們說話的片段。
more...


featured image

自動語音辨識 ASR 的前世今生


ASR是以電腦自動將人類的語言内容轉換爲相應文字的一種技術。它的應用很廣泛,像是室内裝置控制、Siri、語音輸入法等等,這些都使得我們的生活更加便捷。尤其是在智慧型 3C 產品大量普及的現代,人們用聲音進行人機互動的需求看可以說是越來越高了。

本文參考2019年的一篇綜述論文[1],將簡單地介紹ASR的歷史,並著重描述最新的end-to-end技術。
more...


featured image

Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密


自步入大數據時代以來,我們逐漸習慣於讓機器從巨量資料中學習其運行規則,機器學習廣泛應用於醫學、自動駕駛、語音識別等領域,進而造福人類。然而,在大量資料被收集、被用來訓練模型的過程中,我們也面臨到日益嚴峻的隱私洩漏問題。
more...


featured image

理性的情感運算:從哪裡來、往哪裡去?


「the study and development of systems and devices that can recognize, interpret, process and simulate human affects.」——Professor Rosalind Picard, Affective Computing, 1995

情感運算正當紅,國際調研機構 Gartner 也指出,emoiton AI 是趨勢中最值得注意的新興科技,並預測其會在五到十年內高度發展。事實上,情感運算已日漸走入大眾生活,而未來,將只會更加普及。本文將介紹情感運算的起源、研究與發展,希冀能讓情感運算更加廣為人知。
more...


featured image

生理指數預測評分系統與機器學習——簡介與研究範例


預測評分系統是一種常用於 ICU(重症監護病房)的決策輔助系統,旨為推測出患者的嚴重程度或發病機率。藉由患者的生理數據等數值,以預測模型算出相對應的評分。因其與死亡率相關程度高,預測評分系統也成為描述死亡率的工具。而近年來隨著機器學習技術的發展,各式機器學習演算法提供了更強大之模型推斷能力,故傳統之預測評分系統逐漸成為一新研發之演算法之比較基準,為演算法開發奠定一可信標準。
more...