預測評分系統是一種常用於 ICU(重症監護病房)的決策輔助系統,旨為推測出患者的嚴重程度或發病機率。藉由患者的生理數據等數值,以預測模型算出相對應的評分。因其與死亡率相關程度高,預測評分系統也成為描述死亡率的工具。而近年來隨著機器學習技術的發展,各式機器學習演算法提供了更強大之模型推斷能力,故傳統之預測評分系統逐漸成為一新研發之演算法之比較基準,為演算法開發奠定一可信標準。
以下將簡單介紹在醫療相關研究常見的預測評分系統,以及一篇 2018 年發表的研究做為範例。
a. 格拉斯哥昏迷指數(GCS)
首先介紹格拉斯哥昏迷指數,這事一種最常使用在預測評分系統中當作生理測量數據中的昏迷指標。全名為 Glasgow Coma Scale,是昏迷指數(CS)中使用最廣的一種。於1974年由格拉斯哥大學兩位神經外科教授Graham Teasdale與 Bryan J. Jennett 所發表,因此名為格拉斯哥昏迷指數。此指數的評估分為三個面向,分別為睜眼反應(E, Eye opening)、說話反應(V, Verbal response)、運動反應(M, Motor response)。此三種分數最低為一分,最高各別為四、五、六分,此三項分數加總即為昏迷指數總分。其詳細評分項等地如下表格所述:
由上表可知,一個正常人的昏迷指數為 15 分,而分數越低代表昏迷程度越嚴重,狀況越危急。介於 13 - 15 分為輕度昏迷;9-12 分為中度昏迷;3-8 分為重度昏迷。此評分方式的優點為簡單、方便,快速:但缺點為依賴醫療人員的經驗與能力,所以可能發生主觀的偏差。
b. APACHE
全名為 Acute Physiology And Chronic Health Evaluation,中文為急性生理及慢性健康評估。因其簡寫的關係,中文簡稱其為阿帕契評分系統。首個阿帕契模型由 Knaus 於 1981 年發表,至今已經演化到第四代了,但因為臨床需要的是輸入能夠更少,依然有一定準確率的模型,因此最廣為使用的於 1985 年提出的阿帕契二代(APACHE II),以下也專注於介紹 APACHE II。
APACHE II 是由北美的 ICU database 所訓練而成,所以有一說法是此評分系統較為地區性,但看不少研究下來倒是沒有在乎這一點。此評分系統適用於成人患者,藉由 12 項生理數據、年齡與健康狀態作為評分的輸入,各項數據為患者入院後的 24 小時的最差值,因此每次進入 ICU 只會計算一次。在健康狀態評分的部分,簡單地分為五個人體系統去進行評估,分別代表肝臟、心臟、呼吸系統、免疫系統、腎臟,以其是否進行緊急手術作為標準。經由回歸模型可以預測患者的死亡率,以及此評分系統特有的住院時間長度。此評分系統介於 0 - 71 分,詳細分布如下表所述:
c. SAPS
全名為 Simplified Acute Physiological Score,中文為簡化急性生理評分。與 APACHE 相同,雖然已發展到第三代,但最常使用的為第二代 SAPS II,於 1993 由 Le Gall 等人提出。一樣適用於成人患者,並且只取入院後最初 24 小時內的最差數值當作輸入,每次進入 ICU 只取一次。雖然一樣是 12 個生理數據,但 12 個與 APACHE 不盡相同。一樣將年紀當輸入值,但不一樣的是將健康狀態的陳述是由住院類型與三個疾病相關的變量表示。與 APACHE II 相比,分數的分布更為廣泛,為 0 -1 63 分。詳細分布如下表所述:
接下來由下表來比較APACHE II 與 SAPS II 所用的變數:
由表格可以看出,在生理數據方面,APACHE II 與 SAPS II 有五個不同的值。前兩對數據,肌酸酐與尿素氮,平均動脈壓與收縮壓,分別為腎功能的評估指標以及血壓的量測。而後三者就不一樣了,APACHE II 比較關注在血液的檢測,而 SAPS II 則是多了評估肝功能的指標。目前並沒有充足的證據或研究表示何者為較好的評分系統,臨床也要依照各種情況再去選擇。
d. SOFA
全名為 Sequential Organ Failure Assessment,又稱 Sepsis-related organ failure assessment score,於 1994 年設立。因為嚴重敗血症與器官衰竭高度相關,因此有此別稱。此評分將器官分為六大類,每一類代表一種人體功能的受損嚴重程度,分別為肺、凝血、肝、心臟、神經、腎。每一類分數都為 0 到 4 分,總分為 0 到 24 分,分數越高越嚴重。數據的取法為進入 ICU 24 小時後,每 48 小時計算一次,所以此評分系統包含了時間序列之概念,敗血症也是由此初步判定。判定方法為患者已感染,且 SOFA 分數與前一個值多出 2 或以上。詳細評分內容由下表所述:
在此以一篇近年的研究當作例子。此篇研究為例:【 A Supervised Learning Approach for ICU Mortality Prediction Based on Unstructured Electrocardiogram Text Reports 】,由 Gokul S. Krishnan 等人於 2018 年發表。此篇研究的目的為,將非結構性的心電圖文本資料,藉由 Word2Vec 的方式取出 feature,搭配 ELM(Extreme Learning Machine)來預測死亡率。下表為比較結果,可以看出各種預測評分系統在死亡率的預測表現是不分軒輊的,但這次實驗訓練出來的模型效能就明顯高於各種預測評分系統 10% 左右。
這次簡介了一些在進行醫學相關研究時常見到的預測評分系統,與現下機器學習框架之關係。既有的評分系統運用的是相對簡單的方法建立,譬如常見之回歸模型;而範例中的 Word2Vec 和 ELM,則其預測準確度明顯優於傳統之評分系統。如何訓練一演算法,能更精準判斷病人情況,卻又可以簡便的用於實際醫療場域,將會是未來研究之重點。