自动化睡眠分期工具:开源、免费、高效
文章來源于微信公眾號(茗創科技),歡迎有興趣的朋友搜索關注。
近年來,臨床和社會對人類睡眠的測量呈指數級增長。然而,與其他高度自動化的醫學分析領域不同,基礎和臨床睡眠研究仍然依賴于人的目測評分。這種以人為基礎的評估既耗時又乏味,而且容易產生主觀偏差。在這里,研究者描述了一種新的算法,通過對世界各地不同人群中超30000個小時的多導睡眠記錄數據進行訓練和驗證。該工具進行睡眠分期的準確性高,而且使用起來也特別容易,計算簡便,開源和免費。研究者希望該軟件能夠促進行業標準自動化睡眠分期軟件包的廣泛使用。
前? 言
睡眠對人類健康至關重要。充足的睡眠支持機體的各種生理功能,包括免疫、代謝和心血管系統。對于大腦來說,充足的睡眠有助于優化學習、記憶、注意力、情緒和決策過程。因此,改善睡眠健康已成為一種預防策略,以降低心血管和代謝等疾病的風險。
多導睡眠圖(PSG)同時測量腦電波、眼球運動、肌肉活動、心率和呼吸,是對人類睡眠進行客觀生理學量化的黃金標準。夜間睡眠階段的分類提供了夜間睡眠的總體結構信息,以及睡眠階段的持續時間和所占比例,這些都為睡眠障礙和特定疾病的診斷提供了信息。目前,這種睡眠評分通常是由人來完成的,首先是將PSG記錄的夜晚分成30秒的片段(稱為epoch)。然后,根據美國睡眠醫學會(AASM)定義的標準,將每個epoch分配到一個睡眠階段。這種評分方法的評分者間一致性低于理想水平(約83%的一致性)。此外,得分相同的人通常在同一睡眠記錄中的內部一致性也較低(約90%)。也就是說,不同睡眠評分專家看到相同的記錄后,可能會得出不同的睡眠階段評估結果,甚至是同一個專家在兩個不同的時間點看到相同的記錄后,也會得出不同的結果。
機器學習的進步促使人們嘗試使用自動化系統對睡眠進行分類。近年來出現了幾種這樣的自動睡眠分期算法。Sun等人(2017)報告了一種算法,該算法根據來自一個單次睡眠診所的2000份PSG記錄進行訓練和評估。測試集的總Cohen’s kappa系數為0.68 (n = 1000個晚上的PSG)。此后,Patanaik等人(2018)發表了名為‘Z3Score’的算法,對來自4個數據集的約1700個PSG記錄進行了訓練和評估。總體準確性從(健康成人/青少年的)89.8%到(帕金森病患者的)72.1%不等。Stephansen等人(2018)的‘Stanford-stage’算法對10個臨床組(約3000個記錄)進行了訓練和評估,與人類睡眠階段的一致性評分相比,其準確率為87%。一年后,Phan等人‘SeqSleepNet’算法,該算法通過對200個晚上的PSG數據進行20折交叉驗證來訓練和測試,總體準確率為87.1%。最近,Perslev等人(2021)的‘U-Sleep’算法是利用來自16項臨床研究的15660名參與者的PSG記錄建立的。
盡管自動化工具的數量越來越多,但準確的自動化睡眠分期還沒有成為該領域的實際標準。這可能有幾個方面的原因。首先,有些算法并不是免費的,需要付費使用或者不可公開。其次,盡管有一些免費的算法,但卻需要付費軟件才能運行,比如MATLAB。第三,一些算法是在小樣本規模的情況下進行訓練的,或者是在單一睡眠中心或人群的數據下進行訓練的。因此,存在外部效度問題。第四,對于大多數個體來說,設置和運行這些算法往往過于復雜,因為它們需要中等水平至高水平的編程經驗,造成了廣泛采用和使用的準入障礙。在這里,研究者提供了一個免費、靈活、易于使用的自動化睡眠分期軟件,該軟件通過對來自不同年齡、種族和健康狀況的大量獨立和異構數據集(超30000小時的PSG分期睡眠)進行了訓練和評估。
材料和方法
關于數據集:該算法在NSRR (https:// sleepdata.org/)的大規模數據集上進行訓練,這個網站是由國家心肺血液研究所(NHLBI)資助的門戶網站。該數據庫提供了對研究隊列和臨床實驗中收集的大量確定的生理信號和臨床數據的訪問。此外,也使用了以下數據集。
-
MESA:是一項多中心縱向調查,調查對象為6814名黑人、白人、西班牙裔和華裔美國男性和女性,年齡為45歲至84歲,(與亞臨床心血管疾病發展和亞臨床至臨床心血管疾病相關因素)。
-
CFS:是一項基于家庭的睡眠呼吸暫停研究,包括來自361個家庭的2284名個體,在16年的時間里被研究了4次。
-
CCSHS:是一項基于兒科群體的研究,具有客觀的睡眠評估,其特點是有大量少數民族代表。
-
SHHS:是一項多中心隊列研究,以確定睡眠呼吸障礙的心血管和其他癥狀。
-
MrOS:是一項對5994名男性進行的多中心觀察性研究,其中睡眠研究是一項后續輔助研究。收集了2907名參與者(年齡范圍為65歲至89歲)的夜間多導睡眠監測記錄。
-
CHAT:是一項多中心、單盲、隨機對照試驗,旨在測試7個月的觀察期后,年齡為5至9.9歲的輕度至中度阻塞性睡眠呼吸暫停(OSA)兒童隨機接受早期腺扁桃體切除術是否會表現出更高水平的神經認知功能。收集了1447名參與者的數據,其中464人隨機接受治療。
-
HomePAP:是一項多位點、隨機對照試驗,參與者為373名患者(年齡范圍為20至80歲)。
每個數據集被隨機分成訓練組(多達600個晚上)和測試組(多達100個晚上)。納入訓練集的PSG用于模型構建和訓練,納入測試集的PSG用于性能評估。訓練集和測試集是完全分離的(即沒有重疊)。為了在全新數據集上對模型進行公正評估,研究者進一步測試了DOD算法,DOD是一個公開可用的數據集,包括健康個體(DOD- healthy)和OSA患者(DOD- obstructive)。
-
DOD-Healthy:由法國陸軍生物醫學研究所招募的25名健康志愿者組成。參與者年齡在18至65歲之間,沒有睡眠問題,招募時不分性別和種族。
-
DOD-Obstructive:包括55例臨床疑患睡眠相關呼吸障礙的患者。在美國斯坦福睡眠醫學中心進行PSG記錄。臨床診斷為OSA以外的睡眠障礙患者、患有病態肥胖癥、服用睡眠藥物或患有某些心肺或神經系統并發癥的患者被排除在研究之外。
結? 果
訓練集包括超31000個小時的PSG數據,來自7個不同的數據集(CCSHS,n=414;CFS,n=586;CHAT,n=351;HomePAP,n=82;MESA,n=575;MrOS,n=565;SHHS,n=590)。所有這些數據集都可以在國家睡眠研究資源(NSRR)網站(http://sleepdata.org)上公開獲得。訓練集的人口統計和健康數據如表1所示。平均呼吸暫停低通氣指數或稱呼吸紊亂指數(AHI)為(12.9±16.35)。有29%的夜晚AHI為15(=中度睡眠呼吸暫停)。MESA數據集平均AHI最高(19.2±18.1),CCSHS數據集最低(1.5±5.2)。
表1.訓練集和測試集的人口特征統計
測試集1包括來自6個不同數據集(CCSHS,n=100;CFS,n=99;CHAT,n=100;MESA,n=97;MrOS,n=90;SHHS,n=99)。在性別比例、種族分布或被診斷為失眠、抑郁或糖尿病的個體比例方面沒有顯著差異。此外,AHI和最輕、輕度、中度或重度睡眠呼吸暫停的個體比例沒有差異。測試集2包括來自公開可用的Dreem Open Dataset (DOD)數據集的80個PSG記錄。
驗證結果
測試集1:NSRR
算法在測試集1上的總體性能如圖1A所示。在所有585個測試夜中計算的中位數準確率為87.46%。中位數Cohen’s kappa系數為0.819,一致性非常好,中位數Matthews相關系數為0.821。CCSHS數據庫測試集的總體準確率最高(中位數= 90.44%),MESA數據庫的準確率最低(中位數= 83.99%)。除了傳統的睡眠階段,該算法還能夠量化每個睡眠階段在每30秒epoch的概率,然后利用該概率得出每個epoch的置信度。該算法在所有測試夜晚的中位數置信度為85.79%。具有較高平均置信度的夜晚具有明顯較高的準確性(圖1B,r=0.76,p<0.001)。
接下來,研究者測試了各個睡眠階段的分類性能(如圖1C)。N3睡眠的總體靈敏度為83.2%。快速眼動睡眠(REM)、N2睡眠和清醒狀態的靈敏度均高于85%。N1睡眠的總體靈敏度為45.4%。重要的是,該算法幾乎沒有明顯的錯誤,比如將N3睡眠錯誤地標記為快速眼動睡眠(0.2%)或將快速眼動睡眠錯誤地標記為N3睡眠(0.03%)。此外,該算法容易在睡眠階段的轉換時期出現不準確的情況(圖2F)。該算法在被評分者評估為清醒時間段的置信度最高(所有時間段的平均置信度=92.7%),在被評分為N1睡眠時間段的置信度最低(平均=63.2%)。研究者進一步測試了該算法對一個或多個睡眠階段的系統性偏差。每個睡眠階段的比例在人為和自動分期之間是類似的(所有Cohen’d<0.11;如圖1D所示)。
圖1.算法在測試集上的性能。
圖2.A)年齡,B)身體質量指數(BMI),C)性別,D)種族,E)呼吸紊亂指數(AHI)?和F)睡眠轉換階段的測試準確性
測試集2:DOD-Healthy和DOD-Obstructive數據集的一致性評分
研究者檢查了YASA在測試集2上的表現,這是一個健康和睡眠呼吸紊亂患者的數據集,由五位注冊專家進行評分。在健康成人中,YASA相對于五位專家的一致性評分的中位數準確率為86.6%。所有夜晚的kappa系數中值為80.1%,這說明高度一致。然后,研究者將YASA的性能與五位評分者以及最近發布的兩種睡眠分期算法進行了比較。如表2所示,YASA列是根據五位專家的一致性評分顯示了當前算法的性能。Stephansen等人(2018)和Perslev等人(2021)這兩列顯示了最近基于深度學習的睡眠分期算法的性能。H1-H5列顯示了五位評分者的評分情況。*表示與YASA有顯著差異。
表2.在DOD-Healthy數據集上,YASA與最近發布的兩種睡眠分期算法以及五位評分者的一致性評分的比較。
表3報告了在DOD-Obstructive數據集上,YASA與Stephansen等人(2018)和Perslev等人(2021)的算法,以及五位評分者之間的比較。評分者2的準確率較低(p=0.004),而Perslev算法的準確率較高(p=0.009)。兩兩比較顯示,YASA優于Stephansen等人(2018)的算法。然而,Perslev等人(2021)的算法在N1、REM和覺醒狀態方面的得分顯著高于YASA(所有p’<0.011)。
表3.在DOD-Obstructive數據集上,YASA與最近發布的兩種睡眠分期算法以及五位評分者的一致性評分的比較。
軟件操作
本研究中的算法及其操作是完全開源且免費的。本研究中的睡眠算法,俗稱YASA(https://github.com/raphaelvallat/yasa),是用Python編寫的一個涵蓋范圍更廣泛的睡眠分析包。除了這里描述的自動睡眠分期外,YASA還包括幾個額外的功能,如自動檢測睡眠紡錘波和慢波,自動偽影剔除,頻譜功率估計(如圖3B),以及相位振幅耦合等。基本睡眠分期板塊的使用并不完全取決于對這些度量的量化,如果用戶需要的話,它們是作為附加工具提供的軟件安裝包。YASA附帶了大量的文檔,并且是在BSD-3條款許可下發布的,這也是開源計劃的一部分,可以直接從Python包索引存儲庫中使用一行簡單的代碼進行安裝操作。
圖3.示例數據:單被試的睡眠階段預測圖。
討? 論
研究者試圖開發一個睡眠分期算法,同時具有能夠(1)匹配人工評分的準確性,(2)一直在訓練一個大型和異構數據集,(3)易于大多數人操作,(4)計算要求低,可以在自己筆記本上運行,(5)而且是完全免費的,因此很適用于研究人員,臨床醫生和商業企業進行使用。
該算法具有高水平的準確性,而且與評分者間的一致性相匹配。此外,與兩種最近的深度學習算法[Stephansen等人(2018)和Perslev等人(2021)]對健康成年人評估的準確性相比,YASA算法的準確性與這兩者不相上下(即沒有統計學差異)。然而,YASA在OSA患者中的表現比Perslev等人(2021)算法差了2.4%。對于個體睡眠階段,該算法對N2期、N3期、REM期和清醒期的分類表現良好,對N1期的分類一致性較好。該算法成功地保留了整晚睡眠階段的總體分布,因此它不會高估或低估某個特定的睡眠階段。除了基本的睡眠階段分類外,該算法的一個優勢是能夠為每個個體的每個睡眠階段epoch提供概率值,這些概率報告了用戶算法的置信度。
原文:An open-source, high-performance tool for automated sleep staging.
DOI: https://doi.org/10.7554/eLife.70092
總結
以上是生活随笔為你收集整理的自动化睡眠分期工具:开源、免费、高效的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 算法图解笔记
- 下一篇: 阈值分割--大津阈值法(OSTU)