多中心临床大数据平台建设及深度应用
多中心臨床大數據平臺建設及深度應用
朱立峰1,劉淑君1,陳德華1,樂嘉錦2
1. 上海交通大學醫學院附屬瑞金醫院,上海 200025
2. 東華大學計算機科學與技術學院,上海 201620
摘要:多中心臨床研究是多中心、多學科對同一臨床問題開展廣泛協作臨床研究的主要途徑。傳統多中心臨床研究主要存在樣本量偏小和臨床科研相對封閉、開放程度不高的問題。為此,結合了新近興起的大數據與云計算等技術,將物理上分散的各醫院臨床中心融合成邏輯上統一的臨床大數據,構建了多中心臨床大數據應用平臺。介紹了多中心臨床大數據平臺的總體框架設計,詳細闡述了平臺各個子系統,分析了臨床大數據平臺的深度應用。
關鍵詞:多中心臨床研究;臨床大數據分析與挖掘;臨床科研隨訪系統
doi:10.11959/j.issn.2096-0271.2018029
論文引用格式:朱立峰, 劉淑君, 陳德華, 等. 多中心臨床大數據平臺建設及深度應用[J]. 大數據, 2018, 4(3): 46-53.
ZHU L F, LIU S J, CHEN D H, et al. Construction and deep application of multi-center clinical big data platform[J]. Big Data Research, 2018, 4(3): 46-53.
1? 引言
近年來,多中心臨床研究受到越來越多的關注。所謂多中心臨床研究指的是由多個研究中心的臨床醫生或科研人員按照同樣的研究設計、為同一個研究目的、協同完成的臨床研究工作[1]。其中,研究中心可以是三級甲等醫院,也可以是負責某個具體區域的社區醫院。具體而言,在多中心臨床研究中,臨床科研由一個研究中心總體負責,擔當牽頭單位的角色,然后由多個研究中心的臨床醫生共同合作,按照同一個研究方案在不同的研究中心同時進行。這樣,多位臨床醫生可不受地點的限制,在不同科室、不同醫院按同一試驗方案同時進行臨床研究,協同完成各項研究工作。多中心臨床研究實現了多中心、多學科對同一臨床問題的廣泛協作研究,對于發揮臨床醫生的學術優勢、促進醫學科學的發展具有重要的意義。
經過多年的努力,多中心臨床研究已成為國內外各類醫療機構開展疾病臨床研究的重要方法[2]。一方面,相對于單中心研究,多中心臨床研究要求多個研究中心同時參與,可在較短的時間內遴選出臨床科研所需的病例數;另一方面,相對于單中心研究,在多中心臨床研究中多個中心入選的病例在病種病情分布等方面范圍比較廣。以糖尿病多中心研究為例,在確診和治療前期,患者多選擇到三級甲等醫院就診,確定適合個體的治療方案。治療方案穩定后,患者大多會選擇到社區衛生服務中心進行長期治療和監督控制。因此,多中心的研究可以覆蓋更多的糖尿病患者。
雖然多中心臨床研究已被眾多的醫院、科研機構、臨床醫生廣泛采納,但是在實際應用中,多中心臨床研究也具有許多不足之處。
(1)樣本量往往偏小(即參與臨床科研的病例數偏少)
在選取參與科研的樣本病例上,當前的多中心臨床研究通常采取一種協商遴選的辦法,即各個研究中心的臨床醫生根據臨床科研目標提供候選病例,再由總負責的研究中心確定目標樣本。這種協商遴選的方法難以在較短的時間內收集足夠多的病例[3]。當前的多中心臨床研究的樣本數量規模大致為幾百,樣本規模偏小,病例數不多。
(2)臨床科研相對封閉、開放程度不高
在臨床科研上,多中心臨床研究需要科研團隊之間共享科研數據和臨床研究設計。當前的多中心臨床研究在組建科研團隊上大多采用如下3種方式:針對某一研究問題正式指派組成團隊;有相同研究興趣的同事組成團隊;先決定團隊的帶頭人,再由帶頭人發現團隊成員。無論采取哪種方式組織團隊,臨床科研數據的搜集與共享都依賴于參與多中心臨床研究的醫院、科室、臨床醫生,這使得臨床科研相對比較封閉。
因此,本文針對當前多中心臨床研究存在的“樣本量偏少、相對封閉”的缺點,結合新近興起的大數據與云計算等技術,將物理上分散的各醫院臨床中心融合成邏輯上統一的臨床大數據,在此基礎上構建多中心臨床大數據應用平臺,并將之運用于多中心的臨床研究實踐中,實現多中心臨床研究向“全樣本、多學科、多病種、開放性”轉變,探索基于多中心臨床大數據的應用示范。
本文首先給出多中心臨床大數據平臺的總體架構,然后詳細闡述臨床隨訪系統、平臺核心系統,最后闡述臨床大數據平臺在內分泌和高血壓等疾病上的深度應用。
2 ?多病種、多中心臨床大數據平臺總體框架
本文所提的多病種、多中心臨床大數據平臺的總體架構如圖1所示。平臺總體框架由數據基礎層、臨床隨訪系統、平臺核心系統、應用系統構成。
圖1 ?多病種、多中心臨床大數據平臺總體架構
● 數據基礎層是整個平臺的數據來源,多病種、多中心臨床大數據主要來源于醫院臨床數據倉庫、其他大型醫院臨床數據倉庫及社區衛生服務中心臨床數據倉庫。
● 臨床隨訪系統的目的是為專科醫生進行臨床科研隨訪提供支持,包括建立隨訪隊列、形成隨訪表單、導出隨訪數據、對患者隨訪進行提醒跟蹤。
● 平臺核心系統是臨床大數據平臺的核心層,由3個子系統組成,即多中心臨床大數據整合子系統、多中心臨床大數據存儲子系統、多中心臨床大數據分析挖掘算法子系統。
● 應用系統為平臺面向用戶(包括醫生和患者)提供的疾病分析應用服務,本文選擇內分泌、高血壓、腫瘤等若干病種作為研究對象,通過對多中心臨床大數據進行分析與挖掘,更好地為醫生和患者提供輔助診療服務。
3 ?臨床隨訪系統
臨床隨訪系統方便專科醫生篩選隨訪隊列,幫助專科醫生自助設計隨訪表單,并在完成隨訪表單填寫時,高效、準確地獲取患者臨床數據,如就診記錄、醫囑、檢驗檢查報告、病理報告、手術麻醉記錄、病史記錄等,并提供隨訪表單數據手工錄入功能,幫助專科醫生獲取和瀏覽患者在院內的全部診療記錄,為科研與臨床診療結合提供流程優化支持[4]。具體而言,臨床隨訪系統包括以下4項。
● 隨訪信息維護。通過輸入隨訪名稱、課題名稱、課題組成員、課題起始時間等信息創建隨訪隊列,并基于隨訪隊列維護課題組成員,可以添加賬戶或凍結賬戶,并通過結題管理維護隊列狀態。
● 隨訪表單管理,編輯管理表單模板名稱、用途、適用的隨訪隊列。每個隨訪隊列可對應多個表單模板,主要可分為首次隨訪記錄、住院隨訪記錄、門診隨訪記錄等。
● 隨訪提示為臨床醫生提供如下功能:對于隨訪隊列中的患者,如果超過預定時間(如門診、住院一個月)無就診記錄,在隨訪隊列中的負責醫生登錄時進行提示;如果存在就診事件(門診、急診、住院),但尚未填寫對應的隨訪表單,在隨訪隊列中的負責醫生登錄時進行提示。
● 隨訪信息庫提供網頁形式,可由院外科研人員進入某一隨訪隊列,添加患者信息,錄入隨訪表單或者批量導入隨訪數據。
4 ?平臺核心系統
本節闡述的多中心臨床大數據平臺的核心系統包括多中心臨床大數據整合子系統、多中心臨床大數據存儲子系統和多中心臨床大數據分析挖掘算法子系統。
4.1 多中心臨床大數據整合子系統
臨床數據整合技術旨在將現有的不同臨床信息系統產生的臨床數據匯總到統一的信息平臺,實現患者標識統一以及患者臨床信息的統一瀏覽發布。目前,筆者所在單位擁有醫院信息系統(HIS)、實驗室信息系統(LIS)、放射科信息管理系統(RIS)、電子病歷(EMR)、病理、手麻、心電等業務系統,數據庫管理系統采用了MS SQL Server和 Sybase ASE,為了將數據抽取、加載和轉換(extraction-loadingtransformation,ETL)過程對實時業務系統的影響降到最低,采用規范化數據存儲(normalized data store,NDS)+多維數據存儲(dimensional data store, DDS)的數據流架構,臨床數據整合流程如圖2所示。ETL是構建數據倉庫的重要一環,用戶從數據源抽取所需的數據,經過數據清洗,最終按照預先定義的數據倉庫模型,將數據加載到數據倉庫中。
圖2 ?數據整合流程
其中,Stage為源系統數據的一個副本,從Source到Stage的ETL過程并不對數據進行刪減、修改或整合,僅負責抽取和加載,而從Stage到NDS的ETL過程則需要按照數據倉庫建模的需求對數據進行一定的清洗和轉換[5]。
4.2 多中心臨床大數據存儲子系統
多中心臨床大數據存儲子系統是整個平臺的存儲基礎,為數據篩選、過濾、處理、分析提供原始數據,要求容量大、效率高、安全性強。云存儲是通過集群應用、網絡技術分布式文件系統等將不同種類的存儲設備協調工作,共同對外提供數據存儲和訪問功能的一個系統,它以數據存儲和數據管理為核心[6]。本文采用云計算的數據管理平臺實現對多中心臨床大數據的多元化存儲與訪問,提供線性擴展的分布式存儲能力。多中心臨床大數據存儲系統通過整合關系數據庫、NoSQL數據庫、文件系統等異構存儲模式,實現多中心異構臨床數據按需、按數據特性存儲,支持大容量存儲空間,存儲效率快,可擴展性強,并通過統一的數據總線實現跨存儲設施的統一訪問。此外,借助并行數據處理技術對吞吐量、并發量以及可用性進行增強。
多中心臨床數據種類很多,針對不同的臨床科研需求和數據特點,遵循HL7標準對各種來源的多中心臨床數據進行語義轉換、結構變換,然后調用統一數據訪問接口將其存儲到合適的底層存儲系統中。多中心臨床大數據存儲子系統考慮到異構數據的特點,采用了不同的底層存儲設施,具體包括MongoDB、MySQL、HBase、Hadoop分布式文件系統(HDFS)等關系數據庫、列存儲數據庫和分布式文件系統。其中,MongoDB、HBase主要用來存儲半結構化數據,如檢驗/檢查報告、出院小結等;MySQL主要用來存儲結構化數據,如病人信息、處方等;HDFS主要用來存儲非結構化的二進制文件,如來自影像歸檔和通信系統(PACS)的放射檢查膠片圖像。
4.3 多中心臨床大數據分析挖掘算法子系統
多中心臨床大數據分析挖掘算法子系統為疾病臨床數據分析挖掘系統提供多維分析、分類、聚類、預測、回歸分析和深度學習算法支持。在該系統中,共劃分為多維分析算法、數據挖掘算法、深度學習預測算法三大基礎模塊。
(1)多維分析算法
多維數據分析首先需要建立多維數據集,由于其具有很多維度的特性,多維數據集通常被形象地稱為數據立方體(cube)。多維數據集是一個數據集合,通常先從數據倉庫中選取若干數據子集,再組織和匯總成由多個維度和度量值定義的多維結構,多維數據分析可對以多維形式組織起來的數據立方體進行上卷、下鉆、切片、切塊、旋轉等多種分析操作,以便剖析數據,使分析者、決策者能從多個角度、多個側面觀察數據庫中的數據,從而深入了解包含在數據中的信息和內涵[7]。
(2)數據挖掘算法
數據挖掘算法模塊提供了包括分類、聚類、關聯規則、回歸分析等機器學習算法的統一注冊、應用與注銷管理,用于針對特定數據集的挖掘分析,實現臨床的深度分析、預警與預測。
數據挖掘算法模塊中集成了隨機森林、支持向量機、神經網絡、決策樹等分類算法和K-means聚類算法、邏輯回歸、線性回歸和關聯分析等算法[8]。
(3)深度學習預測算法
深度學習預測算法模塊集成了卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)和長短期記憶(long short term memory,LSTM)網絡[9]等算法。
5? 多中心臨床大數據平臺深度應用
在多中心臨床大數據平臺的基礎上,進一步結合內分泌學科、高血壓等學科的優勢,開展臨床大數據的深度應用。
(1)面向甲狀腺腫瘤的臨床醫療大數據的知識挖掘系統
臨床中患者腫瘤的良惡性診斷結果的準確性主要依賴于醫生的主觀判斷,不同醫生的臨床經驗和醫院醫療水平等存在差異,勢必會造成不同程度的誤診。為了提高醫生臨床診斷的準確性,簡化不必 要的檢查過程,降低誤診率,通過大數據分析方法實現醫療智能化已成為研究的熱點。本文設計開發的系統,通過對甲狀腺腫瘤治療過程中的臨床數據進行挖掘分析,實現了對甲狀腺腫瘤良惡性診斷的準確預測。
(2)糖尿病轉歸及風險評估系統
糖尿病作為一種常見的慢性病,有治療周期長、并發癥多、病情反復等特點。當前的糖尿病的診斷還是以傳統的診斷方式為主,每個門診患者和醫生接觸的時間有限,醫生無法在每個病人身上花費大量時間深入探究患者的個體情況和診療背景,這導致醫院和醫生無法更好地在后期監測患者狀況。在有關糖尿病預測的實驗中,可以將樣本數據根據要求按照一定比例劃分成訓練集、測試集和獨立樣本集,進行糖尿病的預測和建模,對糖尿病高危人群提供有效、準確的幫助[10]。本文針對患者糖尿病生化指標預測這一問題,構建了一個基于緩存神經網絡的糖尿病生化指標變化趨勢預測模型。該模型特點是在隱藏層中增加計算結果緩存區域,以應對數據模型的不規則時序特性和內部復雜的相互關系,從而達到輔助診療的目的。
(3)基于數據挖掘的高血壓患病趨勢分析及控制
依托臨床大數據平臺,對高血壓科近15年的住院患者的約500萬條臨床數據及門診患者的約700萬條臨床數據進行收集整理,并進行多維度分析。找出該病種的患病趨勢,并通過對降壓藥處方的分析,指導臨床更加有效地防治高血壓。通過臨床數據分析,識別高血壓患者靶器官(心、腦、腎、血管等)損傷,獲取高血壓患者的心血管及其他指標參數,基于這些參數,進行數據評估患者心血管風險,降低心腦血管病發生率[11]。
6? 結束語
本文針對傳統多中心臨床研究存在的問題,逐步推進多中心臨床大數據平臺建設和深度應用工作,完成了多中心臨床大數據平臺建設,并對多中心臨床大數據平臺中臨床隨訪系統、核心系統和疾病分析應用系統等進行技術驗證,建立了可行的技術框架。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
朱立峰(1976-),男,上海交通大學醫學院附屬瑞金醫院高級工程師,主要研究方向為醫療信息管理和醫療大數據。
劉淑君(1995-),女,東華大學計算機科學與技術學院碩士生,主要研究方向為大數據和文本挖掘。
陳德華(1976-),男,博士,東華大學計算機科學與技術學院副教授,主要研究方向為大數據和智慧醫療。
樂嘉錦(1951-),男,東華大學計算機科學與技術學院教授、博士生導師,主要研究方向為數據庫與數據倉庫、大數據與智慧醫療。
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的多中心临床大数据平台建设及深度应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 面向对象的C语言编程-DynamicLi
- 下一篇: 将输出的数据按照表格的形式进行输出