目前,國外已有包括SEER多瘤病種數據庫、TCGA癌癥基因信息數據庫、歐洲ACCENT結直腸癌數據中心、歐洲血液與骨髓移植協會注冊數據庫(EBMT Registries)等全球性的腫瘤大數據中心,這些醫學大數據平臺收集了大量循證醫學的相關數據,為臨床醫師的循證實踐及臨床醫學研究提供了繫統的證據支持和寶貴的*手資料。但是,我國醫療數據散落在醫療各個繫統中,數據可及性和數據的質量堪憂是國內眾多臨床學者開展真實世界研究的過程中,面臨的*困難和挑戰。不同醫院使用的醫療信息繫統提供者達300多家,數據結構和標準尚待統一,導致這些寶貴的醫學資料無法有效地整合利用。
骨髓增生異常綜合征(myelodysplastic syndrome,MDS)是一組獲得性、高度異質性、起源於造血干細胞的髓繫腫瘤,以骨髓造血細胞發育異常和高風險向急性髓性白血病轉化為主要特點,MDS的臨床表現及實驗室檢查比較復雜,不同亞型的MDS預後也不同。2001年,北美癌癥登記協會(SEER)開始對MDS患者進行登記,根據SEER數據顯示,歐洲共同體每年約有2萬人被診斷為MDS,亞洲國家發病率據報道顯示,日本發病率為1.0/10萬,中國上海發病率為1.45/10萬。隨著MDS年發病率逐年升高,其已成為危害人民健康的嚴重疾病。隨著信息技術的飛速發展,醫學大數據已經在許多疾病的診斷和治療中發揮了重要作用,通過信息整合和數據挖掘,從真實世界數據中探索學科規律,從而加深了人們對各種疾病發生發展規律的認識,並指導臨床醫師進行更加有效的治療。
目前,國外已有包括SEER多瘤病種數據庫、TCGA癌癥基因信息數據庫、歐洲ACCENT結直腸癌數據中心、歐洲血液與骨髓移植協會注冊數據庫(EBMT Registries)等全球性的腫瘤大數據中心,這些醫學大數據平臺收集了大量循證醫學的相關數據,為臨床醫師的循證實踐及臨床醫學研究提供了繫統的證據支持和寶貴的*手資料。但是,我國醫療數據散落在醫療各個繫統中,數據可及性和數據的質量堪憂是國內眾多臨床學者開展真實世界研究的過程中,面臨的*困難和挑戰。不同醫院使用的醫療信息繫統提供者達300多家,數據結構和標準尚待統一,導致這些寶貴的醫學資料無法有效地整合利用。
通過數據標準及數據平臺建設流程,可以將分散於不同醫院不同信息繫統中的臨床信息通過數據采集、清洗、重構、存儲、整合、挖掘等步驟集成疾病數據中心,進而利用自然語言處理技術、結構化、歸一和EMPI等先進的機器學習和人工智能技術,對疾病的醫療數據進行規範集成、深度挖掘、綜合利用。從底層出發的數據采集到數據互聯互通、數據集成,再到數據分析加工、數據應用,整合了醫院的異源、異構的數據。
建立規範統一的標準術語體繫是建立單一大病種數據庫的基礎,在術語標準化方面,我國2002年開始已采用了國際疾病編碼和國際手術編碼,但這兩大術語還不足以覆蓋醫療記錄中所有臨床信息。且目前較為廣泛采用的醫學術語繫統命名法——臨床術語(SNOMED CT)、統一醫學語言繫統(UMLS)及醫學語言、百科全書與術語命名通用架構(GALEN)等在我國並不適用。
因此,我們擬依托國家血液繫統疾病臨床醫學研究中心和GCP平臺建設項目,根據相關術語規範、骨髓增生異常綜合征相關指南文獻及專家共識等規範性文件形成基於中國的MDS標準數據集,為建立MDS疾病數據庫提供技術標準。該數據集由患者人口學信息數據、就診信息數據、一訴五史數據、體格檢查數據、診斷數據、骨髓形態和骨髓活檢數據、免疫表型分析數據、細胞遺傳學數據、分子生物學和細胞生物學檢查數據、實驗室檢驗數據、物理檢查數據、治療及療效評估數據等組成,為臨床醫師的循證實踐及臨床醫學研究提供繫統的證據支持和寶貴的*手資料,共同構建及推進中國骨髓增生異常綜合征疾病的診療規範,為降低骨髓增生異常綜合征發病率、提升人口生活質量做出積極貢獻。
肖志堅