The BMJ：中国的大数据与医学研究【分析与评论】【2018年第4期】,英国医学杂志中文版微信公众号文章

编者按

2018年2月5日，《英国医学杂志》（The BMJ) 发表了“中国的医学研究（Medical Research in China）” 系列分析文章，并为此配发了编者按。这是The BMJ创刊170多年来首次以系列约稿的形式，刊登中国顶级医学科学家和研究人员就当前中国医学研究热点所做的分析文章。该系列四篇文章分别展示了中国在“健康中国2030”、临床实践指南、真实世界研究和医学大数据等方面的取得的最新进展。作为世界著名医学期刊，The BMJ此次约稿也反映了世界眼中的中国热点。每篇文章均由我国该领域的专家领衔，向读者全面、系统、客观和真实地阐述中国在上述各领域的发展、机遇和挑战，以及中国在健康领域如何着眼未来、领跑世界。

BMJ中文版现推出该系列第二篇，由张路霞、王海波、李全政、赵明辉、詹启敏几位专家撰写的《中国的大数据与医学研究》（见BMJ中文版2018年第21卷第4期203页；BMJ BMJ 2018;360:j5910 doi:10.1136/bmj.j5910）一文。

在过去的十年中，医学领域中产生、采集和储存的数据量呈现几何级增长；分析和解读这些数据的能力也快速增长。我国人口庞大、具备全国统一的医疗卫生保障体系，这些都为发展健康医疗大数据提供了优势。作者在文章中指出了促进健康大数据在医疗领域的运用是我国重要的国家战略，目前有很多国家支撑的正在进行的重要项目。除了政府引导的研究项目以外，中国的医学研究团队和机构也已经启动了数据共享学术项目。为了更好地应用健康大数据，需要解决不同医疗机构间的有效数据交互、构建更符合我国临床实践的医学术语体系、系统性改善对于人群的随访、改善数据质量、并尽快就保护个人隐私和数据安全出台相关政策法规。希望此文对广大读者有所裨益。

敬请关注！

关于作者：张路霞^1,2　王海波^3,4　李全政⁵　赵明辉^1,6　詹启敏⁷

张路霞和王海波对文章有同等贡献。

通信作者：张路霞，[email protected]

１.北京大学第一医院肾脏内科暨北京大学肾脏疾病

研究所，北京；

２.北京大学健康医疗大数据研究中心，北京；

３.中山大学附属第一医院临床研究中心，广州；

４.标普医学信息研究中心，深圳；

５.哈佛大学医学院附属麻省总医院 MGH&BWH 临床数据科学中心，美国马萨诸塞州波士顿；

6.北大-清华生命科学联合中心，北京

7 北京大学医学部，北京。

冯瑶杨羽译

北京大学健康医疗大数据研究中心，北京；

张路霞校

北京大学第一医院肾脏内科暨北京大学肾脏疾病研究所

过去十年间，人类产生并收集的数据量呈现了惊人的快速增长，分析和解读这些数据的能力也取得了长足的进展；医学领域更是如此。短短几年的时间，国人对于大数据在医学领域的应用倾注了巨大的热情，希冀通过结合海量数据资源与新兴技术技术来解决当今的诸多难题；包括通过大数据提供更好的循证决策、改变现有医疗模式等。中国幅员辽阔、人口众多，加上全国性医疗保险系统体系的逐步完善，在健康医疗大数据领域更具优势。本文将重点讨论大数据在中国的现状以及利用大数据推动中国医学研究的契机。

什么是“大数据”？

大数据曾被定义为“ 海量（volume）、高速（velocity）和多样（variety）的信息资产，需要应用符合成本效益比的创新处理模式，以获得更强的洞察力、决策力和过程自动化。”

如今，数字化医疗已经成为行业常态。通过医疗记录、行业监管和医学研究，大量的医疗数据正在产生 3。在全球范围内，数据量预计将以每两年翻倍的速度增长；到2020 年，数据量将比2011 年增长50倍4。

除了“海量（volume）5”之外，专家们还关注大数据的多样（variety）和高速（velocity），这就是大数据的“3V 特征”。医疗数据的多样性来自数据来源的多元性（框图 1）；这些数据来源反映了健康和疾病的全过程，包括结构化数据和非结构化数据。

此外，医疗数据正在与社交媒体、职业信息、地理位置、经济数据和环境数据等结合。这种对于不同来源数据的整合分析是发挥大数据力量的关键。另外，大数据生成和处理的速度还应该能够满足预防和治理疾病的时效需求。

最近，真实性（veracity）作为大数据的目标之一，被纳入到大数据的定义之中。尽管怀疑论者认为大数据难以逐一验证，并且永远不可能“绝对准确”；但毋庸置疑，为了最大限度地利用大数据，数据质量的持续改进是不可或缺的。

与大数据相关的另一个重要概念是，汇集数据并非我们的最终目的。相反，需要分析、解读数据，并基于以上进行决策支持。因此，为了获取大数据的全部价值（value），需要不断地发展新兴技术和分析方法（如机器学习）；并且评估新生成信息的临床效果、并将其转化为临床实践。

中国的医疗数据从哪里来？

促进大数据在医疗领域的应用已经成为我国的重要战略。2016 年 7 月，国务院办公厅印发了《促进和规范健康医疗大数据应用发展的指导意见》(以下简称“意见”)。意见指出，健康医疗大数据是国家重要的基础性战略资源，其应用发展将提升中国的健康医疗水平。意见还为医疗大数据发展规划了目标、任务和组织框架。

伴随着上海市和宁波市等区域医疗中心的不断涌现，中华人民共和国国家卫生和计划生育委员会（以下简称“卫计委”）于 2016 年宣布将建设国家试点工程，以建立更多区域性和全国性健康医疗大数据中心与产业园，来更好的应用医疗大数据。

第一批试点省市为福建省和江苏省的四个城市。这些健康医疗大数据中心建成后将整合以下数据来源：

•包含覆盖 95%中国人口的国家基本医疗保险数据在内的区域医疗数据。

•当地卫生行政管理部门的监管性数据。

•疾病预防控制中心收集和管理的重大慢性疾病监测数据、妇幼保健数据。

•出生和死亡登记数据。

•来自各级医院的电子医疗档案（EMR）等。

中国正在充分利用大数据的力量。中国公民统一的身份证号为整合不同来源的数据提供了有力保障。以过去 5 年的医疗保险数据为例，不论是 5%抽样数据库，还是覆盖6 亿社保参保人员的总体数据库；研究者可以向包括中国医疗保险研究会在内的权威机构提起申请、并在通过严格的审批流程后进行学术使用（非公开数据）。

自 2016 年开始，多个研究项目已被批准启动，旨在评估心血管疾病、糖尿病、肾脏疾病和慢性阻塞性肺等的疾病负担。此外，临床医疗和公共卫生领域的专家和学者也在获得授权后利用包括病案首页数据库和国家死亡登记数据库等国家监管性数据库开展医学研究。

健康医疗大数据的理念和技术也能够为个体化医疗提供支撑。中华人民共和国科学技术部（以下简称“科技部”）在 2016 年启动了国家重点研发计划“精准医学研究”重点专项，目标之一为构建可存储大型人群队列全部数据和生物样本的“生物医学大数据共享平台”。这个平台将率先纳入至少 70 万研究对象，其中 40 余万人来自自然人群队列研究，30 余万人来自重大慢性非传染性疾病患者队列研究。中国庞大的人口基数和政府支持，让获得大数据成为可能。这将为发展个体化医疗提供强有力的支撑。

除了政府引导的研究项目之外，中国的医学研究团队和机构也已经启动了数据共享学术项目（框图 2）。2017 年 10 月，北京大学公共卫生学院发布了中国队列共享平台（China Cohort Consortium，chinacohort.bjmu.edu.cn）。中国队列共享平台首批已纳入近 20 余项队列及相关研究项目，如李立明教授牵头的中国慢性病前瞻性研究（50 万人）、中国双生子队列等，涵盖慢性病、传染病、妇幼健康、职业病等多个研究领域。该平台将使用通用数据模型实现数据共享、完成患者个体化数据的 meta 分析、乃至形成新的队列项目。此外，基于专科疾病的数据共享平台也在不断涌现，例如心血管疾病、脑卒中、恶性肿瘤和肾脏疾病等。例如，2015 年由王海燕教授建立、并不断完善的中国肾脏疾病数据网络（China Kidney Disease Network，kidney. net.cn），旨在应用前沿技术、分析多种来源的肾脏疾病数据；既可为健康医疗政策制定提供证据支持，还可以极大推进学术研究、有效促进肾脏病领域的疾病管理。

中国医疗大数据应用面临的何种挑战？如何应对？

电子档案系统

在中国，无论是一家医疗机构或多家医疗机构收集的以个体患者为核心的 EMR 尚未被广泛应用于学术研究。EMR 主要用于对日常医疗行为的管理，由此产生了大量的非结构化数据。虽然中国已有超过九成的医院在应用 EMR，数据可及性和数据质量仍亟待长足改进。

个人电子健康档案（EHR）虽在中国的发展仍然遇到困难。中国现有超过 300 家的医院信息系统供应商，采用不同的技术架构和数据标准；并且不同的健康医疗机构间没有数据交换的系统性需求。如前所述，我国已有一些区域医疗数据平台和试点；但这些平台和试点多处于初级建设和应用的阶段，仍需大量的优化和升级工作，特别是针对数据结构、数据标准和数据传输协议方面的改进。为了改善这一现状，卫生行政监管部门、医院和信息系统供应商应就如何改进医院信息系统达成共识，并开发能够用于整合多源异构数据的相关技术；卫生行政监管部门也应该利用政策手段加强不同医疗机构之间的数据交换和整合。

亟需医学术语体系的建设

医疗大数据应用遇到的另一个重大挑战，就是缺乏统一的、能够广泛应用的医学术语体系。目前在中国存在一些医学术语标准。例如，2002 年卫计委要求对全国住院患者诊断使用国际疾病分类系统（ICD；开始为 ICD-9，目前为不同版本的 ICD-10）。然而，医疗信息系统的爆炸式增长使得临床术语出现很多变化，给数据交换带来障碍。一些普遍被采纳的国际医学术语体系尚未在中国应用，例如医学系统命名法－临床术语（SNOMED CT）、统一医学语言系统（UMLS），或医学相关的语言、百科全书和系统命名法的通用架构（GALEN）

等。这些体系旨在通过整理和统一关键医学术语、分类和编码标准，从而促进有效地、具有互操作性的生物医学信息系统和服务（包括 EHR）。但是这些术语体系都是基于英文；除了简单的翻译已有英文术语外，我国亟需投入人力和精力构建与临床业务契合度高的医学术语体系。

我国医疗实践模式的影响

中国目前的医疗服务模式和医疗体系也为大数据的有效应用带来了挑战。例如我国转诊体系尚未完善，加上各地医疗质量的差异，导致了“异地就诊”现象的出现。在中国现行的医疗体系中，比较难基于 EMR 或区域 EHR 来完成对于患者的随访。因此，在中国开展类似“ 深度患者 ”（Deep Patient）研究16 的瓶颈不在于建立机器学习算法，也不在于获得足够的样本量，而是难于基于电子档案获得每个患者的随访数据和临床结局。此外，临床医疗实践的异质性也会对研究结果的真实性产生影响。

数据质量

以上所述的多个问题都会最终影响大数据的质量。已经有证据表明，将大数据分析应用在高质量的临床数据时，得到的结果也会更加有效、稳定和有意义。但是，获得高质量的临床数据集难度非常大。现阶段可能的解决方案之一是，仔细审查数据库特征、并判断哪些变量是相对准确的（例如医保数据中的费用数据）；然后使用这些变量来回答相应的科学问题。当然，要从根本上提高数据质量（包括数据有效性、数据代表性和完整性等），需要多方持续共同投入巨大的精力。

隐私问题

虽然隐私问题是健康医疗大数据应用中的一个极其重要的问题，但目前中国还未有针对大数据的相关法律和法规。因此，亟待监管部门出台相关的规定和研究标准，尤其如何在保证数据有效应用前提下保护个人隐私。

中国医疗大数据应用面临的机遇

大数据在医学中的应用包括提升公共卫生（疾病监测和人口管理等）、医疗管理（医疗质量控制和评估）、药品和医疗器械监管、临床实践（风险预测、诊断准确性和决策支持等）和医学研究水平等。

基于已有的国家监管性医疗平台，通过大数据的方法监测重大疾病趋势、为医疗卫生政策提供证据支持在现阶段已经具备可行性。应用机器学习等先进的数据分析手段来部分代替放射科和病理科医生的日常工作也成为当今我国一个热点研究领域 18。但是，目前中国的数据生态系统距离大范围支撑临床决策支持类研究（需要长期深度随访的高质量数据）还有一定差距。

一直以来，计算机科学家和医疗信息产业界在积极参与关于中国健康医疗大数据的讨论，集中讨论了数据的收集、存储、整合和管理等。然而，健康医疗大数据的未来不应只局限于数据层面，而是要逐渐转向利用先进的数据分析处理技术回答具有临床意义的问题，帮助临床医生和政策制定者理解大数据，并最终应用由大数据和大数据分析技术产出的工具服务于临床决策。

结论

我国从国家层面正在全面推动健康医疗大数据的应用；这一举措将在不久的将来对医学研究、医疗实践和医疗行业的发展产生深远的影响。在各行各业对于健康医疗大数据热情高涨的态势下，我们呼吁遵行“博学之，审问之，慎思之，明辨之，笃行之”的古训，以严谨求实的态度挖掘大数据内在价值，以医学问题为驱动，切实推动领域发展，给我国健康医疗模式带来深刻的变化。

BMJ 2018;360:j5910 doi:10.1136/bmj.j5910