标准化数据:OMOP通用数据模型
OMOP 通用数据模型 (CDM) 允许对不同的观测数据库进行系统分析。该方法的理念是将这些数据库中的数据转换为通用格式(数据模型)和通用表示(术语、词汇、编码方案),然后使用基于通用格式编写的标准分析程序库进行系统分析。
标准化数据:OMOP通用数据模型
观察性医学结果伙伴关系 (OMOP) 通用数据模型 (CDM) 是一个开放的社区数据标准,旨在标准化观察性数据的结构和内容,并实现高效分析,从而产生可靠的证据。OMOP CDM 的核心组成部分是 OHDSI 标准化词汇表。OHDSI 词汇表支持对医学术语进行组织和标准化,以便在 OMOP 通用数据模型的各个临床领域使用,并支持在构建暴露和结果表型以及其他特征(包括表征、群体层面的效应估计和患者层面的预测研究)时利用知识库进行标准化分析。
数据标准化是将数据转化为通用格式的关键过程,以便开展协作研究、大规模分析以及共享复杂的工具和方法。为什么它如此重要?
不同机构的医疗保健数据差异巨大。数据收集的目的各不相同,例如用于医疗服务提供者报销、临床研究以及直接的患者护理。这些数据可能以不同的格式存储在不同的数据库系统和信息模型中。尽管医疗保健领域标准术语的使用日益增多,但同一概念(例如血糖)在不同环境下的表达方式却可能千差万别。
OHDSI 深度参与了通用数据模型 (OMOP) 的演进和应用。我们提供资源,帮助您将各种数据集转换为 CDM,并提供丰富的工具,方便您在数据转换为 CDM 格式后充分利用这些数据。
最重要的是,我们有一个活跃的社区,该社区已经完成了许多数据转换(通常称为 ETL),其成员渴望帮助您进行 CDM 转换和维护。
什么是 OMOP 通用数据模型 (CDM)?
OMOP 通用数据模型 (CDM) 允许对不同的观测数据库进行系统分析。该方法的理念是将这些数据库中的数据转换为通用格式(数据模型)和通用表示(术语、词汇、编码方案),然后使用基于通用格式编写的标准分析程序库进行系统分析。
为什么我们需要CDM?
观察性数据库在用途和设计上各有不同。电子病历 (EMR) 旨在支持即时护理的临床实践,而行政理赔数据则用于保险报销流程。每种数据库的收集目的各不相同,因此其逻辑组织和物理格式也各有不同,用于描述药品和临床状况的术语也因来源而异。
CDM 可同时兼容行政索赔和 EHR,允许用户从各种来源生成证据。它还能支持美国境内外跨数据源的协作研究,并且方便数据所有者管理,方便数据用户使用。
为什么要使用 OMOP CDM?
一旦数据库转换为 OMOP CDM,就可以使用标准化分析工具生成证据。OHDSI 目前正在开发用于数据质量和特性描述、医疗产品安全监测、比较有效性、护理质量和患者层面预测模型的开源工具,但也有其他来源提供此类工具,其中一些是商业工具。
Standardized Data: The OMOP Common Data Model
The Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) is an open community data standard, designed to standardize the structure and content of observational data and to enable efficient analyses that can produce reliable evidence. A central component of the OMOP CDM is the OHDSI standardized vocabularies. The OHDSI vocabularies allow organization and standardization of medical terms to be used across the various clinical domains of the OMOP common data model and enable standardized analytics that leverage the knowledge base when constructing exposure and outcome phenotypes and other features within characterization, population-level effect estimation, and patient-level prediction studies.
Read more about the OMOP Common Data Model
Read more about OHDSI's standardized vocabularies

Data standardization is the critical process of bringing data into a common format that allows for collaborative research, large-scale analytics, and sharing of sophisticated tools and methodologies. Why is it so important?
Healthcare data can vary greatly from one organization to the next. Data are collected for different purposes, such as provider reimbursement, clinical research, and direct patient care. These data may be stored in different formats using different database systems and information models. And despite the growing use of standard terminologies in healthcare, the same concept (e.g., blood glucose) may be represented in a variety of ways from one setting to the next.
We at OHDSI are deeply involved in the evolution and adoption of a Common Data Model known as the OMOP Common Data Model. We provide resources to convert a wide variety of datasets into the CDM, as well as a plethora of tools to take advantage of your data once it is in CDM format.
Most importantly, we have an active community that has done many data conversions (often called ETLs) with members who are eager to help you with your CDM conversion and maintenance.
What is the OMOP Common Data Model (CDM)?
The OMOP Common Data Model allows for the systematic analysis of disparate observational databases. The concept behind this approach is to transform data contained within those databases into a common format (data model) as well as a common representation (terminologies, vocabularies, coding schemes), and then perform systematic analyses using a library of standard analytic routines that have been written based on the common format.
Why do we need a CDM?
Observational databases differ in both purpose and design. Electronic Medical Records (EMR) are aimed at supporting clinical practice at the point of care, while administrative claims data are built for the insurance reimbursement processes. Each has been collected for a different purpose, resulting in different logical organizations and physical formats, and the terminologies used to describe the medicinal products and clinical conditions vary from source to source.
The CDM can accommodate both administrative claims and EHR, allowing users to generate evidence from a wide variety of sources. It would also support collaborative research across data sources both within and outside the United States, in addition to being manageable for data owners and useful for data users.
Why use the OMOP CDM?
Once a database has been converted to the OMOP CDM, evidence can be generated using standardized analytics tools. We at OHDSI are currently developing Open Source tools for data quality and characterization, medical product safety surveillance, comparative effectiveness, quality of care, and patient-level predictive modeling, but there are also other sources of such tools, some of them commercial.
总结下医学OMOP的思想以及他而OHDSI的关系
ChatGPT 说:
已思考 22 秒
OMOP 核心思想
OMOP(Observational Medical Outcomes Partnership)Common Data Model (CDM) 是一种开放社区驱动的数据标准,旨在统一不同来源的观察性医疗数据的结构与内容,以支持高效、可靠的跨机构分析和研究。通过将患者、诊疗事件、检查、药物使用等数据映射到预定义的表格结构,并采用标准化概念(Concept ID),OMOP CDM 实现了数据的可重复使用与可扩展性,为真实世界证据(RWE)的生成奠定了基础。 ohdsi.orgchime.ucsf.edu
OMOP CDM 的关键组成
-
关系型表结构:包含如
PERSON、OBSERVATION_PERIOD、DRUG_EXPOSURE、CONDITION_OCCURRENCE、MEASUREMENT等核心表,每张表对应一种医疗事件或实体。 -
标准化词汇:OHDSI 维护一套涵盖 ICD、SNOMED、RxNorm、LOINC 等多种编码系统的统一词汇,将源数据编码映射为标准 Concept ID,保证语义互操作性。 ohdsi.org
-
平台无关性:字段类型使用 ANSI SQL(如 VARCHAR、INTEGER、DATE 等)定义,方便在不同数据库引擎中部署。
-
社区驱动维护:CDM 规范、数据模型和元数据由 OHDSI 社区通过 GitHub、Wiki 等协同管理与更新,确保标准不断演进。 ohdsi.github.io
OMOP 的起源与发展
OMOP 最初于 2007 年在美国食品药品监督管理局(FDA)和制药行业协会(PhRMA)的公私合作项目框架下启动,旨在探索对大型观察性健康数据库进行药品安全性和疗效监测的方法。该项目的核心产出之一即 OMOP CDM,为后续多中心真实世界研究提供了统一的数据模型基石。 PMC维基百科
OHDSI 简介
Observational Health Data Sciences and Informatics(OHDSI,发音“Odyssey”)成立于 2014 年,是一个国际多利益相关者、跨学科的开源科学协作组织,总部设在哥伦比亚大学。OHDSI 以 OMOP CDM 为统一基础,开发并推广一整套开源工具(如 ATLAS、ACHILLES、WebAPI 等)和标准化方法,赋能全球研究者协同生成可复现的真实世界证据,以改进健康决策与医疗服务。 ohdsi.org维基百科
OMOP 与 OHDSI 的关系
-
基础与扩展:OMOP CDM 提供标准化数据模型与词汇;OHDSI 社区在其基础上维护词汇体系、制定数据质量评估方法,并开发度量、可视化和分析工具。 National Science Foundationiqvia.com
-
协同研究网络:各参与机构通过将本地 EHR/Claims 数据转换为 OMOP CDM 格式,能够在不共享患者级原始数据的前提下,运行统一的分析脚本,实现分布式多中心研究。
-
开源共建生态:OHDSI 的研究网络已涵盖全球数百个数据源,数以千计的研究者通过共享代码与方法,持续推动真实世界证据的生成与应用。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐





所有评论(0)