上次给大家介绍了这款软件内置的临床常用计算工具及数据扩展功能,今天我们来解决临床常用的另外一些数据处理功能,比如数据库的横向合并和纵向追加,以及文本处理。

5、数据处理(5)

16)数据库操作

在进行数据合并之前我们需要了解一些基本概念。

  • 全外连接(Full Join):保留两个表中的所有行。 对于任意一个表中没有对应匹配的行,另一个表的部分将会填充为NULL。
  • 内连接(Inner Join):仅保留两个数据集中连接键(即用于匹配的字段)都存在匹配的行。 换言之,只显示两个表中都有对应记录的行。
  • 左连接(Left Join):保留左表的所有行,即使右表中没有匹配的行。 对于左表中没有对应匹配的行,右表的部分将会填充为NULL(通常用NaN表示)。
  • 右连接(Right Join):与左连接相反,保留右表的所有行。 对于右表中没有对应匹配的行,左表的部分将会填充为NULL。
  • 半连接(Semi Join):保留左侧数据集中与右侧数据集键值匹配的行。
  • 反连接(Anti Join):保留左侧数据集中与右侧数据集键值不匹配的行。
a)数据横向合并

在临床自建数据库的过程中,我们有时会将患者基本资料、血液指标、影像指标等分开成不同的表格去搜集数据,最终要合并数据时该怎么办呢?今天我就用风锐的数据横向合并功能为大家演示一下。

我从NHANES官网中下载了1999-2000年份的DEMO和RXQ数据,将两份数据读取到风锐中之后,选择数据库操作中的数据横向合并,结果如下图所示。

我们可以看到,原始DEMO数据中有144个变量,RXQ数据中有15个变量,我们按患者编码SEQN(两份数据共同的变量)将RXQ合并到DEMO后,新生成的数据共有158个变量。

b)数据纵向追加

如果是某一个时间段建立了一份数据表单,在另一个时间段又建立了一份数据表单,想将两份表单合为一份,风锐也提供了数据纵向追加的功能。

我拿1999-2000年的DEMO和2001-2002年的DEMO数据作为例子,用风锐演示结果如下:

我们可以看到1999-2000年有9965人,增加了2001-2002年的11039人之后,新数据集共有21004人。

​​​​​​​c)数据横向转纵向

在进行数据可视化时,某些图表(如折线图、柱状图等)需要数据以长格式提供。假设有一个宽表,包含多个时间点的血糖数据,每列代表一个时间点的血糖值。为了绘制随时间变化的趋势图,需要将数据转换为长格式,每行包含一个时间点的血糖值,那就需要进行数据的横纵转换。

​​​​​​​d)数据纵向转横向

临床工作中的检验报告,每个患者的每项指标都是一行行排列的,那么我们就需要用到数据库的纵向转横向功能了,风锐上操作下来结果展示如下:

​​​​​​​e)批量横向合并

除了单个表格的操作之外,风锐还贴心地提供了批量横向合并功能,可以一次性合并10个数据集。从下图中可以看到,最终合并的数据集总样本量与DEMO的样本量一致,都是9282,但变量数变成了93个,也就是将10个数据集中的变量合并到一起了。

​​​​​​​f)批量纵向合并

同样风锐也提供了批量纵向合并功能,可以一次性合并10个数据集。可以看到我们一次性将从NHANES官网下下来的10个年份的数据合并成一个数据集,总样本量变成了101316人。

17)文本处理

​​​​​​​a)文本提取

NHANES数据库中药物的使用是采取药物名称编码的方式,假设我们现在想知道每个人是否使用了抗抑郁药物,可以在之前合并好的药物数据集中提取中RXDDRUG这个变量中我们指定的抗抑郁药物名称,例如:

FLUOXETINE,PAROXETINE,SERTRALINE,VENLAFAXINE,TRAZODONE,MIRTAZAPINE,SELEGILINE,BUPROPION,AGOMELATINE,ESCITALOPRAM,DULOXETINE,PHENELZINE

根据填写的文本字符识别出选择变量中包含此字符的行并进行标记为1,不包含的标记为0。

除此之外,风锐还可以进行文本替换,将选择变量中含有填写识别字符的部分替换为新字符串,以及文本拆分功能,可将选择变量中按照填写的拆分字符,可根据字符串中拆分符号存在个数,分列为多个变量,类似excel中按照分列符分列功能。这个功能在识别病历等结构化数据时有非常大的作用,感兴趣的小伙伴可以继续钻研一下,如果有不明白的也可以订阅我们专栏,或进临床科学家官网进行进一步的学习。

截至目前为止,风锐统计第一个模块——数据处理,就为大家介绍完了,是不是觉得风锐统计非常强大,别急,这还只是这个软件的冰山一角,后面我还会给大家介绍如何使用这个软件进行数据分析,敬请期待吧!

最后跟大家提一句,2025年4月27日临床科学家将会举办全网免费的劳动节公益课,主讲的就是风锐软件在科研中的使用,大家如果感兴趣可以去看看。

官网链接:临床科学家https://pc.clinicalscientists.cn/#/index

软件下载链接:

百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/share/init?surl=jQTDbb8R1xFcRdVKmi1SbA&pwd=free

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐