1.对字符串类型的数据,提取里面的数字。

我这里有一个dataframe格式的数据,每一列几乎都是数字+单位组成的一个字符串。在用机器学习进行分析的时候,由于每一列的数据单位都一样,可以忽略掉单位仅用数字进行分析即可。

具体操作方法:使用正则表达式,匹配整数和小数,并返回一个列表。

import re
for col in d_object.columns:
    d_object[col] = d_object[col].map(lambda s:re.findall('-?[0-9]+\.[0-9]*|-?[0-9]+',str(s)))
    print(d_object[col])

效果:

 

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐