机器学习——数据预处理——字符串数值特征提取(正则表达式)
1.对字符串类型的数据,提取里面的数字。我这里有一个dataframe格式的数据,每一列几乎都是数字+单位组成的一个字符串。在用机器学习进行分析的时候,由于每一列的数据单位都一样,可以忽略掉单位仅用数字进行分析即可。具体操作方法:使用正则表达式,匹配整数和小数,并返回一个列表。import refor col in d_object.columns:d_object[col] = d_object
·
1.对字符串类型的数据,提取里面的数字。
我这里有一个dataframe格式的数据,每一列几乎都是数字+单位组成的一个字符串。在用机器学习进行分析的时候,由于每一列的数据单位都一样,可以忽略掉单位仅用数字进行分析即可。
具体操作方法:使用正则表达式,匹配整数和小数,并返回一个列表。
import re
for col in d_object.columns:
d_object[col] = d_object[col].map(lambda s:re.findall('-?[0-9]+\.[0-9]*|-?[0-9]+',str(s)))
print(d_object[col])
效果:

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)