特征工程----特征提取

1、特征提取
将任意数据 (如文本图像)转换为可用于机器学习的数字特征
2、特征提取分类:
字典特征提取(特征离散化)
文本特征提取
图像特征提取(深度学习将介绍 )
3、api
sklearn.feature.extraction
4、字典特征提取
字典特征提取就是对类别数据进行转换
api:sklearn.feature_extraction.DictVectorizer(sparse=True,…)
sparse矩阵

  1. 节省内存
  2. 提高读写效率

属性:DictVectorizer.get_feature_names() 返回类别名称
注意:
对于特种当中存在类别信息的我们都会做one-hot编码处理
5、文本特征提取(英文)
api:
sklearn.feature _extraction.text.CoutVectorizer(stop_words=[])
stop_words — 停用词
注意:没有sparse这个参数
单个字母,标点符号不做统计

6、中文文本特征提取
注意:

 1. 在中文文本特征提取之前,需要对句子(文章)进行分词(jieba)
 2. 里面依旧可以使用停用词,进行词语的限制
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐