人工智能基础(二十)特征提取
特征工程----特征提取1、特征提取将任意数据(如文本图像)转换为可用于机器学习的数字特征2、特征提取分类:字典特征提取(特征离散化)文本特征提取图像特征提取(深度学习将介绍 )3、apisklearn.feature.extraction4、字典特征提取字典特征提取就是对类别数据进行转换api:sklearn.feature_extraction.DictVectorizer(sparse=Tr
特征工程----特征提取
1、特征提取
将任意数据 (如文本图像)转换为可用于机器学习的数字特征
2、特征提取分类:
字典特征提取(特征离散化)
文本特征提取
图像特征提取(深度学习将介绍 )
3、api
sklearn.feature.extraction
4、字典特征提取
字典特征提取就是对类别数据进行转换
api:sklearn.feature_extraction.DictVectorizer(sparse=True,…)
sparse矩阵
- 节省内存
- 提高读写效率
属性:DictVectorizer.get_feature_names() 返回类别名称
注意:
对于特种当中存在类别信息的我们都会做one-hot编码处理
5、文本特征提取(英文)
api:
sklearn.feature _extraction.text.CoutVectorizer(stop_words=[])
stop_words — 停用词
注意:没有sparse这个参数
单个字母,标点符号不做统计
6、中文文本特征提取
注意:
1. 在中文文本特征提取之前,需要对句子(文章)进行分词(jieba)
2. 里面依旧可以使用停用词,进行词语的限制

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)