python数据分析与应用实训答案合并线损用电量趋势,【Python】实训5：使用pandas进行数据预处理( lagrange插值、merge合并、标准化)...

题目来源：《Python数据分析与应用》第5章【黄红梅、张良均主编中国工信出版集团和人民邮电出版社】本博客题目文字主要来自：全能扫描王文字识别转换(敲题目是不可能去敲题目的)数据集下载链接(下载后找到第6章->实训数据)实训1 插补用户用电量数据缺失值1.训练要点(1)掌握缺失值识别方法。(2)掌握对缺失值数据处理的方法。2、需求说明用户用电量数据呈现一定的周期性关系, missing

weixin_39792475

2120人浏览 · 2021-03-26 12:57:51

weixin_39792475 · 2021-03-26 12:57:51 发布

题目来源：

《Python数据分析与应用》第5章

【黄红梅、张良均主编中国工信出版集团和人民邮电出版社】

本博客题目文字主要来自：

全能扫描王文字识别转换(敲题目是不可能去敲题目的)

数据集下载链接(下载后找到第6章->实训数据)

实训1 插补用户用电量数据缺失值

1.训练要点

(1)掌握缺失值识别方法。

(2)掌握对缺失值数据处理的方法。

2、需求说明

用户用电量数据呈现一定的周期性关系, missing data.csv表中存放了用户A、用户B和用户C的用电量数据,其中存在缺失值,需要进行缺失值插补才能进行下一步分析。

3.实现思路及步骤

(1)读取 missinne_data. csv表中的数据。

(2)查询缺失值所在位置。

(3)使用 SciPy库中 interpolate模块中的 lagrange对数据进行拉格朗日插值。

(4)查看数据中是否存在缺失值,若不存在则说明插值成功。

#实训1 插补用户用电量数据缺失值

import pandas as pd

import numpy as np

arr=np.array([0,1,2])

missing_data=pd.read_csv("./实训数据/missing_data.csv",names=arr)

#查询缺失值所在位置

print("lagrange插值前(False为缺失值所在位置)",'\n',missing_data.notnull())

#拉格朗日插值

#dropna().index用于记录非缺失值的下标

#dropna().values用于记录非缺失值的实际值

from scipy.interpolate import lagrange

for i in range(0,3):

#"训练"lagrange模型

la=lagrange(missing_data.loc[:,i].dropna().index,missing_data.loc[:,i].dropna().values)

#list_d用于记录当前列缺失值所在的行(记录缺失值下标)

list_d=list(set(np.arange(0,21)).difference(set(missing_data.loc[:,i].dropna().index)))

#将缺失值list_d带入训练好的模型，并填入对应的位置

missing_data.loc[list_d,i]=la(list_d)

print("第%d列缺失值的个数为:%d"%(i,missing_data.loc[:,i].isnull().sum()))

print("lagrange插值后(False为缺失值所在位置)","\n",missing_data.notnull())

实训2 合并线损、用电量趋势与线路告警数据

1.训练要点

(1)掌握主键合并的几种方法。

(2)掌握多个键值的主键合并。

2.需求说明

线路线损数据、线路用电量趋势下降数据和线路告警数据是识别用户窃漏电与否的

个重要特征,需要对由线路编号(ID)和时间(date)两个键值构成的主键进行合并。

3.实现思路及步骤

(1)读取 ele_loss. csv和 alarm csy表。

(2)查看两表的形状。

(3)以ID和date两个键值作为主键进行内连接。

4)查看合并后的数据。

#实训2 合并线损、用电量趋势与线路告警数据

import pandas as pd

ele_loss=pd.read_csv("./实训数据/ele_loss.csv")

alarm=pd.read_csv("./实训数据/alarm.csv", encoding='gbk')

#查看两个表的形状

print("ele_loss表的形状为",ele_loss.shape)

print("alarm表的形状为",alarm.shape)

#合并后的数据

merge=pd.merge(ele_loss,alarm,left_on=["ID","date"],right_on=["ID","date"],how="inner")

print("合并后的表形状为：",merge.shape)

print("合并后的表为：",merge)

实训3 标准化建模专家样本数据

1.训练要点

(1)掌握数据标准化的原理

(2)掌握数据标准化的方法。

2.需求说明

算法的种类非常多,一旦涉及空间距离计算、梯度下降等,就必须进行标准化处理对线路线损特征、线路用电量趋势下降特征、线路告警特征进行标准化。

3.实现思路及步骤

(1)读取model.csv数据。

(2)定义标准差标准化函数。

(3)使用函数分别对3列数据进行标准化。

(4)查看标准化后的数据

#实训3 标准化建模专家样本数据

import pandas as pd

model=pd.read_csv("./实训数据/model.csv",encoding = "gbk")

def Standard(data):

data=(data-data.mean())/data.std()

return data

S=Standard(model)

print("标准化后的数据为：",'\n',S.head())

'''

#离差标准化函数

def MinMaxScale(data):

data=(data-data.min())/(data.max()-data.min())

return data

M=MinMaxScale(model)

print("离差标准化后的数据为：",'\n',S.head())

#小数定标差标准化函数

def DecimalScaler(data):

data=data/10**np.ceil(np.log10(data.abs().max()))

return data

D=DecimalScaler(model)

print("小数定标差标准化的数据为：",'\n',D.head())'''

三种标准化各有其优势，离差标准化方法简单，便于理解，标准化后的数据限定在[0,1]区间内。标准差标准化受数据分布的影响较小。小数定标标准化方法的适用范围广，并且受数据分布的影响较小，相比较于前两种方法，该方法适用程度适中。

原文链接:https://blog.csdn.net/qq_41856733/article/details/103438911

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

KingbaseES数据库：医疗信创潮涌沅江，国产化信创打造医疗新质生产力

DAMO开发者矩阵

告别迁移焦虑：金仓KDMS V4带你轻松搞定数据库国产化替代

DAMO开发者矩阵

KingbaseES数据库在常德二院全栈国产化信创中产生新质生产力,医疗信创的部署如何实现，如何操作？

DAMO开发者矩阵

所有评论(0)

查看更多评论

weixin_39792475

@weixin_39792475

已为社区贡献4条内容