python长宽表转换_深入Python数据分析：宽表如何重构为长表

weixin_39528843

513人浏览 · 2020-12-02 13:18:20

weixin_39528843 · 2020-12-02 13:18:20 发布

先来了解Pandas封装的顶层函数部分，其一：melt()函数，它位于Pandas包的最顶层，结构如下：

Pandas

melt()

melt()函数的原型如下：

frame为list型参数，后面都为position型参数。前者为通常意义的*args, 后者为 **kwargs.

frame不难猜测为Pandas的二维数组结构DataFrame，其他参数含义通过如下几个例子观察。

构造df 结构如下：

执行如下操作：

pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])

结果如下：

观察

变化后的df行数变多了，A列名称保持不变;

第二列的column名称变为variable，取值变为 B 和 C(正好等于melt函数的第三个参数 value_vars)；

第三列名为value，取值为原df的B和C列的值。

再验证

pd.melt(df2, id_vars=['a'], value_vars=['b', 'c', 'd'])

变化后的结构行数明显变更多了，由9行组成，但是列变少了，只有3列。

这里面引出2个概念：

宽表( wide format) ：指列数比较多

长表( long format) ：行数比较多

回头核对官方给定melt的功能和参数

注意用词：unpivot变化 DataFrame从宽格式到长格式，选择性地保留标示列，其实就是指 id_vars参数。

以上为两个最主要的参数，第二个value_vars指需要upivot的列。

思考

melt()函数的作用，它能将宽表变化为长表。在做特征分析列数较多，即为宽表时，我们不妨选择某些列为unpivot列，从而降低维度，增加行数据实现对数据的重构。

官方解释melt()中变化这个词使用了unpivot，因此大胆猜测它的逆操作为 pivot()，下一讲介绍 pivot.

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

每日AI前沿速览：大模型与智能终端新突破

大会将于7月17日至20日在上海世博、张江、西岸三大片区同步举办，以"智能伙伴共创未来"为主题，计划举办140余场主题论坛，集聚1400余位国际嘉宾，展览总面积超10万平方米，1100余家企业参展，首次举办由图灵奖得主、中外院士领衔的人工智能学术会议。新模型涵盖空间感知、灵巧操作、世界模型和世界动作模型能力，其中LingBot-VA2.0作为行业首个具身原生预训练模型，强调机器人在行动前预测未来