机器学习中的fit(),fit_transform(),transform()

机器学习中，训练集是知道的，但是测试集是未知的，所以做标准化时只能用训练集的参数（这个参数指最大最小值标准化中的最大值最小值，或者是正态标准化中的均值和方差）来做，两个fit_transform是用的各自数据集的参数来进行标准化。但是实际中，我们不能用测试集的参数来标准化测试集，要用训练集的参数来标准化训练集。

散懒的猫

532人浏览 · 2023-05-07 19:52:05

散懒的猫 · 2023-05-07 19:52:05 发布

为啥一般都是这样用：

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

sc.fit_tranform(X_train)

sc.tranform(X_test)

机器学习中，训练集是知道的，但是测试集是未知的，所以做标准化时只能用训练集的参数（这个参数指最大最小值标准化中的最大值最小值，或者是正态标准化中的均值和方差）来做，两个fit_transform是用的各自数据集的参数来进行标准化。
但是实际中，我们不能用测试集的参数来标准化测试集，要用训练集的参数来标准化训练集。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【无标题】

本文总结了工业互联网网络运维技术学习成果，重点围绕华为HCIA课程展开。课程通过VRP系统实训，系统讲解了工业互联网底层网络技术，涵盖路由、交换、安全及IPv6四大板块。在路由技术方面，掌握了静态路由、OSPF动态路由的配置及工业应用场景；交换技术重点学习VLAN划分、生成树协议及VRRP网关冗余；安全技术包括ACL访问控制、AAA认证及NAT地址转换。课程强调理论与实践结合，通过十余项实操项目深

DAMO开发者矩阵

被滥用的“世界模型”：李飞飞万字长文厘清渲染、模拟与规划的底层逻辑

但现实是骨感的，虽然现在的机器人演示视频看起来很惊艳，但几乎所有的系统都局限于高度受限的实验室环境中，任务时间极短、面对的物体极少。这也是当前最难啃的硬骨头：带物理标注的三维数据极其稀缺，且多物理模拟（如流体、布料、刚体的交互）的计算成本高昂。比如 World Labs 推出的首个模型 Marble，就已经打破了渲染器和模拟器之间的界限，能从单一模型中同时输出用于视觉观看的“高斯泼溅（Gaussi

DAMO开发者矩阵

触觉的中间道路：压力中心表示如何打通灵巧操作的Sim-to-Real鸿沟

摘要：苏黎世联邦理工学院（ETH Zurich）与加州大学伯克利分校（UC Berkeley）的研究团队提出了一种基于物理的压力中心（Center-of-Pressure, CoP）触觉表示法，解决了机器人触觉Sim-to-Real迁移的难题。CoP将高密度触觉数据压缩为合力向量和等效接触点，既保留了力学信息，又对仿真偏差具有鲁棒性。该方法通过可微分应力分布模型和无需真值传感器的自校准技术，实现