深度学习中常见的Normalization总结—Batch Normalization,Instance Normalization

深度学习中常见的Normalization总结Batch NormalizationInstance NormalizationReferences对于一个给定的Batch: x∈RN⋅C⋅H⋅Wx \in R^{N \cdot C \cdot H \cdot W}x∈RN⋅C⋅H⋅W, 其中N, C, H, W，分别表示：batchsize, num_channel, Height, Width

MasterQKK 被注册

556人浏览 · 2021-04-11 16:45:00

MasterQKK 被注册 · 2021-04-11 16:45:00 发布

对于一个给定的Batch:

\in R^{N \cdot C \cdot H \cdot W}

, 其中N, C, H, W，分别表示：batchsize, num_channel, Height, Width, 下面的定义都给予这个设定。

Batch Normalization

BN[1]标准化每个feature channel的均值和标准差，换句话说， BN是在每个chanel上独立进行的，在每个channel上进行BN时， mean和std的计算依赖于各自的feature map，即mean和std是channel-dependent, 是batch & height, width-dependent, 计算公式如下：
在这里插入图片描述
其中， $\gamma, \beta \in R^{C}$ , 从数据中学习， $\mu, \sigma \in R^{C}$ , 对于第c个channel, $\mu, \sigma$ 的计算如下：

Instance Normalization

正如字面意思， IN [2]标准化每个Sample的每个feature channel的均值和标准差， 与BN的区别在于： mean和std的计算依赖于每个sample各自的feature map，即mean和std是（batch）sample & channel-dependent, 是height, width-dependent, 计算如下：
在这里插入图片描述
其中， $\gamma, \beta \in R^{N \cdot C}$ , $\mu, \sigma \in R^{N \cdot C}$ , 对于batch中第n个样本的第c个channel, $\mu, \sigma$ 的计算如下：

References

1.Batch normalization: Accelerating deep network training by reducing internal covariate shift. In JMLR, 2015
2.Tex- ture networks: Feed-forward synthesis of textures and styl- ized images. In ICML, 2016

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

深度解析工程化基石：构建自动化测试的“安全带”——Harness 模式实践指南

在未来的工程实践中，随着基础设施即代码（IaC）的普及，将 Harness 与基础设施自动化工具（如 Terraform 或 Pulumi）深度融合，将成为构建“自愈型”研发流水线的必然选择。你可以将其想象为工业机器人手臂上的“卡盘”，无论夹持的是什么样的零件，卡盘的接口永远是标准化的。在一个成熟的工程中，Harness 应该负责解析容器内的 Bean 依赖，并在测试运行前将 Mock 的接口实例

DAMO开发者矩阵

从 Prompt 对话到 OpenClaw：Agent 是怎么一步步发展出来的？

Agent 的发展，不是简单从“聊天机器人”变成“更聪明的聊天机器人”。文本生成→ 中间推理→ 外部知识→ 工具调用→ 循环执行→ 工程框架→ 协议标准→ 真实工作流其中每一步都在解决一个实际问题。Prompt 对话：模型只生成答案CoT：让模型生成推理步骤RAG：让模型接入外部知识ReAct：让模型把推理和行动交替起来Toolformer / Function Calling：让行动变成工具调用