机器学习与梯度
1、下面关于梯度消失和梯度爆炸描述正确的是?A.靠近output layer的hidden layer参数更新相对正常,但靠近input layer的hidden layer参数更新几乎接近于初始化值B.靠近input layer的hidden layer参数更新相对正常,但靠近output layer的hidden layer参数更新几乎接近于初始化值C.误差梯度在更新中累积,变成非常大的梯度,
1、下面关于梯度消失和梯度爆炸描述正确的是?
A. 靠近output layer的hidden layer 参数更新相对正常,但靠近input layer的hidden layer 参数更新几乎接近于初始化值
B. 靠近input layer的hidden layer 参数更新相对正常,但靠近output layer的hidden layer 参数更新几乎接近于初始化值
C. 误差梯度在更新中累积,变成非常大的梯度,导致网络参数的值NAN值
D. 初始参数值过大,靠近input layer的hidden layer 参数更新比靠近output layer的hidden layer 参数更新更快,就会引起梯度爆炸
答案:A, C, D
难易程度:中
题型:多选题
2、下面关于产生梯度消失和梯度爆炸的原因描述正确的是?
A. sigmoid函数
作为激活函数,其导数
最大值<1
B. tanh函数作为激活函数,其导数也小于1
C.激活函数导数大于1,则层数增多,梯度更新以指数形式增加
D.激活函数导数小于1,则层数增多,梯度更新以指数形式衰减
答案:A, B, C, D
难易程度:中
题型:多选题
3、下面关于Model Fine-tuning缺陷描述正确的是:
A. 因为Target data数据量少,容易出现training时性能好,testing时性能差
B. 可以通过设定最小化Target data training 的模型和Source data training 的模型的距离来规避缺陷(conservative traing)
C. 可以通过将source data training的部分中间层移花接木到Target data training 的模型中并且Target data training只training剩下没有training过的层的参数(layer transfer)
D. 可以通过设定相同输入数据条件下最小化Target data training 的模型输出数据和Source data training 的模型输出数据的二范数来规避缺陷
答案:A, B, C, D
难易程度:中
题型:多选题
4、下面为Tomas Mikolov提出的以解决rough error surface of RNN描述正确的是:
A. 使用ReLU激活函数
B. 使用LSTM网络
C. 使用梯度截断
D. 预训练加fine tunning
答案:C
难易程度:中
题型:单选题
5、{
简述Gated Recurrent unit(GRU) 有哪两个gate?GRU的精神/主旨是什么?
}
{
答案:GRU由reset gate(重置门,选择性遗忘)和update gate(更新门,选择性记忆)组成。它的精神是放入新的值就清掉原来的值,即旧的不去新的不来,等价于RNN input门和forget门连动,若input门打开,则forget门自动关闭,洗掉memory值。
}
难易程度:中
题型:简答题
6、下面属于解决梯度消失的RNN的是
A. LSTM
B. GAN
C. clockwise RNN
D. structurally constrained Recurrent network(SCRN)
E. vanilla RNN
答案:A, B, C, D, E
难易程度:中
题型:多选题
7、{
简述为什么LSTM可以handle梯度消失问题?
}
{
答案:LSTM与RNN相比,两者对memory 的操作不一样。RNN是每一个时间点memory里的值都会被覆盖掉,memory里之前参数的影响就消失。LSTM memory里的值乘以一个值再加上input值放入cell中,一旦参数影响memory,则影响会一直会存在直到forget门启用刷新memory。
}
难易程度:中
题型:简答题
8、下面属于用到memory的Neural Network是?
A. RNN
B. GAN
C. LSTM
D. Attention-based model(Neural Turing Machine、Reading comprehension)
答案:A, B, C, D
难易程度:中
题型:多选题
9、下面是Deep learning integrated with structured learning?
A. semantic Tagging: Bi-directional LSTM+CRF/Structured SVM
B. GAN
C. conditional GAN
D. speech recognition: CNN/LSTM/DNN+HMM
答案:A, D
难易程度:中
题型:多选题
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)