软注意力和硬注意力对比有什么不同？ - 问答 - 理工酷

软注意力和硬注意力对比有什么不同？

0 1781

1

该提问暂无详细描述

收藏

2021-01-26 13:53 更新

阿托 • 17009

共 1 个回答

高赞时间

0

软注意力

我们通过软注意力或硬注意力来实施注意力。在软注意力中，我们没有用输入图像x作为LSTM的输入，而是依据注意力输入了加权图像特征。在详细介绍之前，我们可以将加权特征可视化以说明差异。照片中注意力更高的区域更亮。

再次，我们将特征图可视化为图片。

该图片将LSTM的加权特征及其预测的单词可视化。软注意力通过将相应的特征图乘以低权重来区分不相关的区域。因此，高注意力区域保持原始值，而低注意力区域接近0（在可视化中变暗）。在“一个拿着一个塑料容器的男人”的上下文中，注意力模块创建了一个新的特征图，除了塑料容器区域之外，所有区域都变暗了。通过更集中的信息，LSTM可以做出更好的预测（“容器”一词）。

下面来看如何计算LSTM的加权特征。 x1，x2，x3和x4分别覆盖图像的一个子部分。计算分数来衡量s_i对x_i的关注程度，即：

其中，上下文C=h_(t-1).

我们将s_i传递给softmax函数进行归一化以计算权重α_i。

在softmax函数中，α_i等于1，我们用它来计算x1，x2，x3和x4的加权平均值

最后，我们使用Z代替x作为LSTM输入。

|我们计算每个区域的。使用相应的softmax值从输入要素中计算加权输入。

硬注意力

在软注意力中，我们为每个x_i计算权重α_i，并使用它来计算x_i的加权平均值作为LSTM输入。 α_i加起来等于1，这可以解释为x_i是我们应注意的区域的概率。因此，不用加权平均值，而是用αi作为采样率来选择一个x_i作为LSTM的输入。

硬注意力用随机抽样模型代替了确定性方法。为了在反向传播中正确计算梯度下降，我们使用蒙特卡洛方法进行采样并取平均结果。蒙特卡洛执行端到端操作，以计算所有采样结果的平均值。准确度取决于执行了采样次数和采样质量。

另一方面，软注意力遵循常规且较容易的反向传播方法来计算梯度。但是，准确性取决于（加权平均值可以很好地表示注意力区域）这一假设。

两者都有缺点,目前来看，由于反向传播似乎更有效，因此软注意力更加受欢迎。

转载参考https://jhui.github.io/2017/03/15/Soft-and-hard-attention/

收藏

2021-01-26 14:37 更新

正直的烤面包 • 3992

·圈子

位酷友已加入

圈子：计算机

标签：

计算机算法人工智能深度学习

邀请回答

爱旅游的灯泡 • 5

邀请

空虚的乒乓球 • 5

邀请

憨厚的青椒 • 5

邀请

眼睛小的炒粉 • 5

邀请

推荐问题

不同锂离子电池的正极材料都有哪些？ AR在B2B营销策略中有什么应用和挑战 VR（虚拟现实）对娱乐行业有什么影响？有监督学习和无监督学习的区别是什么？为什么神经网络倾向于更深（更多层），而不是变得更宽（每层更多节点）？

推荐资源

苹果新春发布在即，俄乌冲突对车链供给影响开始显现

铃木GSXR 1000散热器发动机

制造业景气度边际改善，重视通用设备投资机会

无尾飞机_Zh-1

加入组织

微信扫码，每周推送最新资料