transformer里的全连接,transformer详解
作者:admin 发布时间:2024-01-22 00:30 分类:资讯 浏览:56 评论:0
Transformer详解,输入部分(词嵌入、位置编码)
在Transformer编码器中没有针对词汇位置信息的处理,故需要在embedding层后加入位置编码器,将 词汇位置不同可能会产生不同语义的信息 加入到嵌入张量中(embedding),用来弥补位置信息的缺失。
因为编码器被mask的部分是需要在输入到Transformer之前事先确定好,而解码器第一个Multi-Head attention被mask的部分其实就是从t=1时刻开始一直到t=seq_len结束,对应于图2。
Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构,其中用到的 Q, K, V矩阵通过输出进行线性变换得到。
mask分为两种,一是padding mask,二是sequence mask,这两种在Transformer中出现的位置不同:padding mask在所有scaled dot-product attention中均出现,sequence mask仅在decoder的self-attention中出现。
在下图中,是20个单词的 positional encoding,每行代表一个单词的位置编码,即第一行是加在输入序列中第一个词嵌入的,每行包含 512 个值, 每个值介于 -1 和 1 之间,用颜色表示出来。
Transformer和LSTM的对比
可以看的到 Transformer 是比 RNN 有明显差距的。虽然读了这个 RECL 的定义感觉作者有强行定超参拉开两者差距之嫌,但毫无疑问的是 Transformer 确实是最糟糕的,只是不一定有数字上好几倍这么夸张。
LSTM是RNN的一种特殊类型,它通过引入记忆单元来解决传统RNN的梯度消失问题。记忆单元可以使得网络在处理长序列数据时记住长期的依赖关系。这使得LSTM在处理语音识别任务时性能更好。
与LSTM 不同的是,transformer 模型能够以并行方式处理顺序输入,同时仍使来自序列一部分的信息能够为另一部分提供上下文。这一切都归功于他们的注意力模块。3D 模型的顶点包含各种对称性和远点之间的复杂依赖关系。
从Transformer这篇论文的题目可以看出,Transformer的核心就是Attention,这也就是为什么本文会在剖析玩Attention机制之后会引出Transformer,如果对上面的Attention机制特别是自注意力模型(self-Attention model)理解后,Transformer就很容易理解了。
而CNN则是通过在输入数据上应用卷积核来提取有意义的特征。Transformer通常在自然语言处理和机器翻译等序列数据处理任务中得到广泛应用,而CNN则更多用于图像分类和识别等任务。
Transformer常见问题汇总
Transformer模型部署的第二个问题是Transformer对算力的要求比较高。
Transformer缺点:(1)局部信息的获取不如RNN和CNN强。(2)位置信息编码存在问题,因为位普编码在语义空间中并不具备词向量的可线性变换,只是相当干人为设计的一种索引,所以并不能很好表征位置信息。
要说问题,出也是出在 positional embedding 上,很多最近的 paper 都在尝试调整这一部分,也证明大家确实觉得现在这里是有问题的。但另一方面, Self-Attention 其实并不是 Transformer 的全部。
FSL分类任务以元集形式进行训练与测试,每个n-way k-shot训练元集从训练集 中随机采样而来,其中训练集的类标签空间与测试集的类标签空间没有重叠。
Transformer模型解析记录
Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构,其中用到的 Q, K, V矩阵通过输出进行线性变换得到。
Transformer的总架构如下图所示:这是典型的Transformer结构,简单来说,Transformer = 预训练(input) + Encoder*N + 预训练(output) + Decoder*N+output。
transformer模型中缺少一种解释输入序列中单词顺序的方法,它跟序列模型还不不一样。
在Transformer出现之前,RNN系列网络以及seq2seq+attention架构基本上铸就了所有NLP任务的铁桶江山。
模型结构:Bert是基于Transformer编码器结构的模型,只有Encoder部分。而Transformer是由Encoder和Decoder组成的完整序列到序列结构的模型。Bert的模型结构更简单,主要用于上下文语义理解任务,如文本分类、文本相似度计算等。
NLP预训练语言模型(三):逐步解析Transformer结构
Transformer是近两三年非常火的一种适用于NLP领域的一种模型,本质上是Encoder-Decoder结构,所以多应用在机器翻译(输入一个句子输出一个句子)、语音识别(输入语音输出文字)、问答系统等领域。
attention: 输入和输出进行比较,不同的输出对不同输入的关注不同。假设输出 更关注输入 , 更关注 ,那么在句子翻译中,语言 翻译成 ,那么很可能认为单词 翻译成 , 翻译成 。能够使模型捕捉有用信息。
整个Transformer模型由Encoder和Decoder两部分组成。Encoder负责对输入数据的编码,而Decoder负责对编码后的数据进行解码。
相关推荐
你 发表评论:
欢迎- 资讯排行
- 标签列表
- 友情链接