右侧
当前位置:网站首页 > 资讯 > 正文

transformer模型实现目标检测,目标检测detr

作者:admin 发布时间:2024-02-22 08:45 分类:资讯 浏览:29 评论:0


导读:NLP预训练语言模型(三):逐步解析Transformer结构1、Transformer是近两三年非常火的一种适用于NLP领域的一种模型,本质上是Encoder-Decoder结...

NLP预训练语言模型(三):逐步解析Transformer结构

1、Transformer是近两三年非常火的一种适用于NLP领域的一种模型,本质上是Encoder-Decoder结构,所以多应用在机器翻译(输入一个句子输出一个句子)、语音识别(输入语音输出文字)、问答系统等领域。

2、attention: 输入和输出进行比较,不同的输出对不同输入的关注不同。假设输出 更关注输入 , 更关注 ,那么在句子翻译中,语言 翻译成 ,那么很可能认为单词 翻译成 , 翻译成 。能够使模型捕捉有用信息。

3、整个Transformer模型由Encoder和Decoder两部分组成。Encoder负责对输入数据的编码,而Decoder负责对编码后的数据进行解码。

transformer与cnn相比优缺点

1、总的来说,CNN家族的算法更适合处理有局限性的数据,而Transformer家族的算法更适合处理更加复杂的数据。

2、Transformer通常在自然语言处理和机器翻译等序列数据处理任务中得到广泛应用,而CNN则更多用于图像分类和识别等任务。

3、BERT Transformer 使用双向self-attention,而GPT Transformer 使用受限制的self-attention,其中每个token只能处理其左侧的上下文。

超越CNN的ViT模型及其应用前景

CNNs 通过一层一层卷积,逐渐扩大卷积视窗的信息;而 ViT 模型即使在最低层,也可以通过自注意力机制允许模型有更大的视窗。

首先视觉专用适配器将输入数据和任务的先验信息引入到通用Backbone网络之中,使模型适用于下游任务。

CNN广泛应用于计算机视觉的各种任务中,比如分类,检测,分割,CNN通过共享卷积核提取特征,减少网络参数数量,提高模型效率,另一方面CNN具有平移不变性,即无论特征被移动到图像的哪个位置,网络都能检测到这些特征。

ViT是纯transformer的结构,剔除了CNN中具有的一些归纳偏置,使其必须依赖较大规模的数据集去学习这种偏置,从而对于中心规模scratch训练得到的模型性能远低于CNN结构。

要知道,多年来,卷积神经网络(CNN)一直主导着视觉表征学习,并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。

标签:


取消回复欢迎 发表评论: