Roberta详解


image.png 论文地址:https://arxiv.org/pdf/1907.11692.pdf 论文标题: RoBERTa: A Robustly Optimized BERT Pretraining A pproach 一个强力优化的BERT预训练方法。

0、摘要:

语言模式预训练已经带来了显著的性能提升,但仔细比较不同方法是一个挑战。训练的计算成本很高,通常是在不同大小的私有数据集上进行的,我们将展示,超参数选择对最终结果有重大影响。我们对BERT 预训练进行了一项复制研究,仔细测量了许多关键超参数和训练数据大小的影响。 我们发现,BERT的训练明显不足,可以与发布后的每个模型的

Read more

BERT详解


  1. 什么是BERT? BERT全名 Bidirection Encoder Representations from Transformers,是谷歌于2018年发布的NLP领域的 预训练模型,一经发布就霸屏了NLP领域的相关新闻,味道是真香。果不其然,2019年出现了很多BERT相关的论文和模型,本文旨在对 BERT模型进行一个总结。 首先从名字就可以看出,BERT模型是使用双向Transformer模型的EncoderLayer进行特征提取(BERT模型中没有 Decoder部分)。Transformer模型作为目前NLP领域最牛的特征提取器其原理不需要多做介绍,其中的EncoderLay

Read more

Attention机制详解(三)——Attention模型的应用


上两篇Attention机制详解(一)——Seq2Seq中的Attention, Attention机制详解(二)——Self-Attention与Transformer主要回顾了Attention与RNN结合在机器翻译中的原理以及self-attention模型,这一篇准备分类整理一下Attention模型的各种应用场景,主要参考资料为谷歌研究组和Yoshua Bengio组的论文。

自然语言处理

之前已经见过Attention模型对于机器翻译(Attention is All you need)有非常很好的效果,那么在自然语言处理方面Attention模型还有哪些其他应用呢?我们通过总结以

Read more

Attention机制详解(二)——Self-Attention与Transformer


上一篇Attention机制详解(一)——Seq2Seq中的Attention回顾了早期Attention机制与RNN结合在机器翻译中的效果,RNN由于其顺序结构训练速度常常受到限制,既然Attention模型本身可以看到全局的信息, 那么一个自然的疑问是我们能不能去掉RNN结构,仅仅依赖于Attention模型呢,这样我们可以使训练并行化,同时拥有全局信息? 这一篇就主要根据谷歌的这篇Attention is All you need论文来回顾一下仅依赖于Attention机制的Transformer架构,并结合Tensor2Tensor源代码进行解释。

直观理解与模型整体结构

先来看一个翻

Read more

Attention机制详解(一)——Seq2Seq中的Attention


Attention模型在机器学习领域越来越得到广泛的应用,准备写一个关于Attention模型的专题,主要分为三个部分:(一)在Seq2Seq 问题中RNN与Attention的结合。 (二)抛除RNN的Self-Attention模型以及谷歌的Transformer架构。 (三)Attention及Transformer在自然语言处理及图像处理等方面的应用。主要参考资料是Yoshua Bengio组的论文、谷歌研究组的论文及Tensor2Tensor的官方文档、斯坦福自然语言处理相关部分讲义等。 这一篇先来介绍早期的在Machine Translation(机器翻译)中Attention机制

Read more

计算机视觉目标检测算法综述


传统目标检测三步走:区域选择、特征提取、分类回归 遇到的问题: 1.区域选择的策略效果差、时间复杂度高 2.手工提取的特征鲁棒性较差 深度学习时代目标检测算法的发展: Two-Stage: R-CNN 论文地址:Rich feature hierarchies for accurate object detection and semantic segmentation 地位:是用卷积神经网络(CNN)做目标检测的第一篇,意义影响深远。 核心思想: 1.区域选择不再使用滑窗,而是采用启发式候选区域生成算法(Selective Search) 2.特征提取也从手工变成利用CNN自动提取特征,增

Read more