分享好友 最新动态首页 最新动态分类 切换频道
bert文本摘要ppt bert论文解读
2024-12-26 15:06

 

bert文本摘要ppt bert论文解读

论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

以下陆续介绍bert及其变体(介绍的为粗体)

bert自从横空出世以来,引起广泛关注,相关研究及bert变体/扩展喷涌而出,如ELECTRADistilBERT、SpanBERT、RoBERTa、MASS、UniLM、ERNIE等。

由此,bert的成就不仅是打破了多项记录,更是开创了一副可期的前景。

在看bert论文前,建议先了解《Attention is all you need》论文。

  • 通过MLM,使用双向Transformer模型,获得更丰富的上下文信息
  • 输入方式,句子级输入,可以是一个句子或2个句子,只要给定分隔标记即可

Transformer,多头注意力等概念见bert系列一

  • feature-based:提取某层或多层特征用于下游任务。代表:ELMo
  • fine-tuning:下游任务直接在预训练模型上添加若干层,微调即可。代表:OpenAI GPT,bert

文中操作为,对15%的token进行mask标记,被标记的token有80%的情况下以[MASK]代替,10%以随机token代替,10%不改变原始token。

为什么要mask操作?因为,要使用双向模型,就面临一个“看见自己”的问题,如bert系列一所述。那么我们将一个token mask掉(是什么蒙蔽了我的双眼?是mask),它就看不见自己啦!

为什么不对选中的token全部mask?因为,预训练中这么做没问题,而在下游任务微调时,[MASK] token是不会出现的,由此产生mismatch问题。

如图,输入可以是一个句子,或2个句子,最后都转换成最大长度521的序列,序列的开头是一个[CLS]标记,用于分类或预测下一句等任务。句子之间也有一个[SEP]标记,用于分隔句子。

对于微调,如图示问答任务,用S表示答案开头,E表示答案末尾。第i个单词(Ti)作为答案开头的概率为:

 即单词隐层表示Ti与开头S点乘后的softmax值。

候选范围i~j的得分为STi+ETj,取其中得分最大(i,j)的作为答案的预测范围。

输入Embedding使用3个嵌入相加,token嵌入层就是我们通常用的嵌入方式,segment用于区分一个token属于句子A还是B,Position用于位置编码(自注意需要)

如下图:

 


再介绍一个参数少,训练快,性能好ELECTRA。来自论文《ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS》

不使用mask操作,而是从一个较小的生成器(文中建议大小为判别器的1/4到1/2)中采样来替换一些tokens,然后使用一个判别器去判断这个token是真实的还是生成器产生的。这样模型可以使用全部的tokens而非bert中15%mask的token去训练。

这有点像GAN(生成对抗网络)的概念,不同的是,这里的生成器并不以fool判别器为目标,而是基于极大似然原则训练(其实GAN也可以通过极大似然,只不过生成器反向传播更新需要通过鉴别器)。

 如图,先标记若干位置为mask点,然后使用生成器采样的数据覆盖mask位置,再使用判别器判断每个token是原生的还是伪造的。

 生成器负责对选定的m个点使用极大似然训练,而判别器将要对所有的token进行真伪判断。

最终loss为加权和:

文中仅使用Embedding参数在生成器和判别器中共享(token和positional Embedding,这样做更高效)


论文为《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》介绍部分我认为机器之心的这篇文章不错

 这里只总结一下

蒸馏模型之前也有。主要是使用了软目标交叉熵损失,以及学生网络初始化的方式。

模型大小减到60%,保留97%语言理解能力,推理速度快60%

训练方式为蒸馏(即使用学生网络模拟教师网络,这里bert-base作为教师网络)。

损失由3部分组成,一部分是学生网络与教师网络的软目标交叉熵,一部分为学生网络与教师网络隐状态矢量的嵌入余弦损失,一部分为掩饰语言模型(mlm)损失。其中前2个损失较为重要。

模型移除了token Embedding层和pooler(用于下一句预测),layer数量减到一半。学生网络的初始化也很重要,因为layer只有一半,所以初始化也是从2个layer中取1个。使用非常大的batch_size=4000等。

 


最新文章
江苏、辛集和昌黎县的养老认证软件:方便便捷的养老认证系统
内容摘要:关于江苏养老认证软件及辛集养老认证软件等热门问题,本文认为12提高服务质量:通过软件对养老服务资源进行认证和评估提供真实可信的推荐结果帮助老年人选择优质的养老服务机构;其次,1注重信息的真实性:老年人在使用辛集养老
谷歌大幅更新生成式AI,推出视频模型VEO 2和最新版Imagen3
  作者:赵雨荷  来源:硬AI  的旗舰AI研究实验室Google DeepMind周一大幅升级其人工智能驱动的内容生成工具,推出了Veo 2视频生成模型和增强版Imagen 3图像模型,挑战OpenAI在AI图像和视频生成的领先地位。谷歌表示,这些更新有望彻
本期已解“一字記之曰:痕”广泛的关注解释落实热议_标准版90.65.32
生肖奥秘深如海一字记之曰痕。牛踏勤劳留印记虎勇猛威心永存。兔温和善心感人蛇冷静坚韧显真身。马奔腾急留足迹羊温顺善良暖人心。猴灵活机智显神通鸡勤奋鸣印记深。狗忠诚守护留忠诚猪朴实厚道痕更深。十二生肖各有痕文化精髓探不尽。本期
火狐浏览器(FireFox)
Mozilla Firefox是一个自由的,开放源码的浏览器,适用于Windows,Linux 和MacOS X平台,它体积小速度快,还有其它一些高级特征,这个版本是官方正式发布的64位浏览器,功能上跟以往的火狐是一样的,针对64位系统,做了优化。华军软件园为
防蛀牙膏什么牌子好 防蛀牙膏产品排行榜推荐
蛀牙的产生大多都是由于平时的清洁不当,随着牙髓发炎造成了蛀牙的形成,所以在日常的护理产品选择中,一定要以防蛀类牙膏为主。那么今天就由小编来为大家列出防蛀牙膏产品排行榜,告诉您防蛀牙膏什么牌子好。1、高露洁2、黑人3、狮王4、佳
营销网站优化怎么做的
优化营销网站的过程涉及多方面的策略,以提高网站在搜索引擎中的排名、提升用户体验,并增加转化率。以下是一些关键步骤和策略:1. 关键词研究: - 使用工具(如Google Keyword Planner,SEMrush,Ahrefs)识别相关的、高搜索量的关键词。
让中国卖家赚更多的钱亚马逊的这场全球峰会为什么开在南京
这对一直称雄国际的亚马逊构成了不小的挑战。面对两大竞争对手,亚马逊被迫更新了对卖家的收费标准,对价格低于15美元的服装,收取佣金从17%削减至5%;价格在15美元至20美元之间的服装,佣金降至10%。会上,亚马逊发布了明年中国业务的战略
小红书推行“号店一体”,社区和商业化的博弈仍在持续
小红书正在进一步完善交易闭环。近日,小红书宣布,从8月2日起正式推行“号店一体”机制,建立新的账号体系和一系列政策。具体而言,“号店一体”调整生效后,将为小红书社区商业生态带来三个核心变化,包括账号体系、开店政策和账号与店铺
海外facebook帐号批发网,facebook 账号 购买
在当今数字化时代,社交媒体平台如Facebook已成为人们沟通和交流的重要工具。随着市场需求的增加,海外Facebook帐号批发网应运而生,成为许多企业和个人获取Facebook账号的便捷渠道。通过这些平台,用户可以快速购买到大量的Facebook账号,
相关文章
推荐文章
发表评论
0评