分享好友 最新动态首页 最新动态分类 切换频道
超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级
2024-11-07 23:08

新智元原创

超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级

编辑:小智,元子

【新智元导读】首个专为中文NLP量身打造的CLUE升级了!目前拥有八个数据集的整体测评及其基线模型,30多位来自各个顶尖机构的志愿者加入并成为了会员。CLUE还发布了已经处理好的100G大规模中文语料,研究者可直接拿来做预训练,完成下游的语言理解、文本分类等任务。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

做中文NLP,太难了!

分词难。

分在不同的位置意思大不同。比如「我喜欢上一个人」,到底说的是「I like the last one」,还是说「I'm falling love with someone」?需要根据上下文语境来判断。

「一位友好的哥谭市民」 vs「一位友好/的哥/谭市民」

容易混淆的中文例子

多音字也难。

用过具有AI阅读功能的读书app,你会发现很多时候它读的停顿不对,很多读音也不对,比如把「有债必还」,读成「有债必孩」。千万别让孩子跟着AI学语文!

获取资源更难。

英文很多数据集、预训练模型都是开源的,而中文这方面非常稀缺,虽然很多大厂最先进的技术都用上了,但没有开源数据集和预训练模型,那么多数人就用不上;同时由于是针对企业内部定制的,缺乏普适性。

天下苦中文NLP久矣!

好在,希望出现了!

一群中文NLP开发者,凭着一腔热情,利用业余时间,在GLUE的基础上,做出了中文语言理解测评基准CLUE。这是什么精神?

CLUE包含了代表性的数据集、基准(预训练)模型、语料库、排行榜。

它的诞生,承载着这群开发者巨大的野心:跑遍主流的中文数据集,解决当前中文任务公开可用数据集匮乏、没有基准测评、最先进的预训练模型不足等中文任务基础设施问题,见证像BERT一样、更强大的中文 NLP 模型。

目前CLUE主要构建了以下内容:

本次选取的8个任务可以全面测试预训练模型的语言理解能力,CLUE团队制定了一套科学的任务遴选标准。

不同的任务中文本的大小、语言理解的类型、训练的样本量都要有差异性,而且每个任务必须要有明确的定义,比如短文本的分类任务,句子相似性判断等。CLUE官方会处理好数据,让研究者可以更专注在建模本身。

任务的难度方面,不能太简单也不能是已经解决的问题,太简单的问题没有研究价值,只有未解决的问题才能激发研究者去搭建更好的模型。

任务必须是自然语言理解任务的代表,可以很容易应用到现实场景,如果任务很生僻没有实用价值,那它就没有多大意义了。

最后一点,任务要能衡量汉语独有的语言特性,比如成语、俗语,这块将会给模型带来巨大的挑战,汉语本身就很难了,再加上成语大多是高度概括的,模型理解起来就更有难度。

八个任务

CLUE官方总共收集了214 GB的原始语料库,大约760亿个单词,包含三个部分,CLUECorpus2020-small,CLUECorpus2020和CLUEOSCAR。

CLUECorpus2020-small包含14 GB的中文语料库,包括四个子部分:新闻,网页文本,维基百科和评论。

CLUECorpus2020包含100 GB的中文原始语料库,该语料库可从Common Crawl中检索。这个数据集可以直接用于预训练,而无需其他预处理,包含约2万9千个单独的文件,每个文件都处理成了预训练格式。

CLUEOSCAR是一个庞大的多语种语料库,它是通过Common Crawl语料库的语言分类过滤得到的,包含250 GB的中文原始语料库,做进一步的处理后,最终得到100 GB的中文数据。

你建好了模型,还要一个个去适配所有的8个任务,那就太麻烦了,CLUE官方专门写了一个工具PyCLUE,可以帮你一键完成在不同任务的测试。

为了检测模型是否真正理解了句子的语义,结合中文的特点手工制作了一个包含514个句子对的诊断集,这些句子对覆盖了常见的9种容易造成错误理解的场景。

CLUE还提供了一个排行榜,供用户在CLUE上提交自己的结果。当用户提交预测结果时,评估系统将为每个任务提供最终分数。为了鼓励模型复现,如果模型是开源的,会将模型标记为“已认证”。

看看榜单上这些名字!华为、腾讯都来CLUE刷榜了,但看起来都不如CLUE官方团队提供的人类成绩,实力还是有待提高!

如果想了解CLUE的更多详细信息,可参见CLUE团队最近发表在arxiv的论文。

论文链接:

https://arxiv.org/abs/2004.05986

现在,CLUE诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者提供更多的中文自然语言理解数据集。这些数据集可以是你自己制作推出的,也可以是您认为很有意义但是是他人制作的数据集。CLUE官方计划在5月14日前完成筛选,推出正式的CLUE Benchmark。

请您将推荐数据集的名称、作者、形式以及License情况发送至:

CLUE@CLUEBenchmarks.com

只需满足以下要求,即可进行推荐:

如果您推荐的数据集被选中,将能极大扩展数据集的知名度,并为学界、业界对自然语言理解的研究做出贡献

点击阅读原文即可查看CLUE的官网详细介绍。

参考链接:

最新文章
微信跳转抖音链接生成步骤,在线免费创建
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客》》点此生成链接
Desk平台设计_今日desk设计教程
摘要:Desk平台设计,今日desk设计教程,新片场素材小编谈梓Desk平台设计,今日desk设计教程相关内容整理,如果您对Desk平台设计,今日desk设计教程感兴趣欢迎访问免费阅读。Desk平台设计,今日desk设计教程一、Desk平台在线设计教程介绍Udesk
新股速递 | 360金融,互联网巨头旗下金融科技公司上市第一股
本文由“华盛证券”供稿,文中观点不代表智通财经观点。360金融是由360金服(北京奇步天下科技有限公司运营的集团)孵化,成立于2016年7月,并于2018年9月拆分独立运营发展,自成立到赴美上市,时间不足三年。根据招股书,从放款额算,360
WordPress后台上传文件大小受限制解除方法
WordPress后台上传文件大小受限制解除方法最近刚录了一个外贸photoshop教程一,录制后想把视频上传到网站,然后就遇到了一个问题,就是视频太大,后台无法上传。wordpress后台默认支持上传文件的大小是50M, 但我录制的视频教程经压缩后还
华为云数智融合平台支撑MetaERP计划引擎更智能更实时
计划引擎是ERP系统中计划组件的大脑,要能根据实时的供需数据运算得出精准的计划指令。华为的供应链覆盖了数万种采购物料,每年交易额超过千亿,物料清单层级高达十层,约束条件和场景多达上百个。每次计划引擎的输入量都达到千万级,需要
SEO神器揭秘,提升网站排名的优化技术软件解析
《揭秘SEO排名技术软件:高效提升网站搜索引擎优化》一文深入解析了SEO排名技术软件的原理与功能,介绍如何利用该利器助力网站在搜索引擎中实现快速排名,显著提高SEO优化效率。随着互联网的飞速发展,搜索引擎优化(SEO)已经成为企业网站
免费seo优化诊断推广(免费seo推广计划)
大家好,今天小编关注到一个比较有意思的话题,就是关于免费seo优化诊断推广的问题,于是小编就整理了5个相关介绍免费seo优化诊断推广的解答,让我们一起看看吧。seo优化推广多少钱?什么叫seo优化?做百度推广SEO优化赚钱吗,利润可观吗?
LOL-2021季中赛RNG夺冠荣耀头像领取网址大揭秘:独家分享-庆祝胜利荣耀时刻
在电子竞技的浩瀚星空中,有一支队伍如流星划过,带来了耀眼的荣光。他们就是英雄联盟(League of Legends,简称LOL)赛场上的巨擘——RNG战队。当2021季中赛的胜利属于他们时,无数的粉丝为之欢腾,为这支队伍的荣耀时刻献上最热烈的掌声
天猫母婴店铺开通需要什么条件?母婴类目入驻天猫有哪些要求?
新亲子互动交易时代的来临,针对母婴电商而言即是机会,都是考验,依据大数据显示少年儿童群体规模在过去十年展现增长势头,经济发展水平的不断提高推动儿童经济销售市场非常大的市场潜力。那样天猫母婴类店面如何开通呢?天猫数据表明,婴
为什么SEO优化应该与独立站的营销战略紧密结合?提升网站流量与品牌曝
- SEO优化能够提升独立站的自然流量,增强品牌曝光度。SEO优化是提升独立站自然流量和增强品牌曝光度的重要手段之一。首先,SEO优化能够通过提高网站在搜索引擎结果页面(SERP)中的排名,吸引更多的潜在客户。当用户在搜索引擎中输入与品
相关文章
推荐文章
发表评论
0评