超100亿中文数据，要造出中国自己的BERT！首个专为中文NLP打造的语言理解基准CLUE升级

日期：2024-11-07 作者：caijiyuan 移动：http://3jjewl.riyuangf.com/mobile/quote/3088.html

编辑：小智，元子

【新智元导读】首个专为中文NLP量身打造的CLUE升级了！目前拥有八个数据集的整体测评及其基线模型，30多位来自各个顶尖机构的志愿者加入并成为了会员。CLUE还发布了已经处理好的100G大规模中文语料，研究者可直接拿来做预训练，完成下游的语言理解、文本分类等任务。「新智元急聘主笔、高级主任编辑，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

做中文NLP，太难了！

分词难。

分在不同的位置意思大不同。比如「我喜欢上一个人」，到底说的是「I like the last one」，还是说「I'm falling love with someone」？需要根据上下文语境来判断。

「一位友好的哥谭市民」 vs「一位友好/的哥/谭市民」

容易混淆的中文例子

多音字也难。

用过具有AI阅读功能的读书app，你会发现很多时候它读的停顿不对，很多读音也不对，比如把「有债必还」，读成「有债必孩」。千万别让孩子跟着AI学语文！

获取资源更难。

英文很多数据集、预训练模型都是开源的，而中文这方面非常稀缺，虽然很多大厂最先进的技术都用上了，但没有开源数据集和预训练模型，那么多数人就用不上；同时由于是针对企业内部定制的，缺乏普适性。

天下苦中文NLP久矣！

好在，希望出现了！

一群中文NLP开发者，凭着一腔热情，利用业余时间，在GLUE的基础上，做出了中文语言理解测评基准CLUE。这是什么精神？

CLUE包含了代表性的数据集、基准(预训练)模型、语料库、排行榜。

它的诞生，承载着这群开发者巨大的野心：跑遍主流的中文数据集，解决当前中文任务公开可用数据集匮乏、没有基准测评、最先进的预训练模型不足等中文任务基础设施问题，见证像BERT一样、更强大的中文 NLP 模型。

目前CLUE主要构建了以下内容：

本次选取的8个任务可以全面测试预训练模型的语言理解能力，CLUE团队制定了一套科学的任务遴选标准。

不同的任务中文本的大小、语言理解的类型、训练的样本量都要有差异性，而且每个任务必须要有明确的定义，比如短文本的分类任务，句子相似性判断等。CLUE官方会处理好数据，让研究者可以更专注在建模本身。

任务的难度方面，不能太简单也不能是已经解决的问题，太简单的问题没有研究价值，只有未解决的问题才能激发研究者去搭建更好的模型。

任务必须是自然语言理解任务的代表，可以很容易应用到现实场景，如果任务很生僻没有实用价值，那它就没有多大意义了。

最后一点，任务要能衡量汉语独有的语言特性，比如成语、俗语，这块将会给模型带来巨大的挑战，汉语本身就很难了，再加上成语大多是高度概括的，模型理解起来就更有难度。

八个任务

CLUE官方总共收集了214 GB的原始语料库，大约760亿个单词，包含三个部分，CLUECorpus2020-small，CLUECorpus2020和CLUEOSCAR。

CLUECorpus2020-small包含14 GB的中文语料库，包括四个子部分：新闻，网页文本，维基百科和评论。

CLUECorpus2020包含100 GB的中文原始语料库，该语料库可从Common Crawl中检索。这个数据集可以直接用于预训练，而无需其他预处理，包含约2万9千个单独的文件，每个文件都处理成了预训练格式。

CLUEOSCAR是一个庞大的多语种语料库，它是通过Common Crawl语料库的语言分类过滤得到的，包含250 GB的中文原始语料库，做进一步的处理后，最终得到100 GB的中文数据。

你建好了模型，还要一个个去适配所有的8个任务，那就太麻烦了，CLUE官方专门写了一个工具PyCLUE，可以帮你一键完成在不同任务的测试。

为了检测模型是否真正理解了句子的语义，结合中文的特点手工制作了一个包含514个句子对的诊断集，这些句子对覆盖了常见的9种容易造成错误理解的场景。

CLUE还提供了一个排行榜，供用户在CLUE上提交自己的结果。当用户提交预测结果时，评估系统将为每个任务提供最终分数。为了鼓励模型复现，如果模型是开源的，会将模型标记为“已认证”。

看看榜单上这些名字！华为、腾讯都来CLUE刷榜了，但看起来都不如CLUE官方团队提供的人类成绩，实力还是有待提高！

如果想了解CLUE的更多详细信息，可参见CLUE团队最近发表在arxiv的论文。

论文链接：

https://arxiv.org/abs/2004.05986

现在，CLUE诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者提供更多的中文自然语言理解数据集。这些数据集可以是你自己制作推出的，也可以是您认为很有意义但是是他人制作的数据集。CLUE官方计划在5月14日前完成筛选，推出正式的CLUE Benchmark。

请您将推荐数据集的名称、作者、形式以及License情况发送至：

CLUE@CLUEBenchmarks.com

只需满足以下要求，即可进行推荐：

如果您推荐的数据集被选中，将能极大扩展数据集的知名度，并为学界、业界对自然语言理解的研究做出贡献。

点击阅读原文即可查看CLUE的官网详细介绍。

参考链接：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行