面向知识图谱构建的36类实体识别数据集汇总:11类中文、17类英文及8类多语种实体数据集推荐
作者: 老刘说NLP 来源: 老刘说NLP
命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注。
在之前的文章《知识图谱构建练兵数据集:常用12类实体识别、10类关系抽取数据集的梳理与思考》地址:https://mp.weixin.qq.com/s/YJLptAgwPWP9myqH99fReA,我们介绍了12类实体识别的数据。
最近看到一个更为全面的梳理,由达摩院NLP团队和天池数据科学团队长期维护,地址在https://tianchi.aliyun.com/dataset/145108,
该工作汇总了常见的中英文NER数据集任务,并整理了每个数据集任务的语种、规模、实体类别数量、论文、下载地址、代码Github、公开评测任务(Optional)等信息,并在协议许可的情况下对部分任务资源提供了天池站点存储,方便算法人员学习使用。
本文对该工作进行介绍,并做进一步归类整理,形成11类中文实体识别数据集、17类英文实体识别数据集以及8类多语种数据集,供大家一起参考。
一、11类中文实体识别数据集
1、MSRA命名实体识别数据集
本数据集包括训练集(46364)、测试集(4365),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG)。
“训练集/验证集/测试集"数量: 46364/-/4365
实体类别数量:3
论文:https://aclanthology.org/W06-0115.pdf
下载地址:https://tianchi.aliyun.com/dataset/144307
2、简历命名实体识别数据集
数据集包括训练集(3821)、验证集(463)、测试集(477),实体类型包括国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)。
“训练集/验证集/测试集"数量:3821/463/477
实体类别数量:9
论文:https://aclanthology.org/P18-1144.pdf
下载地址:https://tianchi.aliyun.com/dataset/144345
Github: https://github.com/jiesutd/LatticeLSTM
3、weibo命名实体识别数据集
数据集包括训练集(1350)、验证集(269)、测试集(270),实体类型包括地缘政治实体(GPE.NAM)、地名(LOC.NAM)、机构名(ORG.NAM)、人名(PER.NAM)及其对应的代指(以NOM为结尾)。
“训练集/验证集/测试集"数量: 1350/269/270
实体类别数量:4
论文:https://aclanthology.org/D15-1064.pdf
下载地址:https://tianchi.aliyun.com/dataset/144312
Github: https://github.com/hltcoe/golden-horse
4、CLUENER2020 中文细粒度命名实体识别
数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.
“训练集/验证集/测试集"数量:10748/1343/1345
实体类别数量:10
论文:https://arxiv.org/ftp/arxiv/papers/2001/2001.04351.pdf
下载地址:https://tianchi.aliyun.com/dataset/144362
GitHub:https://github.com/CLUEbenchmark/CLUENER2020
5、人民日报NER数据集
NER数据集由人民日报语料库1998版和2014版生成,包含了人名(PER)、地名(LOC)和机构名(ORG)3类常见的实体类型。
实体类别数量:3
下载地址:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
6、中文医学命名实体识别数据集CMeEE
中文医学命名实体识别CMeEE,全称为Chinese Medical Entity Extraction dataset,来自于知名的中文医学NLP评测基准CBLUE。数据集包含504种常见的儿科疾病、7,085种身体部位、12,907种临床表现、4,354种医疗程序等九大类医学实体,包含训练集15,000条,验证集5,000条和测试集数据3,000条。
CMeEE包括两个版本:CMeEE和CMeEE-V2(在CMeEE基础上更新了部分标注错误)。
请研究人员到CBLUE项目主页下载:https://tianchi.aliyun.com/dataset/95414 语种:Chinese
“训练集/验证集/测试集"数量: 15000/5000/3000
实体类别数量: 9
论文:https://aclanthology.org/2022.acl-long.544/
下载地址:https://tianchi.aliyun.com/dataset/144495
Github: https://github.com/CBLUEbenchmark/CBLUE
7、Yidu-S4K:医渡云结构化4K数据集
Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集。
“训练集/验证集/测试集"数量: 1000/-/379
实体类别数量:6
下载地址:https://tianchi.aliyun.com/dataset/144419
8、中文糖尿病科研文献实体关系数据集DiaKG
DiaKG源于41篇中文糖尿病领域专家共识,数据包括基础研究、临床研究、药物使用、临床病例、诊治方法等多个方面,时间跨度达到7年,涵盖了近年来糖尿病领域最广泛的研究内容和热点。DiaKG的共标注了22,050个医学实体和6,890对实体关系,是业界首个中文专病知识图谱数据集,依托于该数据集,包括医生、科研人员、企业开发者就能开展用于临床诊断的知识库,知识图谱,辅助诊断等产品开发,进一步探索研究糖尿病的奥秘。
实体类别数量: 18
论文:https://arxiv.org/abs/2105.15033
下载地址:https://tianchi.aliyun.com/dataset/88836
Github: https://github.com/changdejie/diaKG-code
9、Youku NER Dataset/文娱NER数据集
本数据集提供了文娱领域的NER开放数据集,包括了3大类、9小类实体类别。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。
“训练集/验证集/测试集"数量: 8,001/1,000/1,001
实体类别数量: 9
论文:https://aclanthology.org/N19-1079.pdf
下载地址:https://tianchi.aliyun.com/dataset/108771
Github: https://github.com/allanj/ner_incomplete_annotation
10、E-Commercial NER Dataset/电商NER数据集
本数据集提供了电商领域的NER开放数据集,包括了4大类、9小类实体类别。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。
“训练集/验证集/测试集"数量: 6,000/998/1,000
实体类别数量: 9
论文:https://aclanthology.org/N19-1079.pdf
下载地址:https://tianchi.aliyun.com/dataset/108758
Github: https://github.com/allanj/ner_incomplete_annotation
11、Chinese-Literature-NER-RE-Dataset
一个用于中国文学文本的语篇级命名实体识别和关系提取数据集
实体类别数量:7
论文:https://arxiv.org/pdf/1711.07010.pdf
下载地址:https://tianchi.aliyun.com/dataset/144431
GitHub:https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
二、17类英文实体识别数据集
1、OntoNotes Release 5.0
OntoNotes Release 5.0是OntoNotes项目的最终版本,该项目由BBN Technologies、科罗拉多大学、宾夕法尼亚大学和南加州大学信息科学研究所合作。该项目的目标是用三种语言(英语、汉语和阿拉伯语)注释一个大型语料库,该语料库包括各种类型的文本(新闻、会话电话语音、网络日志、usenet新闻组、广播、脱口秀),具有结构信息(句法和谓词论证结构)和浅语义(与本体和共指相关的词义)。
“训练集/验证集/测试集"数量: 59924/8528/8262
论文:https://aclanthology.org/W13-3516.pdf
下载地址:https://catalog.ldc.upenn.edu/LDC2013T19
2、wnut16命名实体识别数据集
数据集包括训练集(2394)、验证集(1000)、测试集(3850),实体类型包括company、facility、loc、movie、musicartist、other、person、product、sportsteam、tvshow。
“训练集/验证集/测试集"数量:2394/1000/3850
实体类别数量: 10
论文:https://aclanthology.org/W16-3919.pdf
下载地址:https://tianchi.aliyun.com/dataset/144348
3、wnut17命名实体识别数据集
数据集包括训练集(3394)、验证集(1009)、测试集(1287),实体类型包括corporation、creative-work、group、location、person、product。
“训练集/验证集/测试集"数量:3394/1009/1287
实体类别数量:6
论文:https://aclanthology.org/W17-4418.pdf
下载地址:https://tianchi.aliyun.com/dataset/144349
4、conllpp命名实体识别数据集
数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。
“训练集/验证集/测试集"数量: 14041/3250/3453
实体类别数量:4
论文:https://aclanthology.org/D19-1519.pdf
下载地址:https://tianchi.aliyun.com/dataset/144414
Github: https://github.com/ZihanWangKi/CrossWeigh
5、CrossNER命名实体识别数据集
CrossNER数据集是面向多个不同领域(文学、政治、音乐、科学、人工智能)的英文命名实体识别数据集。
语种:English
论文:https://ojs.aaai.org/index.php/AAAI/article/view/17587/17394
下载地址:https://tianchi.aliyun.com/dataset/144418
Github: https://github.com/zliucr/CrossNER
6、BioCreative V CDR task corpus
BioCreative V CDR任务语料库是为化学物质、疾病和化学诱导疾病(CID)关系手动注释的。它包含1500篇PubMed文章的标题和摘要,分为大小相等的系列、验证和测试集。 语种:English
“训练集/验证集/测试集"数量:4560/4581/4797
实体类别数量:2
论文:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4860626/
下载地址:https://biocreative.bioinformatics.udel.edu/tasks/biocreative-v/track-3-cdr/
7、NCBI disease corpus
NCBI疾病语料库在提及和概念层面进行了充分的注释,作为生物医学自然语言处理社区的研究资源。
“训练集/验证集/测试集"数量:5424/923/940
实体类别数量:1
论文:https://pubmed.ncbi.nlm.nih.gov/24393765/
下载地址: https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE/
8、KBP2017命名实体识别数据集
实体发现和链接(EDL)跟踪旨在从多种语言的文本文档的源集合中提取实体提及,并将其链接到参考知识库;EDL系统还需要对那些没有相应KB条目的实体的提及进行集群。
实体类别数量: 5
论文:https://tac.nist.gov/publications/2017/additional.papers/TAC2017.KBP_Entity_Discovery_and_Linking_overview.proceedings.pdf
下载地址:https://catalog.ldc.upenn.edu/LDC2019T19
任务官网:https://tac.nist.gov/2017/KBP/
9、JNLPBA生物命名体识别数据集
BioNLP/JNLPBA共享任务2004涉及分子生物学领域生物学家感兴趣的概念的技术术语的识别和分类。该任务由GENIA项目根据GENIA术语语料库(3.02版)的注释组织
“训练集/验证集/测试集"数量: 2000/-/404
实体类别数量: 5
论文:https://dl.acm.org/doi/10.5555/1567594.1567610
下载地址:https://tianchi.aliyun.com/dataset/144943
10、Few-NERD
Few-NERD是一个大规模,多粒度的人工标注命名实体识别(Named Entity Recognition, NER)数据集,包含了8个大类,66个小类,18万余个句子,49余万个实体。本数据集包括3个任务,分别为标准监督NER(Few-NERD (SUP)),跨大类Few-shot NER(Few-NERD (INTRA))和不跨大类的Few-shot NER (Few-NERD (INTER))。Few-NERD由清华大学和阿里巴巴的研究者构建而成。
“训练集/验证集/测试集"数量:131767/18824/37548
实体类别数量: 8 / 66
论文:https://aclanthology.org/2021.acl-long.248.pdf
下载地址:https://tianchi.aliyun.com/dataset/102048
Github: https://github.com/thunlp/Few-NERD
11、Financial NER Dataset
该数据集是使用CoNll2003数据和从美国证券交易委员会(SEC)文件中获得的财务文件生成的。
“训练集/验证集/测试集"数量: (Document level) 5/-/3
实体类别数量: 4
论文:https://aclanthology.org/U15-1010/
下载地址:https://tianchi.aliyun.com/dataset/145092
12、Broad Twitter Corpus (BTC)
广泛的推特语料库是一个命名实体注释的推特数据集,旨在捕捉时间、空间和社会多样性。它的注释具有很高的一致性和质量,并且有大约12000个实体注释,类型为Person、Location和Organization。
“训练集/验证集/测试集"数量:6338/1001/2000
实体类别数量:3
论文:https://aclanthology.org/C16-1111.pdf
下载地址:https://tianchi.aliyun.com/dataset/145001
Github: https://github.com/GateNLP/broad_twitter_corpus
13、Temporal Twitter Corpus (TTC)
它包括为命名实体识别任务注释的12000条推文。这些推文在2014-2019年统一分布,每年有2000条推文。目标是在构建NER模型时,拥有一个时间上不同的语料库来考虑数据随时间的漂移。
“训练集/验证集/测试集"数量: 10000/500/1500
实体类别数量: 3
论文:https://aclanthology.org/2020.acl-main.680.pdf
下载地址:https://tianchi.aliyun.com/dataset/144438
GitHub:https://github.com/shrutirij/temporal-twitter-corpus
14、Tweebank-NER
社交媒体数据,如推特消息(“推文”),由于其简短、嘈杂和口语化的性质,对NLP系统构成了特别的挑战。Tweebank NER是一个基于Tweebank V2(TB2)的英语NER语料库。
“训练集/验证集/测试集"数量: 1,639/710/1,201
实体类别数量:4
论文:https://aclanthology.org/2022.lrec-1.780.pdf
下载地址:https://tianchi.aliyun.com/dataset/145049
Github:https://github.com/mit-ccc/TweebankNLP
15、TweetNER7
TweetNER7是推特上的一个NER数据集,从2019年9月到2021年8月,在11382条推文中注释了7个实体标签。
实体类别数量: 7
论文:https://aclanthology.org/2022.aacl-main.25.pdf
下载地址:https://tianchi.aliyun.com/dataset/145052
HuggingFace: https://huggingface.co/datasets/tner/tweetner7/tree/main/dataset
16、Multimodal Tweets NER Dataset
复旦大学提供的论文《推文中命名实体识别的自适应共注意网络》的多模式推文NER数据集。
“训练集/验证集/测试集"数量: 4000/1000/3257
实体类别数量:4
论文:https://ojs.aaai.org/index.php/AAAI/article/view/11962/11821
下载地址:https://tianchi.aliyun.com/dataset/145058
GitHub:https://github.com/jinlanfu/NERmultimodal
17、WikiDiverse Dataset
WikiDiverse是一个高质量的人工注释MEL数据集,具有来自Wikinews的各种上下文主题和实体类型。它有8K个图片字幕对,并使用维基百科作为相应的知识库。
“训练集/验证集/测试集"数量: 6312/755/757
论文:https://aclanthology.org/2022.acl-long.328.pdf
下载地址:https://tianchi.aliyun.com/dataset/145103
GitHub:https://github.com/wangxw5/wikidiverse
三、8类多语种命名实体数据集
1、MIT-Movie命名实体识别数据集
WikiDiverse是一个高质量的人工注释MEL数据集,具有来自Wikinews的各种上下文主题和实体类型。包括有8K个图片字幕对,并使用维基百科作为相应的知识库。
语种包括English, Chinese
“训练集/验证集/测试集"数量:6816/1000/1953
实体类别数量: 12
论文:https://groups.csail.mit.edu/sls/publications/2013/Liu_ICASSP-2013.pdf
下载地址:https://tianchi.aliyun.com/dataset/145106
2、MIT-Restaurant命名实体识别数据集
MIT-Restaurant 是一个在餐厅领域中以BIO格式进行语义标记的训练和测试语料库。
“训练集/验证集/测试集"数量:6900/760/1521
实体类别数量: 9
论文:https://groups.csail.mit.edu/sls/publications/2013/Liu_ICASSP-2013.pdf
下载地址:https://tianchi.aliyun.com/dataset/145105
3、ACE 2004 Multilingual Training Corpus
该语料库代表了LDC在ACE计划的支持和DARPA TIDES(翻译信息检测、提取和摘要)计划的额外帮助下创建的2004年自动内容提取(ACE)技术评估的完整英语、阿拉伯语和汉语训练数据集。
语种包括English,Arabic, and Chinese
论文:http://www.lrec-conf.org/proceedings/lrec2004/pdf/5.pdf
下载地址:https://catalog.ldc.upenn.edu/LDC2005T09
4、ACE 2005 Multilingual Training Corpus
ACE 2005多语言训练语料库由语言数据联盟(LDC)开发,包含约1800个英文、阿拉伯文和中文混合类型文本文件,为实体、关系和事件进行注释。这代表了2005年自动内容提取(ACE)技术评估的这些语言的完整训练数据集。类型包括新闻专线、广播新闻、广播谈话、网络日志、讨论论坛和对话式电话演讲。在ACE计划的支持和LDC的额外援助下,LDC对数据进行了注释。
语种包括English,Arabic, and Chinese
下载地址:https://catalog.ldc.upenn.edu/LDC2006T06
5、OntoNotes Release 4.0
OntoNotes Release 4.0由240万字组成,包括30万字的阿拉伯语新闻专线、25万字的中文广播新闻、15万字的汉语广播对话和15万字的中文网络文本以及60万字的英语新闻专线、20万字的英语广播新闻、20万字的英语广播对话和30万字的英文网络文本。
语种包括English, Mandarin Chinese, Arabic, Chinese
“训练集/验证集/测试集"数量: 15724/4301/4346
下载地址:https://catalog.ldc.upenn.edu/LDC2011T03
6、MultiCoNER Dataset
MultiCoNER是一个用于命名实体识别的大型多语言数据集(11种语言)。旨在代表NER中的一些当代挑战,包括低上下文场景(简短和无标题的文本)、句法复杂的实体(如电影标题)和长尾实体分布。
语种包括Bangla、 Chinese、Dutch、English、Farsi、German、Hindi、Korean、Russian、Spanish、Turkish.
实体类别数量:6
论文:https://aclanthology.org/2022.coling-1.334/
下载地址:https://tianchi.aliyun.com/dataset/145100
任务官网:https://multiconer.github.io/multiconer_1/
7、conll2002命名实体识别数据集
CoNLL-2002的共同任务涉及独立于语言的命名实体识别,集中讨论个人、地点、组织和不属于前三类的杂项实体。
语种包括Spanish, Dutch
实体类别数量:4
论文:https://aclanthology.org/W02-2024.pdf
下载地址:https://www.cnts.ua.ac.be/conll2002/ner/
8、conll2003命名实体识别数据集
CoNLL-2003的共同任务涉及独立于语言的命名实体识别,集中讨论个人、地点、组织和不属于前三类的杂项实体。
语种包括English、German
实体类别数量:4
论文:https://aclanthology.org/W03-0419.pdf
下载地址:https://www.clips.uantwerpen.be/conll2003/ner/
总结
本文主要介绍了包括11类中文实体识别数据集、17类英文实体识别数据集以及8类多语种实体数据集。
参考文献
1、https://tianchi.aliyun.com/dataset/145108?spm=a2c22.28136470.0.0.45423e9fgVUBe3
2、https://mp.weixin.qq.com/s/YJLptAgwPWP9myqH99fReA
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。
更多AI工具,参考Github-AiBard123,国内AiBard123