自然领域中的数据集

  • 时间:
  • 浏览:
  • 来源:互联网

引言

这将会是一个不断更新的博客,提供了一些数据集下载来源或者数据集信息介绍。在我的研究中,我可能会碰到一些相关任务的数据集,在此做个记录,顺便分享给大家。

一、实体、关系抽取相关的数据集

CoNLL

CoNLL: The SIGNLL Conference on Computational Natural Language Learning。具体的解释可以参见这里 或者这里
其中,SIGNLL : ACL’s Special Interest Group on Natural Language Learning。具体的解释可以参见这里.

CoNLL从1999年开始,每年都会发布一个公开评测任务,它们会提供任务数据,因此,这里我们需要的就是它们公开的数据集,用来评测我们自己的一些相关模型或者算法。

CoNLL每年的公开任务如下图所示,可以参见这里。
在这里插入图片描述

我们以[CoNLL 2012] Modeling Multilingual Unrestricted Coreference in OntoNotes为例,很明显,这粒依赖的数据集是OntoNotes(目前的版本为 OntoNotes releases 5.0,其获取方式参见下面介绍),也可以说是原始的数据集,所谓的CoNLL数据集就是将OnyoNotes数据集通过相应的程序转换成CoNLL任务所需的格式(一般称之为CoNLL格式)。
在这里插入图片描述
具体的可参见这里这里。

通过上图可以看出,需要先下载Ontonotes数据集。下一部分以OntoNotes releases 5.0为例。

OntoNotes releases 5.0

其获取方式还是比较麻烦的,同时也比较严谨,毕竟是科研数据,具有访问和共享权限,尽量要严格遵守,不然触碰到侵权就不好了。该数据集需要从LDC(语言数据联盟)上获取,关于获取方法可以参见这里或者这里。是需要注册以及组织授权的。

获取到这个数据集之后,再获取到training 和 development 数据集,从这里即可获取,然后就按照上述图片中的步骤(完整的步骤,也在这里)进行格式转换即可(将CoNLL triain/development 文件中的skel数据转换为conll)。

转换以前的数据格式如下所示(注意下文件名称,相应的格式匹配),
在这里插入图片描述

转换后的数据为:
在这里插入图片描述

通过对比上两图可以看出处理之前的红框单词都是mask掉的。

如果嫌麻烦可以从这里获取已经处理好的。

作用:该语料集可以用来评测:语义角色标注(Sematic Role Labeling)、coreference solution、命名体识别(NER)等任务模型。

ACE

ACEAutomatic Content Extraction这也是一个公开评测项目,它们也提供了相应的数据集,请仔细阅学这个网页中的介绍,了解涉及到的任务以及数据说明。该数据同样是从LDC(语言数据联盟)上获取,不过不是免费的。例如ACE 2005。

关于ACE2005的数据集的理解可以参见这里和这里。

作用:该语料集可以用来评测:实体抽取Entity Detection and Tracking (EDT) 、关系抽取Relation Detection and Characterization (RDC)、事件抽取Event Detection and Characterization (EDC)等任务模型。
关于ACE数据集处理的问题,可以参见这个资料,里面包含相应的处理部分。
目前的问题就是,还没有办法获取到ACE的数据集,如果你有好的资源的话,可以分享给我,留言给我哦,不胜感激。

本文链接http://www.hatan.cn/news/show-39862.html