IREE:投资领域细颗粒度风险事件抽取数据集

A Dataset for Chinese Event Extraction in Investment Research

更新

  • 20220703 论文已录用
  • 20220604 双盲审稿暂时隐去作者及机构信息

背景介绍

目前,中文数据集主要来源于百度的千言数据集评测LUGE、中文信息学会主办的CCKS、中国计算机学会主办的CCF-BDCI等会议和比赛,但这些数据所涵盖的范围相对较窄,事件类型比较少,与真实的场景还是有一定的差距。因此,我们基于金融投研业务的实际需求,联合太保科技和太保资管共同标注了本数据集。

内容简介

我们将新闻分为5大类、包括市场行为、财报信息、公司运营、信用评估、公司声誉。原始的风险事件经过讨论和投票,将相似度较高的(如:收到法院传票、胜诉、败诉)等做了合并精简。最终共计59个风险事件。

标注方式

我们使用投资决策支持系统积累的新闻语料作为数据的来源,语料库包括(各大主流财经类资讯平台、传统媒体、新媒体),经过算法初筛,选出金融领域对投资有指导作用的新闻。再经过5位业务专家的标注,标注结果一致性>3的会给到资深业务专家审核,过滤掉约20%后,最终用来构建数据集。

数据特点

  • 源于真实场景:太保资管项目,围绕业务在投资方面的经验和需求
  • 覆盖面广:本次发布的版本v1.0,包含15个行业、4000家A股上市公司、59个风险事件
  • 专业性强:每条数据由5个金融行业标注员标注,结果达成一致的,经过资深研究员审查通过后入库

详细内容

本数据集将投稿CCKS2022资源论文,数据详情请查阅后续上传的论文。

数据与资源

其他信息

价值
作者 中国太平洋保险(集团)股份有限公司
维护者 任君翔
版本 1.0
最近更新 七月 3,2022,20:39(Asia/Shanghai)
创建的 五月 5,2022,10:27(Asia/Shanghai)