FRMESE:细颗粒度风险主体抽取数据集

A Fine-Grained Dataset for Chinese Event Subject Extraction in Financial Risk Management

更新

  • 20220604 双盲审稿暂时隐去作者及机构信息
  • 20220523 上传了FRMESE全量数据5w条,论文为了方便理解标注过程,将key设为公司、value设为事件类型;后面训练我们觉得将key设为事件类型、value设为公司更方便。
  • 20220516 上传了demo数据。

背景介绍

现有的公开数据集所涵盖的事件类型不够全面,颗粒度比较粗和真实场景有不少差距。因此,xx科技联合xx资管,基于风险舆情监控业务的实际需求,构建了事件主体抽取数据集FRMESE。

内容简介

本次发布的版本涵盖“行政干预”、“经营治理”和“资本市场”三大类、99种风险因子(即风险事件类型)、合计40637条样本,是业内第一个金融领域细颗粒度风险事件主体抽取数据集。

标注方式

我们使用舆情平台积累的文本语料作为数据来源,原始语料包括行研报告、政府公告、企业公告和财经新闻等。经过算法初筛,选出具有明显舆情风险倾向的新闻,再经过人工进一步筛选和加工从而构建数据集。

数据特点

  • 源于真实场景:数据来源于业务真实场景,取自我们舆情系统中积累千万级的金融舆情语料库
  • 覆盖面广:数据包含证监会分类标准的13个行业、5000家上市公司、99个风险因子
  • 专业性强:每条数据先经过5个标注员标注,只有不低于4个一致结果才会接受,同时经过内部模型校验,最后经过资管资深研究员审查通过后入库。

详细内容

见后续上传的论文

声明

本资源仅供学术研究,不与任何提及公司有对应关系。

数据与资源

其他信息

价值
最近更新 六月 21,2022,10:43(Asia/Shanghai)
创建的 五月 15,2022,15:36(Asia/Shanghai)