BODNews:面向商机挖掘的文档级中文新闻数据集

A Document-Level Chinese News Dataset for Business Opportunity Digging

更新

  • 20220604 双盲审稿暂时隐去作者及机构信息

背景介绍

许多带有重要商机的新闻资讯是文档级的长度,而现有的开源新闻分类数据集主要聚焦在中短篇章的文本。因此,xx科技基于商机推荐业务的实际需求,构建了面向商机挖掘的新闻数据集BODNews。

内容简介

本次发布的版本包含3500条样本,涵盖“经营发展”、“投资融资”、“政策规章”、“重大活动”、“组织人事”和“不含商机”六大类资讯,是第一个真实业务场景下面向商机挖掘的数据集。

标注方式

我们使用资讯平台积累的文本语料作为数据来源,根据业务推送的实际需求,将相似度较高的(如:重大项目、重点项目)等做了合并精简,经过标注员的多轮标注,最后业务专家审核入库。

数据特点

  • 覆盖面广:为了保证新闻的多样性,我们的数据来自于网上不同机构发表的不同行业的新闻,这也使得我们的数据集在主题、内容、精细度等非常丰富。
  • 专业性强:为了更好的运用新闻支持商机发现,我们的数据均经过专家审核解读,有意义的才会被收录,并设计了六大类标签体系和关键词库。
  • 难度高:数据集的文本整体较长,平均长度超过一千字,相当比例的资讯长度超过一万字,每一条新闻数据都会有topic和keywords两个标签,不论是标注过程还是后续模型预测都有较高难度。

详细内容

见后续上传的论文

其他

项目仍在进行中,后续会不定时更新数据,并加上新闻主体相关性等标签。

数据与资源

其他信息

价值
最近更新 六月 21,2022,10:44(Asia/Shanghai)
创建的 五月 24,2022,17:26(Asia/Shanghai)