ScholarGraph 学术关系知识图谱
Web Group, WAMDM, Renmin University of China
[Home] [Download] [API] [Citation]
 
 

    在Web上,与学者相关的学术信息广泛分布,但并未有效关联起来。2008年至今,中国人民大学信息学院网络与移动数据管理实验室(WAMDM)开发的中文学术信息集成系统ScholarSpace,已收集了25个领域的千万篇中文论文。该系统将来自不同数据源的学术数据集成在数据库中。如果进一步完成实体和实体关系的抽取,就可以构建一个学术关系知识图谱,描述其中蕴含的丰富知识,从而提供更加高效的查询和多样化的服务。

    基于此种考虑,在ScholarSpace大量工作基础上,我们进一步对数据进行了整理,生成了学术关系知识图谱ScholarGraph,v1.0 涵盖七大领域673,044位学者、6,428,056篇论文的数据,共计10,612,497个三元组,之后我们会继续发布其他领域百万学者的数据。


 
数据描述
 

    ScholarGraph v1.0 包括计算机、经济、管理、物理、地理、考古、教育7个领域,每个领域下均有作者、期刊、论文、论文实体,以及论文发表、论文出版关系。 知识图谱以RDF格式存储,采用标准的SPO模式,URI以“http://www.c-dblp.cn/”开头,其后加上相关领域的名称,比如计算机领域“http://www.c-dblp.cn/computer/”,各字段如下:

    相关统计如下表所示:

 

 
数据质量控制
 

    本数据集的后台核心是ScholarSpace系统,该系统定时自动地从Web上收集并处理中文论文数据,再从集成好的数据中抽取出实体和实体关系,实时构建三元组集合。对数据质量控制的措施有:

  1. 数据清洗:从集成数据中去除不相关(如期刊征文)、不完整、有重复的数据;
  2. 实体消歧:对同名学者进行有效区分,确保正确的实体属性和关系关联。
 
数据价值
 
    基于学术关系知识图谱,可以提供多种应用服务,如学术关系分析、学术同行评价、专家推荐系统、学术机构评价、科研行为画像等。在该学术信息基础上本实验室已经实现学术关系的交互式分析工具ScholarExplorer,从多种维度建立学者的画像。其中的时间轴能反映出学者研究兴趣随时间的变化趋势;师生关系可以在推荐专家时屏蔽利益关系(之后发布的数据将囊括师生关系)。
 
WAMDM, Renmin University of China, All Rights Reserved.