大规模、结构化新冠知识图谱如何实现?这里是清华大学AMiner和智谱AI团队的技术报告

如题所述

第1个回答  2024-08-29
大规模、结构化新冠知识图谱如何实现?

清华大学 AMiner 和智谱.AI 团队收集整理了 COVID-19 开放知识图谱,构建了一个大规模、结构化新冠知识图谱 (COKG-19)。此图谱旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。COKG-19 包含了 505 个概念、393 个属性、26282 个实例和 32352 个知识三元组,覆盖医疗、健康、物资、防控、科研和人物等领域。作为中英文双语知识图谱,它为对抗新型冠状病毒提供了宝贵资源。

COKG-19 的构建过程包括概念层、实例数据层和知识图谱的存储与发布。团队通过语义匹配和排歧方法融合概念层,将相同含义的概念合并,同名不同义的概念区分,并根据专家意见修正关系。属性层也采用类似的语义融合方法。实例层对原有知识图谱进行归纳并修正错误数据,与概念层关联后筛选出 26282 个实例。最后,将构建好的 Schema 和实例数据合并,并利用专业翻译工具得到英文数据,输出 JSON-LD、OWL/RDF 和 Neo4j 图数据库格式。

为了使图谱更加全面和细粒度,团队进一步收集开放新冠论文数据(例如 CORD-19),并与 COKG-19 进行融合。通过专用实体识别工具识别实体类型,并根据概念名称合并去重。在实例数据融合阶段,团队利用 WikiData 百科数据作为辅助知识,实现跨语言实例对齐。整理和分类 CORD-19 实例,构建了包含 510 个概念、414 个属性和 76 万实例的 COKG-19。

COKG-19 知识图谱在应用方面提供了实体链接、知识检索和知识分析等功能。实体链接工具基于 COKG-19 图谱,实现中英文双语文本实体链接,为全球疫情风险分析提供了坚实基础。知识检索基于实体排歧和全文索引实现,帮助用户快速定位所需信息。知识分析则通过关联关系和路径分析,揭示关键实体间的联系,为新冠肺炎治疗药物筛选提供帮助。

COKG-19 知识图谱的构建体现了 AI+ 大数据技术在快速应对疫情过程中的作用。它充分利用了开源社区的力量,并应用了多种自然语言处理和机器学习算法,展现了 AI 技术在科学研究和疫情防控中的潜力。

大规模、结构化新冠知识图谱如何实现?这里是清华大学AMiner和智谱AI团队...
最后,将构建好的 Schema 和实例数据合并,并利用专业翻译工具得到英文数据,输出 JSON-LD、OWL\/RDF 和 Neo4j 图数据库格式。为了使图谱更加全面和细粒度,团队进一步收集开放新冠论文数据(例如 CORD-19),并与 COKG-19 进行融合。通过专用实体识别工具识别实体类型,并根据概念名称合并去重。在实例数据...

相似回答
大家正在搜