1.简介

  • 标题:Dynamic link prediction: Using language models and graph structures for
    temporal knowledge graph completion with emerging entities and relations
  • 时间:2025
  • 期刊: Dynamic link prediction: Using language models and graph structures for
    temporal knowledge graph completion with emerging entities and relations(中科院一区TOP,CCF-C,JCRQ1)
  • 机构:伦敦大学学院,香港科技大学
  • 关键词: 时序知识图谱、补全任务、大模型、图结构表示学习

2.概述

    记录这篇文章的主要目的是学习文章思路和想法,该文章截止目前(2025年6月15日11:01:46)没有开源任何数据集和代码,因此对于复现工作是不利的。
    文章主要 思路是 因为之前提出的很多时态知识图谱补全方法,是在一个固定的实体和关系集合中进行表示学习,由于时态知识图谱是不断发展的,会涌现出很多新的知识,但是传统的时态知识图谱补全方法无法对没有学习过的实体和关系进行补全任务,因此作者提出了用大模型+图结构信息对实体和关系进行表示,从而实现对未曾见过的实体和关系也可以进行表示学习,并进行补全。
文章中,作者使用的大模型是RoBERTa,在基准模型上使用的是LLama V2,作为一个基准结果。

3.实验部分

    在进行实体表示时,作者采用RoBERTa模型对Relation进行编码,在对实体进行编码的时候,不仅使用RoBERTa进行编码还附加了关系文本嵌入信息,以及邻居关系(1-hot relation)的嵌入信息,对三者进行融合,得到最终的实体嵌入信息。如下图所示:
编码方法图
    在数据集设置上,一共选用了三个数据集,两个通用领域数据集,分别是LKGE-Hybrid(2023)、FB-MBE(2022),一个特定领域的数据集TKGQA(2023);值得主义的是这些数据集都和之前接触到的TKG数据集不一样,大多数TKG数据集都是通过在static KG上添加时间属性字段,形成类似(head entity, relation, tail entity, timestamp)这样的四元组,而该文章所使用的四元组,是通过不同的snapshot来反应时间变化的过程。

数据集的统计信息如下:
数据集统计信息
数据集统计信息

3.1 Results & discussions

实验在三个数据集上进行了实验,比较了LM 和 LM + GS的效果差别,从而得出稀疏链接的图结构信息回引入噪声从而影响实验结果,同时还对比了LM + GS 在 FB-MBE数据集上和original Results的结果对比,从而得出LM + GS的效果更好,同时针对不同图结构信息的引入对结果的影响差异,还引入了entity connect分析,作者认为稀疏的entity connect会引入噪声信息,较为密集的connect对于结果是有益的。

    作者通过减少无关链接,来分析是否对Relation的predict有帮助,最后发现减少无关的connect对于Relation的结果有不少提升,无关的connect会引入噪声。
实验结果如下:
实验结果

4.个人总结

    这篇文章没有开源代码和数据,不利于复现实验结果。但是整体思路还是挺有意思的一篇文章,对于unseen entity and relation的补全,并且使用的几个数据集也是比较新的数据集,但是个人感觉就那么几个snapshot,肯定是不能学习到演化规律的,并且在entity connect的解释上也比较牵强,真的就一定是entity connect造成的吗,又不是只有这一个变量,显然在这点上,其实就是一个故事会。