当今生物医学等领域的文献快速增长,一方面促进了科研交流,但同时也为研究人员带来了巨大的阅读压力,尽管业界已出现了一些论文搜索和推荐的方法,但其大都只依据论文的元信息和文本信息,而对文章内容,尤其是插图等非文字对象尚未充分挖掘并利用,因此现有系统在给读者的推荐结果中,还存在着大量重复、泛化等低效情况。为此,我们探索并建立了一个基于论文内容的文档级推荐系统,具体包括:文档解析、文本对象理解、内容相似性度量、多级索引机制、以及优化推荐结果等主要环节。其中,针对生物医学类科技文献中特有的分子式图片,我们提出了一种图相似度的度量方法,即半分支编辑距离(Half-branch GED,简称HB-GED)算法,同时针对分子图形表示和文档之间关系表示也提出了图卷积模型。在真实数据集上的实验结果表明,本文提出的论文推荐方法,可有效筛选出更符合查询者意图的候选论文。
当今生物医学等领域的文献快速增长,这一方面积极地促进了各领域的科研交流,但同时,大量激增的文献阅读量也为研究人员带来了巨大的查阅负担,尤其是如何获得真正有帮助的最新文献,正在成为很多一线科研人员的阻碍。尽管业界已出现了一些论文搜索和推荐的方法,即现有研究中不乏可用的推荐方法,但这些方法大都只依据论文的元信息和文本信息,例如搜索相似的作者、引用关系,或者通过提取文章关键词或摘录文章内容来度量文章的相似性,进而推测文章间的关系,它们很少利用文章的非文字内容,尤其是插图等复杂对象,尚未充分挖掘并利用,因此,现有系统在给读者的推荐结果中, 还存在着大量重复、泛化等低效情况,以基于关键词的方法为例,一个或多个关键词往往不能涵盖一篇文章的完整意义,这样就会导致推荐系统输出很多无关的论文。
为此,有必要深入挖掘并全面利用文献中的非文本信息,将更全面的整篇文章信息用于比较,以此可给推荐系统带来更多的准确推荐结果。在生物医学领域,有一类重要的非文本的内容,是该类文章中的分子式,它们包含着非常重要的信息,值得进一步的提取和利用。但此类探索面临着诸多技术挑战,例如:1) 如何从文章中提取各式各样的图表信息,尤其是精细的分子图信息;2) 如何有效地计算分子图之间的相似度;3) 如何根据内容相关性建立查询文章和备选文章的关系网络,并实现有效的连接预测等。
对此,本项研究基于分子式检索技术的积累,通过检测包含有相同或相似的分子式的文献,实现更为有效的医药文献推荐方法,主要创新体现在:1) 提出了一套从文档到文档的推荐系统,简化了用户交互操作,但增加了输入信息量;2) 根据分子式的特点,对图表示和相似度计算改进了现有的图神经网络模型和图编辑距离算法,以折叠策略更有效地聚合了分子的图形特征,以半分支结构提高了分子相似度计算的准确度和效率;3) 对于文档与分子式之间存在的多对多的包含关系,建立了更全面的关系描述模型,可以更加准确地推测论文之间的相关程度。
2. 相关工作 过去数年中我们可以看到推荐系统的广泛运用, 尤其是许多领域中(社交网络, 电子商务等)与图神经网络的(GNN)的结合[1]。然而文献查询相比于商品查询目的有所不同。比如,一个买家在买了一样商品后,他/她可能不会再期待推荐更多同一类型的商品。而科研人员阅读一篇文章后,他/她可能会更加关注与这篇文献相关的,即,研究相同问题的,同类型文章。因此,有效的推荐系统更注重对文件内容相关