枣庄市网站建设_网站建设公司_C#_seo优化
2025/12/21 0:57:01 网站建设 项目流程

原文:towardsdatascience.com/how-the-llm-got-lost-in-the-network-and-discovered-graph-reasoning-e2736bd04efa

|图|LLM|推理|图推理|

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ac5bf023d3a48b4bec4460b5c5243fbc.png

作者使用 AI 创建的图像

在一个长篇故事格式中,你必须为你的角色设置一个图。 —— Sunil Grover

大型语言模型(LLMs)展现出了惊人的能力,并且这些能力最近已经扩展到文本之外。一方面,我们见证了多模态模型(例如,视觉-语言模型);另一方面,我们也见证了模型能力扩展到需要推理的技能。例如,我们现在有专门解决数学问题或编写代码的模型。

然而,最近,另一种类型的数据引起了研究者的关注。实际上,现实世界中的大量数据可以用图的形式表示。例如,社交网络作为图结构化的数据,正是因为表示各种实体之间的关系非常重要。这不是唯一的例子:在生物医学科学中,通常用分子和蛋白质之间的相互作用表示为图。然而,LLMs 与图之间的交互是最近的历史。最近的研究线已经展示了知识图谱(或可能其他类型的图)如何在检索增强生成(RAG)框架中使用,其中实体和关系被找到并用作 LLM 的输入。

图和向量 RAGs 的融合:信息检索的新时代

GraphRAG:结合检索和摘要

虽然图的重要性日益增加,但关于 LLMs 如何理解图形式数据的研发却落后于其他领域。相较于 LLMs 对图数据的理解,研究更多地集中在 LLMs 与知识图谱(KGs)的交叉领域。

<…/Images/8f3e69aac5cfb86c3f07919375dff861.png>

图像来源:[6]

前期研究表明,LLM 在结构理解方面表现不佳,以至于在遇到表格时表现糟糕。然而,图增加了额外的复杂性维度。

LLM 在处理图方面表现如何?它们能否理解结构信息?

例如,这项研究[1]指出,LLM 在基本图任务(尤其是当 LLM 需要识别是否存在循环或边时)上的表现不佳。LLM 的表现比他们选择的基线差。一个原因是不同的图编码函数对 LLM 推理有显著影响。这是因为 LLM 本身不直接接受图作为输入。因此,将图编码为邻接矩阵有利于模型在某些任务上的推理,但会削弱其在其他任务上的能力。实际上,每种不同的编码都允许模型访问不同的结构信息,从而影响其推理能力。

<…/Images/c5117a50bae8dac5fe9b5d0add4e9717.png>

图片来源:[2]

图机器学习:图入门

另一方面,不同的提示工程技术可以提高 LLM 解决某些图任务的能力。因此,如思维链或少样本提示等技术可以帮助提高性能。然后可以为图任务设计特定的提示以进一步改进[1–2]

<…/Images/ee25f85a82b6d0c1f97c8ee5fe18a1b8.png>

图片来源:[1]

这些提示技术对于简单问题仍然有效,但对于复杂问题,它们的益处显著减少。因此,一些作者尝试在图数据上微调模型[7–8]。尽管这些方法很有希望,但结果仍然可以显著改进。

为什么 LLM 在结构问题上会感到困难?

我们实际上并不真正了解。一个假设是 LLM 在空间概念上存在困难。对于动物和人类来说,构建心理地图以与物理世界互动是很重要的。人类使用这些认知地图来规划路线、寻找捷径或决定如何与外界互动。此外,这些地图还代表抽象知识和推理。LLM 不与物理世界互动,但根据一种理论,人类只是通过一系列观察[3–5]来学习这些地图。在这项研究中[3],他们研究了 LLM 的空间理解能力,设计了需要准确表示潜在空间关系的导航任务(正方形、六边形和三角形,环形和树形拓扑)。LLM 显示出对空间地图的一些隐含理解,但在复杂布局上存在困难。事实上,模型有时甚至不理解相对位置(如何解释“左”或“右”)。其次,LLM 是在大量文本上训练的,其中对空间意识的强调较少。

<…/Images/bc79d0aa5b2cbae8235d218a7ad08267.png>

图片来源:[3]

这种空间理解能力的缺乏直接影响了他们理解图表的能力,尤其是在需要理解节点排列或距离的任务中尤为重要。反过来,这也限制了他们理解复杂图结构的能力,因此在需要图拓扑或空间定位进行准确分析的任务中表现不佳。

这个问题仍然悬而未决。其中一个问题是,我们没有为图推理和 LLM 制定基准。要有一个好的基准数据集,我们需要两个主要因素:各种不同的拓扑结构和各种不同的任务。实际上,我们不仅想测试我们的模型解决任务的能力,还想测试它们对图拓扑的理解。

最近开发了一些基准测试,可以用来评估 LLM 的图推理能力。在这项工作中[6],他们提出了一种新的数据集,其中他们试图多样化拓扑结构和可能任务的数量。作者随后使用不同的方法生成数据集中的图(随机网络,小世界网络,无标度网络)。他们还改变了图的不同属性,如方向(间接,直接)、规模(小、中、大)以及图的描述(边列表、邻接矩阵和自然语言邻接矩阵)。

<…/Images/5b5a4a7cb13118bf9418bf41d0ebffc7.png>

图片来源:[6]

无数个图推理任务都是可能的。例如,一些任务可以在节点级别(邻居、节点重要性、聚类系数等)定义,也可以在边级别和图级别定义,总共 21 个任务。此外,还生成了推理中间结果,以帮助具有 CoT 提示的模型。

<…/Images/d6736d3e4bc722ba6787edc826f8ae2d.png>

图片来源:[6]

因此,作者决定在这个数据集上对 LLM 进行微调。有趣的是,他们决定将数据集分为领域内任务和领域外任务。简而言之,他们决定在数据集的几乎所有任务上训练模型,除了四个(领域外任务)。这四个任务具有挑战性,需要模型具备解决这些任务所需的图理解和推理能力。此外,作者还选择了四个不同且涵盖节点、边和图级别方面的任务。因此,模型在一系列任务上进行训练,但随后也在它未见过的任务上进行测试,只有在其图理解训练期间获得这些知识时才能解决。他们比较了微调模型与其他相同大小或闭源模型。

实验显示了一些有趣的结果:

  • 较小的 LLM(约 7B)在基准数据集上表现不佳。这表明缺乏处理图数据的能力。

  • 微调后,模型有显著的改进,性能远优于较小的模型,并且优于较大的模型。

  • GPT4在某些任务上表现良好,但在其他任务上表现不佳,从而显示出对图数据的某些理解,但也存在严重的困难。

<…/Images/25af79ed9824dbf9af34b38f1fc39bc7.png>

图片来源:[6]

作者还研究了 LLM 相对于图数据的一般化能力。在训练过程中,模型只看到了小图(少量节点和简单的拓扑结构)。随着模型遇到更复杂的网络,性能会随着图大小的线性下降。更复杂的图在推理上更具挑战性。在微调期间接触到图数据的模型比未接触到的模型表现更好。

<…/Images/4de1d606e658e8b8a2d50a4bf0a75a29.png>

图片来源:[6]

尽管这些结果令人鼓舞,但模型在领域外任务中未能泛化。因此,模型无法超出它所见过的数据泛化,从而显示出严重的推理局限性。

<…/Images/3d3ee6d9becc3c7bc8c408baafad45d1.png>

图片来源:[6]

根据作者的说法,因此,提供图数据可以使模型获得一些图理解。到目前为止,模型只训练了图和最终答案。在这个最终实验中,他们为每个问题添加了推理中间步骤,并询问这是否会提高模型的理解能力。他们还添加了一个掩码,使模型从中间步骤中学习的信息更加突出。这些中间步骤的添加表明,模型在之前难以完成的任务上有了合理的改进。

<…/Images/b3eacfe547fb576e3ed77395d9f71883.png>

图片来源:[6]

此外,当模型使用中间步骤进行训练并能够产生正确的推理(不仅是对正确答案,还包括正确的中间步骤)时,根据作者的说法,当这些推理步骤不提供时,模型只能获得对图数据的浅层理解,但无法产生正确的推理或对过程的解释。

<…/Images/17b77029d49831bf2b5149aced03fc9c.png>

图片来源:[6]

图无处不在,从生物学到金融,从汽车路径到社交网络。更重要的是,今天图和 LLMs 之间的关系越来越紧密。知识图越来越多地被用作 LLMs 的上下文来源。尽管如此,我们对 LLMs 对图的理解程度知之甚少。

最近的研究表明,大型语言模型(LLMs)对图的理解很少,并且在图推理方面并不出色。我们可以强调这些限制的两个主要原因。第一个原因是模型在大量的文本上以自回归的方式进行训练。然而,学习大量文本的时空关系是困难的。人类通过与世界周围事物的互动来学习导航抽象概念,如图。这使得他们能够创建和内化将在物理世界之外使用的心理地图。第二个原因是训练数据集中图数据很少。在训练数据集中提供图数据可以使模型提高其图理解能力。向它们提供推理能力可以使 LLMs 在解决图推理任务的能力上显著提高。

LLMs 在分布外任务上的失败意味着还有一些方面尚不清楚。其次,我们仍然不知道如何解决他们泛化能力的这一限制。随着知识图和 LLM 之间的这种协同作用越来越接近,训练数据集中应该添加更多比例的图数据,从而培养更好的图推理能力。同时,深化 LLMs 对图的了解也很重要。

你对此有何看法?请在评论中告诉我


如果你对此感兴趣:

您可以查找我的其他文章,您也可以在*LinkedIn上与我建立联系或联系我。查看这个存储库**,其中包含每周更新的机器学习与人工智能新闻。我欢迎合作和项目,您也可以在 LinkedIn 上联系我。您还可以免费订阅,以便在发布新故事时收到通知。*

每当 Salvatore Raieli 发布新内容时,都会收到电子邮件

以下是我 GitHub 存储库的链接,我在其中收集与机器学习、人工智能等相关代码和许多资源。

GitHub – SalvatoreRa/tutorial: 有关机器学习、人工智能、数据科学等教程

或者您可能对我的最近一篇文章感兴趣:

人工智能不会偷走你的工作 – 但要准备好世界上最烦人的同事

DeepMind 的 AlphaProteo:利用机器学习革新蛋白质设计

有时噪音就是音乐:有益的噪音如何改善你的 RAG

永恒的学习:为什么人工智能难以适应新的挑战

参考文献列表

这是撰写本文时参考的主要参考文献列表,仅引用了文章的第一作者姓名。

  1. Fatemi, 2024, 像图一样说话:为大型语言模型编码图,链接

  2. Guo, 2023, GPT4Graph: 大型语言模型能否理解图结构数据?实证评估和基准测试,链接

  3. Yamada, 2023, 评估大型语言模型的空间理解能力,链接

  4. Whittington, 2022, 如何构建认知地图,链接

  5. Garvert, 20217, 人类海马体-内嗅皮层中抽象关系知识的地图,链接

  6. Luo, 2024, GraphInstruct: 通过图理解和推理能力赋能大型语言模型,链接

  7. Chai, 2023, GraphLLM: 提高大型语言模型的图推理能力,链接

  8. Tang, 2024, GraphGPT:大型语言模型的图指令微调,链接

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询