枣庄市网站建设_网站建设公司_C#_seo优化-厦门市网站建设公司

原文：towardsdatascience.com/how-the-llm-got-lost-in-the-network-and-discovered-graph-reasoning-e2736bd04efa

|图|LLM|推理|图推理|

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ac5bf023d3a48b4bec4460b5c5243fbc.png

作者使用 AI 创建的图像

在一个长篇故事格式中，你必须为你的角色设置一个图。 —— Sunil Grover

大型语言模型（LLMs）展现出了惊人的能力，并且这些能力最近已经扩展到文本之外。一方面，我们见证了多模态模型（例如，视觉-语言模型）；另一方面，我们也见证了模型能力扩展到需要推理的技能。例如，我们现在有专门解决数学问题或编写代码的模型。

然而，最近，另一种类型的数据引起了研究者的关注。实际上，现实世界中的大量数据可以用图的形式表示。例如，社交网络作为图结构化的数据，正是因为表示各种实体之间的关系非常重要。这不是唯一的例子：在生物医学科学中，通常用分子和蛋白质之间的相互作用表示为图。然而，LLMs 与图之间的交互是最近的历史。最近的研究线已经展示了知识图谱（或可能其他类型的图）如何在检索增强生成（RAG）框架中使用，其中实体和关系被找到并用作 LLM 的输入。

图和向量 RAGs 的融合：信息检索的新时代
GraphRAG：结合检索和摘要

虽然图的重要性日益增加，但关于 LLMs 如何理解图形式数据的研发却落后于其他领域。相较于 LLMs 对图数据的理解，研究更多地集中在 LLMs 与知识图谱（KGs）的交叉领域。

<…/Images/8f3e69aac5cfb86c3f07919375dff861.png>

图像来源：[6]

前期研究表明，LLM 在结构理解方面表现不佳，以至于在遇到表格时表现糟糕。然而，图增加了额外的复杂性维度。

LLM 在处理图方面表现如何？它们能否理解结构信息？

例如，这项研究[1]指出，LLM 在基本图任务（尤其是当 LLM 需要识别是否存在循环或边时）上的表现不佳。LLM 的表现比他们选择的基线差。一个原因是不同的图编码函数对 LLM 推理有显著影响。这是因为 LLM 本身不直接接受图作为输入。因此，将图编码为邻接矩阵有利于模型在某些任务上的推理，但会削弱其在其他任务上的能力。实际上，每种不同的编码都允许模型访问不同的结构信息，从而影响其推理能力。

<…/Images/c5117a50bae8dac5fe9b5d0add4e9717.png>

图片来源：[2]

图机器学习：图入门

另一方面，不同的提示工程技术可以提高 LLM 解决某些图任务的能力。因此，如思维链或少样本提示等技术可以帮助提高性能。然后可以为图任务设计特定的提示以进一步改进[1–2]

<…/Images/ee25f85a82b6d0c1f97c8ee5fe18a1b8.png>

图片来源：[1]

这些提示技术对于简单问题仍然有效，但对于复杂问题，它们的益处显著减少。因此，一些作者尝试在图数据上微调模型[7–8]。尽管这些方法很有希望，但结果仍然可以显著改进。

为什么 LLM 在结构问题上会感到困难？

我们实际上并不真正了解。一个假设是 LLM 在空间概念上存在困难。对于动物和人类来说，构建心理地图以与物理世界互动是很重要的。人类使用这些认知地图来规划路线、寻找捷径或决定如何与外界互动。此外，这些地图还代表抽象知识和推理。LLM 不与物理世界互动，但根据一种理论，人类只是通过一系列观察[3–5]来学习这些地图。在这项研究中[3]，他们研究了 LLM 的空间理解能力，设计了需要准确表示潜在空间关系的导航任务（正方形、六边形和三角形，环形和树形拓扑）。LLM 显示出对空间地图的一些隐含理解，但在复杂布局上存在困难。事实上，模型有时甚至不理解相对位置（如何解释“左”或“右”）。其次，LLM 是在大量文本上训练的，其中对空间意识的强调较少。

<…/Images/bc79d0aa5b2cbae8235d218a7ad08267.png>

图片来源：[3]

这种空间理解能力的缺乏直接影响了他们理解图表的能力，尤其是在需要理解节点排列或距离的任务中尤为重要。反过来，这也限制了他们理解复杂图结构的能力，因此在需要图拓扑或空间定位进行准确分析的任务中表现不佳。

这个问题仍然悬而未决。其中一个问题是，我们没有为图推理和 LLM 制定基准。要有一个好的基准数据集，我们需要两个主要因素：各种不同的拓扑结构和各种不同的任务。实际上，我们不仅想测试我们的模型解决任务的能力，还想测试它们对图拓扑的理解。

最近开发了一些基准测试，可以用来评估 LLM 的图推理能力。在这项工作中[6]，他们提出了一种新的数据集，其中他们试图多样化拓扑结构和可能任务的数量。作者随后使用不同的方法生成数据集中的图（随机网络，小世界网络，无标度网络）。他们还改变了图的不同属性，如方向（间接，直接）、规模（小、中、大）以及图的描述（边列表、邻接矩阵和自然语言邻接矩阵）。

<…/Images/5b5a4a7cb13118bf9418bf41d0ebffc7.png>

图片来源：[6]

无数个图推理任务都是可能的。例如，一些任务可以在节点级别（邻居、节点重要性、聚类系数等）定义，也可以在边级别和图级别定义，总共 21 个任务。此外，还生成了推理中间结果，以帮助具有 CoT 提示的模型。

<…/Images/d6736d3e4bc722ba6787edc826f8ae2d.png>

图片来源：[6]

因此，作者决定在这个数据集上对 LLM 进行微调。有趣的是，他们决定将数据集分为领域内任务和领域外任务。简而言之，他们决定在数据集的几乎所有任务上训练模型，除了四个（领域外任务）。这四个任务具有挑战性，需要模型具备解决这些任务所需的图理解和推理能力。此外，作者还选择了四个不同且涵盖节点、边和图级别方面的任务。因此，模型在一系列任务上进行训练，但随后也在它未见过的任务上进行测试，只有在其图理解训练期间获得这些知识时才能解决。他们比较了微调模型与其他相同大小或闭源模型。

实验显示了一些有趣的结果：

较小的 LLM（约 7B）在基准数据集上表现不佳。这表明缺乏处理图数据的能力。
微调后，模型有显著的改进，性能远优于较小的模型，并且优于较大的模型。
GPT4在某些任务上表现良好，但在其他任务上表现不佳，从而显示出对图数据的某些理解，但也存在严重的困难。

<…/Images/25af79ed9824dbf9af34b38f1fc39bc7.png>

图片来源：[6]

作者还研究了 LLM 相对于图数据的一般化能力。在训练过程中，模型只看到了小图（少量节点和简单的拓扑结构）。随着模型遇到更复杂的网络，性能会随着图大小的线性下降。更复杂的图在推理上更具挑战性。在微调期间接触到图数据的模型比未接触到的模型表现更好。

<…/Images/4de1d606e658e8b8a2d50a4bf0a75a29.png>

图片来源：[6]

尽管这些结果令人鼓舞，但模型在领域外任务中未能泛化。因此，模型无法超出它所见过的数据泛化，从而显示出严重的推理局限性。

<…/Images/3d3ee6d9becc3c7bc8c408baafad45d1.png>

图片来源：[6]

根据作者的说法，因此，提供图数据可以使模型获得一些图理解。到目前为止，模型只训练了图和最终答案。在这个最终实验中，他们为每个问题添加了推理中间步骤，并询问这是否会提高模型的理解能力。他们还添加了一个掩码，使模型从中间步骤中学习的信息更加突出。这些中间步骤的添加表明，模型在之前难以完成的任务上有了合理的改进。

<…/Images/b3eacfe547fb576e3ed77395d9f71883.png>

图片来源：[6]

此外，当模型使用中间步骤进行训练并能够产生正确的推理（不仅是对正确答案，还包括正确的中间步骤）时，根据作者的说法，当这些推理步骤不提供时，模型只能获得对图数据的浅层理解，但无法产生正确的推理或对过程的解释。

<…/Images/17b77029d49831bf2b5149aced03fc9c.png>

图片来源：[6]

图无处不在，从生物学到金融，从汽车路径到社交网络。更重要的是，今天图和 LLMs 之间的关系越来越紧密。知识图越来越多地被用作 LLMs 的上下文来源。尽管如此，我们对 LLMs 对图的理解程度知之甚少。

最近的研究表明，大型语言模型（LLMs）对图的理解很少，并且在图推理方面并不出色。我们可以强调这些限制的两个主要原因。第一个原因是模型在大量的文本上以自回归的方式进行训练。然而，学习大量文本的时空关系是困难的。人类通过与世界周围事物的互动来学习导航抽象概念，如图。这使得他们能够创建和内化将在物理世界之外使用的心理地图。第二个原因是训练数据集中图数据很少。在训练数据集中提供图数据可以使模型提高其图理解能力。向它们提供推理能力可以使 LLMs 在解决图推理任务的能力上显著提高。

LLMs 在分布外任务上的失败意味着还有一些方面尚不清楚。其次，我们仍然不知道如何解决他们泛化能力的这一限制。随着知识图和 LLM 之间的这种协同作用越来越接近，训练数据集中应该添加更多比例的图数据，从而培养更好的图推理能力。同时，深化 LLMs 对图的了解也很重要。

你对此有何看法？请在评论中告诉我

如果你对此感兴趣：

您可以查找我的其他文章，您也可以在*LinkedIn上与我建立联系或联系我。查看这个存储库**，其中包含每周更新的机器学习与人工智能新闻。我欢迎合作和项目，您也可以在 LinkedIn 上联系我。您还可以免费订阅，以便在发布新故事时收到通知。*

每当 Salvatore Raieli 发布新内容时，都会收到电子邮件

以下是我 GitHub 存储库的链接，我在其中收集与机器学习、人工智能等相关代码和许多资源。

GitHub – SalvatoreRa/tutorial: 有关机器学习、人工智能、数据科学等教程

或者您可能对我的最近一篇文章感兴趣：

人工智能不会偷走你的工作 – 但要准备好世界上最烦人的同事
DeepMind 的 AlphaProteo：利用机器学习革新蛋白质设计
有时噪音就是音乐：有益的噪音如何改善你的 RAG
永恒的学习：为什么人工智能难以适应新的挑战

参考文献列表

这是撰写本文时参考的主要参考文献列表，仅引用了文章的第一作者姓名。

Fatemi, 2024, 像图一样说话：为大型语言模型编码图，链接
Guo, 2023, GPT4Graph: 大型语言模型能否理解图结构数据？实证评估和基准测试，链接
Yamada, 2023, 评估大型语言模型的空间理解能力，链接
Whittington, 2022, 如何构建认知地图，链接
Garvert, 20217, 人类海马体-内嗅皮层中抽象关系知识的地图，链接
Luo, 2024, GraphInstruct: 通过图理解和推理能力赋能大型语言模型，链接
Chai, 2023, GraphLLM: 提高大型语言模型的图推理能力，链接
Tang, 2024, GraphGPT：大型语言模型的图指令微调，链接

枣庄市网站建设_网站建设公司_C#_seo优化

|图|LLM|推理|图推理|

你对此有何看法？请在评论中告诉我

如果你对此感兴趣：

参考文献列表

热门文章

文章分类

标签云

需要专业的网站建设服务？

枣庄市网站建设_网站建设公司_C#_seo优化

|图|LLM|推理|图推理|

你对此有何看法？请在评论中告诉我

如果你对此感兴趣：

参考文献列表

热门文章

文章分类

标签云

相关文章

小型神经网络如何表示基本函数

从零开始训练 LLM 需要多长时间？

一碗幸运魅力麦片有多幸运？

需要专业的网站建设服务？