百色市网站建设_网站建设公司_一站式建站_seo优化
2025/12/17 9:38:38 网站建设 项目流程

原文:towardsdatascience.com/graph-neural-networks-fraud-detection-and-protein-function-prediction-08f9531c98de?source=collection_archive---------0-----------------------#2024-11-21

理解机器学习工程师在生物领域的 AI 应用

https://medium.com/@meghanheintz?source=post_page---byline--08f9531c98de--------------------------------https://towardsdatascience.com/?source=post_page---byline--08f9531c98de-------------------------------- Meghan Heintz

·发表于Towards Data Science ·阅读时长 7 分钟·2024 年 11 月 21 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e56db49516d0f5fd8f3f3c247711da18.png

图片由Conny Schneider提供,来源:Unsplash

金融交易网络和蛋白质结构有什么共同点?它们在欧几里得(x, y)空间中都表现得不佳,需要对复杂、大规模、异质图形进行编码,才能真正理解。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/dd117c6208688bc1d86b447bba16305d.png

左:欧几里得空间中的图像。右:非欧几里得空间中的图形。来自《图神经网络:方法与应用综述》

图是表示金融网络和蛋白质结构中关系数据的自然方式。它们捕捉实体之间的关系与互动,例如金融系统中账户之间的交易,或蛋白质中氨基酸之间的键合与空间接近度。然而,更广为人知的深度学习架构,如 RNN/CNN 和 Transformer,无法有效地建模图形。

你可能会问,为什么我们不能把这些图形直接映射到 3D 空间?如果我们强行将它们放入 3D 网格:

鉴于这些局限性,**图神经网络(GNNs)**作为一种强大的替代方案。在我们关于生物学应用中的机器学习系列的继续中,我们将探讨 GNNs 如何应对这些挑战。

一如既往,我们将从更熟悉的欺诈检测话题开始,然后学习这些类似的概念在生物学中的应用。

欺诈检测

为了清晰明确,让我们首先定义什么是图。我们记得在小学时在 x、y 轴上绘制图形,但我们当时真正做的是绘制函数图,在图上绘制 f(x)=y 的点。当我们在 GNN(图神经网络)的背景下谈论“图”时,我们指的是建模对象之间的配对关系,其中每个对象是一个节点,而关系是边。

在金融网络中,节点是账户,边是交易。该图将由关联方交易(RPT)构建,并可以通过属性(例如时间、金额、货币)进行丰富。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/287793aa4a3a07394fb807b1a432e099.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5f4b41d38a1b7842a1cd0d66ed6792da.png

左侧:函数图(我们不讨论的内容)(2024 年 3 月 15 日)。摘自维基百科en.wikipedia.org/wiki/Graph_of_a_function右侧:具有节点和边的图(我们讨论的内容)(2024 年 10 月 25 日)。摘自维基百科en.wikipedia.org/wiki/Graph_theory

传统的基于规则和机器学习的方法通常只处理单一的交易或实体。这一局限性未能考虑到交易如何与更广泛的网络连接。因为诈骗者通常跨多个交易或实体进行操作,所以诈骗可能未被发现。

通过分析图形,我们可以捕捉直接邻居和更远连接之间的依赖关系和模式。这对于检测洗钱至关重要,因为资金通过多个交易流动以掩盖其来源。GNNs 揭示了洗钱方法所创造的密集子图。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6f0353065d78d76bb14b60891d56bfb8.png

与使用 GNN 检测基于关联方交易网络的金融欺诈中的关联方转移网络示例

消息传递框架

与其他深度学习方法类似,目标是从数据集中创建表示或嵌入。在 GNN 中,这些节点嵌入是通过消息传递框架创建的。消息在节点之间迭代传递,使得模型能够学习图的局部和全局结构。每个节点的嵌入是基于其邻居特征的聚合来更新的。

该框架的概括如下:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5eaee950880ff032dce1a690a4e6ecb4.png

在消息传递神经网络(MPNN)层中,节点表示更新。节点接收所有直接邻居发送的消息。消息通过消息函数计算,该函数考虑了发送方和接收方的特征。图神经网络。(2024 年 11 月 14 日)。摘自维基百科en.wikipedia.org/wiki/Graph_neural_network

在节点嵌入学习完成后,可以通过几种不同的方式计算欺诈分数:

现在我们已经对图神经网络(GNN)有了基础理解,可以转向 GNN 的另一个应用:预测蛋白质的功能。

蛋白质功能预测

我们已经看到了通过 AlphaFold 2和3在蛋白质折叠预测中的巨大进展,以及通过RFDiffusion在蛋白质设计中的突破。然而,蛋白质功能预测仍然具有挑战性。功能预测对于许多原因至关重要,但特别在生物安全领域尤为重要,因为它有助于预测 DNA 在测序之前是否会发生孤雌生殖。传统方法如BLAST依赖于序列相似性搜索,并未结合任何结构数据。

今天,GNNs(图神经网络)开始通过利用蛋白质的图表示来建模残基之间的关系及其相互作用,在这一领域取得了有意义的进展。它们被认为非常适合蛋白质功能预测、识别小分子或其他蛋白质的结合位点,并基于活性位点几何形状对酶家族进行分类。

在许多例子中:

这种方法背后的合理性在于,图结构具有捕捉序列中远距离但在折叠结构中接近的残基之间长程相互作用的固有能力。这类似于为什么 transformer 架构对 AlphaFold 2 如此有帮助,因为它允许在序列中的所有对之间进行并行计算。

为了使图形信息更加密集,每个节点可以通过残基类型、化学性质或进化保守性得分等特征进行丰富。边缘可以选择性地通过化学键类型、三维空间中的接近度以及静电或疏水相互作用等属性进行丰富。

DeepFRI是一种基于图神经网络(GCN)的方法,用于根据结构预测蛋白质功能。GCN 是一种特定类型的 GNN,它将卷积的概念(用于 CNN)扩展到图数据。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ff53ff24633563fda818cf9677712867.png

DeepFRI 图示:LSTM 语言模型,经过约 200 万 Pfam 蛋白质序列的预训练,用于提取 PDB 序列的残基级特征。(B)具有 3 个图卷积层的 GCN,用于学习复杂的结构-功能关系。来自基于结构的功能预测使用图卷积网络

在 DeepFRI 中,每个氨基酸残基都是一个节点,具有如下一些属性:

每个边被定义为捕获蛋白质结构中氨基酸残基之间的空间关系。如果两个节点(残基)之间的距离低于一定阈值,通常为 10 Å,则存在一条边。在这个应用中,边没有属性,它们只是无权重的连接。

图是用节点特征 LSTM 生成的序列嵌入以及从残基接触图创建的残基特异性特征和边信息进行初始化的。

一旦图被定义,消息传递发生在每个三层的基于邻接的卷积中。节点特征是通过使用图的邻接矩阵从邻居聚合的。堆叠多个 GCN 层允许嵌入从越来越大的邻域中捕获信息,从直接邻居开始,延伸到邻居的邻居等。

最终的节点嵌入是全局汇集的,用于创建蛋白质级别的嵌入,然后用于将蛋白质分类为层次相关的功能类别(GO 术语)。分类是通过将蛋白质级别的嵌入通过具有 sigmoid 激活函数的全连接层(密集层)进行传递,使用二元交叉熵损失函数进行优化来执行的。分类模型是基于从蛋白质结构(例如来自蛋白质数据银行)和来自 UniProt 或 Gene Ontology 等数据库的功能注释的数据进行训练的。

总结思考

祝福您,如果您喜欢这篇文章,请查看我在机器学习和生物学上的其他文章。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询