人工智能通识课:知识图谱基础

张开发
2026/4/18 5:19:17 15 分钟阅读

分享文章

人工智能通识课:知识图谱基础
假设我们要建设一个科技史知识服务系统围绕詹姆斯·瓦特James Watt回答一组连续问题• 詹姆斯·瓦特是谁• James Watt 与蒸汽机steam engine是什么关系• 他属于哪一类人物• 他与格拉斯哥大学University of Glasgow有什么关系• 他所处的时代背景是什么如果系统只能做关键词匹配它可以返回一批网页、文献或词条但若要围绕同一对象持续回答问题就必须把人物、技术、机构、时代背景及其联系组织起来。知识图谱Knowledge Graph正是为此服务的一种结构化知识表示方式。它的重点不在“把知识画成图”而在“把知识组织成可连接、可查询、可扩展的结构”。在人工智能Artificial IntelligenceAI中知识图谱的重要意义在于它为机器提供了较清楚的对象、关系与语义结构使系统不仅能处理数据还能在一定程度上理解对象之间的联系并支持检索、问答、推荐、推理等任务。一、从返回资料到直接回答知识图谱的提出背景传统的信息检索Information Retrieval擅长帮助用户找到资料来源但“找到资料”并不等于“得到答案”。例如当用户询问“James Watt 与 steam engine 是什么关系”时系统若只返回若干链接用户仍需自行阅读、筛选和判断。而知识服务希望系统能够围绕对象直接组织答案。要做到这一点系统就不能只识别词语还要识别对象、关系和上下文。例如它需要知道 James Watt 是人物实体steam engine 是技术对象University of Glasgow 是机构实体Industrial Revolution 是历史背景实体并进一步表示这些对象之间的联系。因此知识图谱的提出实际上对应着系统能力的一次转变从“返回信息来源”走向“组织知识并回答问题”。只有先把知识组织起来系统才能支持连续提问、关联查询和一定程度的推理。对人工智能而言这种转变也很重要因为它意味着系统不再只处理表面词语而开始处理较稳定的对象结构与语义关系。延伸阅读《知识图谱 01从信息检索到知识表示》二、从对象集合到结构表达实体、关系、属性与三元组知识图谱的基本要素通常有三类实体entity、关系relation和属性attribute。在 James Watt 的任务中• 实体James Watt、steam engine、University of Glasgow、Industrial Revolution• 关系improved、connected with、associated with• 属性birth year、occupation、period 等知识图谱中最常见的基本表达单位是三元组triple即“主体—谓词—客体”。例如James Watt — improved — steam engineJames Watt — connected with — University of GlasgowJames Watt — associated with — Industrial Revolution属性也常可写成类似结构James Watt — birth year — 1736James Watt — occupation — engineer这说明知识图谱并不是简单保存句子而是把句子中的知识拆解成可存储、可连接、可查询的结构单元。对人工智能系统来说这种结构化表达很重要因为它使对象识别、关系检索、知识问答和规则推理都有了更清楚的基础。通过这种方式系统处理的就不再是松散文本而是结构化知识。延伸阅读《实体、关系、属性知识图谱三大基本要素详解》三、从事实记录到分类组织概念、类别、实例与层级只有实体、关系和属性还不够。若系统要回答“James Watt 属于哪一类人物”“steam engine 属于哪一类技术对象”就必须进一步建立分类基础包括概念concept、类别class/category、实例instance和层级结构hierarchy。例如person、engineer、inventor 是类别institution、university 是类别machine、historical period 是类别James Watt、University of Glasgow、steam engine 是实例这里最重要的是区分类别与实例。“engineer”是类别“James Watt”是实例“university”是类别“University of Glasgow”是实例。若把二者混在一起图谱中的层级就会混乱后续查询与推理也会不稳定。同时类别之间还常存在上下位关系。例如engineer 和 inventor 可以看作 person 的下位类别university 可以看作 institution 的下位类别。这样一来系统不仅能记录事实还能把事实放进一个更稳定的概念体系中。对于人工智能而言分类体系的意义在于它帮助机器从“知道一个对象”进一步走向“知道这个对象属于哪一类、与哪些更一般的概念有关”。有了这种“类—实例—层级”结构系统就可以进一步推出如果 James Watt 属于 engineer而 engineer 属于 person那么 James Watt 也属于 person。延伸阅读《知识图谱 02概念、类别、实例与层级结构》四、从自然语言到机器可处理知识表示的基本思路知识图谱之所以重要不只是因为它能“存知识”更因为它把知识写成了机器可处理的形式。这就涉及知识表示Knowledge Representation的问题。知识表示本来就是人工智能中的基础问题之一因为人工智能不仅要处理数据还要回答“知识怎样写出来机器才能利用”。如果系统只保存原始文本例如 “James Watt improved the steam engine”它并不容易稳定地区分谁是对象、谁是关系、谁属于什么类别更不容易进一步推出新结论。因此知识必须从自然语言转化为结构化表示。在知识工程中几类典型表示思路尤其重要• 逻辑表示强调形式化和严格表达。• 规则表示强调“如果……那么……”的条件推导。• 语义网络表示强调对象之间如何连接。• 框架表示强调围绕某个对象组织其属性。知识图谱正是在这些思路基础上形成的综合性知识组织方式。它既吸收了语义网络对“关系连接”的重视也吸收了框架表示对“对象结构”的重视还能够与逻辑和规则推理结合。因此从人工智能发展史来看知识图谱并不是孤立出现的新概念而是知识表示在现代条件下的一种重要延续。延伸阅读《知识图谱 03知识表示方法》五、从知识表示到形式模型RDF、RDFS、OWL 与属性图当知识图谱进一步走向形式化表达时还要回答这些知识具体用什么模型表示。常见模型各有侧重。RDFResource Description Framework资源描述框架负责事实表达。它用三元组统一表示知识事实是最基础的表示层。RDFSRDF SchemaRDF 架构描述语言负责模式结构。在 RDF 基础上进一步表示类、属性、子类、定义域和值域。OWLWeb Ontology Language网络本体语言负责更强的语义约束与推理能力。属性图Property Graph强调“节点—边—属性”的灵活建模更便于表示图结构中的遍历与关联分析。此外还可以有向量表示Embedding把实体和关系转化为向量用于相似性计算、链接预测与知识补全。这些模型并非彼此排斥而是对应不同层面的问题。对人工智能来说RDF、RDFS、OWL 等更偏显式符号表示而向量表示更偏统计学习与计算表示。二者结合正体现了现代人工智能中“符号方法”与“学习方法”的互补关系。从教学角度看只需先把握它们的大致分工RDF 写事实RDFS 管结构OWL 强化语义属性图表示图结构向量表示服务于学习与预测。延伸阅读《知识图谱 04知识表示模型》六、从原始数据到知识系统知识图谱的构建框架与实现路径知道了知识图谱的要素与模型还要进一步回答它是怎样建成的。从整体流程看知识图谱构建通常包括四个阶段• 信息抽取从结构化、半结构化、非结构化数据中识别实体、关系和属性。• 知识融合解决多源描述之间的重复、冲突和歧义。• 知识加工进行本体构建、质量评估和知识推理。• 维护更新随着新数据进入和旧知识修订而持续演化。在实现路径上又可分为三种思路。• 自顶向下先设计本体和模式再填充事实。• 自底向上先从数据中抽取事实再逐步整理结构。• 混合构建先有基本骨架再持续补充内容并同步调整结构。对于 James Watt 的科技史知识服务系统更接近真实做法的往往是混合构建先设计“人物—技术—机构—时代”这一基本框架再从百科、文献、课程资料等来源持续抽取和补充事实。对人工智能而言这说明知识图谱并不是若干静态三元组的堆积而是支撑智能问答、知识服务与语义推理的持续知识工程过程。延伸阅读《知识图谱 05从构建框架到实现路径》七、从知识组织到系统应用知识图谱与专家系统的结合知识图谱并不排斥规则推理。相反在很多知识系统中知识图谱负责组织知识规则系统负责在此基础上推出新结论这时才真正体现出它在人工智能应用中的系统价值。仍以科技史知识服务系统为例。图谱可以组织如下知识James Watt 属于 engineerengineer 属于 personJames Watt 改进了 steam engineJames Watt 与 University of Glasgow 有关联在此基础上还可以加入规则例如如果某对象属于 engineer而 engineer 属于 person那么该对象也属于 person。如果某人改进了重要机器那么他可以视为 inventor 的候选。于是系统既能回答“James Watt 与什么有关”又能解释“为什么可进一步推出某种判断”。这正是人工智能中“知识组织 规则推理”的典型结合方式图谱负责组织对象、类别和关系规则负责进行条件匹配与结论推出最终共同服务于问答、检索、辅助分析与智能应用。这一关系也可以通过“动物识别”案例更直观地理解规则系统可依据“有毛发”“有羽毛”等条件逐步判断类别而知识图谱则把动物、特征、类别及其关系统一组织起来。由此可见知识图谱在工程应用中并不是孤立工作的而是常与规则系统、数据库、检索系统和学习模型结合形成更完整的人工智能系统。延伸阅读《知识图谱 06从专家系统到知识图谱以动物识别为例》 小结知识图谱是人工智能中的重要知识表示方式。它把实体、关系、属性和类别层级组织为可查询、可扩展、可推理的知识结构使系统从返回资料进一步走向组织知识与智能服务。“点赞有美意赞赏是鼓励”

更多文章