GraphRAG 安装与使用教程

张开发

• 2026/4/10 6:49:13 • 15 分钟阅读

分享文章

一、GraphRAG 简介GraphRAGGraph Retrieval-Augmented Generation是由微软研究院开发的基于知识图谱的检索增强生成框架。它通过构建结构化的知识图谱来增强大语言模型LLM的推理能力相比传统 RAG 方法在处理复杂、多跳查询时表现更优。核心特性特性说明知识图谱构建自动从非结构化文本中提取实体、关系和声明社区检测使用 Leiden 算法发现图谱中的社区结构分层摘要生成不同粒度社区级→全局级的摘要报告多种搜索模式支持 Local Search、Global Search、DRIFT Search模块化设计可自定义工作流、提示词和模型配置适用场景大规模文档分析- 如法律合同、研究报告、技术文档复杂查询推理- 需要连接多个信息片段的问答主题发现与总结- 自动识别文档集合的主题结构企业知识管理- 构建可查询的知识库二、环境准备系统要求Python: 3.10 - 3.12推荐 3.11操作系统: Linux/macOS/Windows内存: 至少 8GB RAM处理大型数据集建议 16GB存储: 根据数据量建议预留 10GB 空间前置依赖确保已安装pip和venv# 检查 Python 版本python--version# 应显示 3.10.x 或更高# 检查 pippip--version三、安装方法方法一标准安装推荐# 创建虚拟环境python-mvenv graphrag_env# 激活虚拟环境# Linux/macOS:sourcegraphrag_env/bin/activate# Windows:graphrag_env\Scripts\activate# 安装 GraphRAGpipinstallgraphrag# 验证安装graphrag--version方法二安装特定版本# 安装最新稳定版pipinstallgraphrag2.1.0# 或安装开发版包含最新功能pipinstallgraphrag--pre方法三从源码安装开发者# 克隆仓库gitclone https://github.com/microsoft/graphrag.gitcdgraphrag# 创建虚拟环境python-mvenv venvsourcevenv/bin/activate# Windows: venv\Scripts\activate# 安装依赖pipinstallpoetry poetryinstall# 或使用 pippipinstall-e.方法四使用 Conda# 创建 conda 环境conda create-ngraphragpython3.11conda activate graphrag# 安装 GraphRAGpipinstallgraphrag四、快速开始步骤 1准备数据创建工作目录并放入文本文件mkdir-p./ragtest/inputecho在这里放入你的.txt文本文件./ragtest/input/sample.txt步骤 2初始化项目# 进入工作目录cdragtest# 初始化 GraphRAG生成配置文件graphrag init--root.执行后会生成settings.yaml- 主配置文件.env- 环境变量API 密钥等prompts/- 提示词模板目录步骤 3配置 API 密钥编辑.env文件# OpenAI 配置默认GRAPHRAG_API_KEYsk-your-openai-api-key-here# 或 Azure OpenAIGRAPHRAG_API_KEYyour-azure-api-keyGRAPHRAG_LLM_MODELazure/gpt-4oGRAPHRAG_EMBEDDING_MODELazure/text-embedding-3-small步骤 4配置模型settings.yaml编辑settings.yaml根据需求选择模式标准模式完整功能models:default_chat_model:type:openai_chatmodel:gpt-4o-miniapi_key:${GRAPHRAG_API_KEY}default_embedding_model:type:openai_embeddingmodel:text-embedding-3-smallapi_key:${GRAPHRAG_API_KEY}workflows:-create_base_text_units-create_final_documents-extract_graph-finalize_graph-create_communities-create_community_reports-generate_text_embeddings快速模式NLP 加速低成本models:default_chat_model:type:openai_chatmodel:gpt-4o-minidefault_embedding_model:type:openai_embeddingmodel:text-embedding-3-smallworkflows:-create_base_text_units-create_final_documents-extract_graph_nlp# 使用 NLP 替代 LLM-prune_graph-finalize_graph-create_communities-create_community_reports_text# 文本报告-generate_text_embeddings步骤 5构建索引# 标准构建graphrag index--root.# 或使用 Python APIpython-c import asyncio from graphrag.api import build_index from graphrag.config.load_config import load_config async def main(): config load_config(.) await build_index(configconfig) asyncio.run(main()) 构建过程会显示进度 Workflow: create_base_text_units ✅ Loaded 5 text units Workflow: extract_graph ✅ Extracted 150 entities, 230 relationships Workflow: create_communities ✅ Found 12 communities ...步骤 6查询知识库Global Search全局总结graphrag query\--root.\--methodglobal\--query这些文档的主要主题是什么Local Search局部检索graphrag query\--root.\--methodlocal\--query特定实体的详细信息DRIFT Search动态推理graphrag query\--root.\--methoddrift\--query需要多步推理的复杂问题五、Python API 使用基础用法importasynciofromgraphrag.apiimportbuild_index,global_search,local_searchfromgraphrag.config.load_configimportload_configasyncdefmain():# 加载配置configload_config(./ragtest)# 构建索引只需执行一次# await build_index(configconfig)# 执行全局搜索resultawaitglobal_search(configconfig,query总结这些文档的核心内容)print(result.response)if__name____main__:asyncio.run(main())自定义工作流fromgraphrag.index.workflows.factoryimportPipelineFactory# 定义自定义工作流asyncdefcustom_entity_extraction(config,context):自定义实体抽取逻辑# 实现自定义处理returncontext# 注册工作流PipelineFactory.register(custom_extraction,custom_entity_extraction)# 在 settings.yaml 中使用# workflows:# - create_base_text_units# - custom_extraction# - finalize_graph六、常见问题Q1: 安装时报错Microsoft Visual C 14.0 is required解决安装 Visual Studio Build Tools# Windows 下载并安装# https://visualstudio.microsoft.com/visual-cpp-build-tools/# 或使用 conda 预编译包condainstall-cconda-forge graphragQ2: 构建索引时内存不足解决减小批次大小chunks:size:300# 减小块大小overlap:50# 减小重叠batch_size:5# 减小批次数Q3: 使用本地模型Ollama/LM Studiomodels:default_chat_model:type:openai_chatmodel:llama3.1api_base:http://localhost:11434/v1# Ollamaapi_key:dummydefault_embedding_model:type:openai_embeddingmodel:nomic-embed-textapi_base:http://localhost:11434/v1api_key:dummyQ4: 如何更新 GraphRAGpipinstall--upgradegraphrag七、项目结构ragtest/ ├── input/ # 输入文本文件 ├── output/ │ └── 20260409-XXXXXX/ # 索引结果时间戳命名 │ ├── artifacts/ # 图谱数据Parquet 格式 │ └── reports/ # 社区报告 ├── prompts/ # 提示词模板 ├── cache/ # 缓存目录 ├── settings.yaml # 主配置 └── .env # API 密钥八、进阶配置自定义实体类型extract_graph:entity_types:[在这里填入你需要的实体类型]调整社区层级create_communities:max_cluster_size:100# 最大社区规模use_lcc:true# 使用最大连通分量增量更新fromgraphrag.apiimportbuild_indexfromgraphrag.config.enumsimportIndexingMethod# 增量更新添加新文档awaitbuild_index(configconfig,methodIndexingMethod.Standard,is_updateTrue# 启用增量模式)九、参考资源官方文档: https://microsoft.github.io/graphrag/GitHub 仓库: https://github.com/microsoft/graphrag快速入门指南: https://microsoft.github.io/graphrag/get_started/工作原理: https://microsoft.github.io/graphrag/index/overview/

更多文章

前端开发 2026/4/10 6:48:19

快速搭建RAG：最小可用方案实战

很多人聊 RAG（Retrieval-Augmented Generation），一上来就是各种 fancy 架构、向量数据库对比、评测体系……最后一个 demo 都跑不起来。这篇只干一件事： 👉 用最少的技术栈，搭一个“能用”的 RAG MVP。一、…

张开发

前端开发 2026/4/10 6:48:19

Dify知识库文件处理链路优化：从上传到检索的稳定闭环方案解析！

本文针对Dify知识库建设中常见的文件处理链路问题，提出了一套稳定高效的解决方案。方案采用Dify上传工作流、FastAPI后端与MinIO对象存储，实现了从文件上传到检索回链的完整闭环。文章详细阐述了如何解决联调中的常见错误（如422、401、no_fil…

张开发

前端开发 2026/4/10 6:46:36

Git-RSCLIP在林业资源调查中的应用：树木种类识别

Git-RSCLIP在林业资源调查中的应用：树木种类识别 1. 引言林业资源调查是森林管理和生态保护的基础工作，传统的人工调查方式耗时耗力，特别是在大面积的林区，树木种类识别需要专业人员深入林区，不仅效率低下&#xff…

张开发

前端开发 2026/4/10 6:40:39

SecGPT-14B威胁预测：用OpenClaw实现安全事件早期预警

SecGPT-14B威胁预测：用OpenClaw实现安全事件早期预警 1. 为什么需要自动化安全预警去年某个深夜，我的服务器突然出现异常流量激增。当时我正在外地度假，等第二天发现时，系统已经被植入了挖矿脚本。这次经历让我意识到&#xff…

张开发

前端开发 2026/4/10 6:39:43

InternLM2-Chat-1.8B在嵌入式开发中的应用：STM32项目文档自动生成

InternLM2-Chat-1.8B在嵌入式开发中的应用：STM32项目文档自动生成 1. 引言如果你做过嵌入式开发，尤其是基于STM32的项目，一定对写文档这件事又爱又恨。爱的是，一份清晰的文档能让后续的维护、交接事半功倍；恨的是&a…

张开发

前端开发 2026/4/10 6:31:08

StructBERT中文语义工具实操：产品说明书语义检索功能实现

StructBERT中文语义工具实操：产品说明书语义检索功能实现 1. 项目背景与核心价值在日常工作中，我们经常需要处理大量的产品说明书文档。当用户提出一个产品相关的问题时，如何快速从海量说明书中找到最相关的内容？传统的关键词匹…

张开发

前端开发 2026/4/10 6:29:19

Pixel Aurora Engine入门指南：理解‘进化像素’设计哲学与生成逻辑

Pixel Aurora Engine入门指南：理解进化像素设计哲学与生成逻辑 1. 认识Pixel Aurora引擎 Pixel Aurora是一款专为像素艺术创作设计的AI绘图工作站。它采用复古游戏机风格界面，将现代AI技术与经典像素美学完美融合。这个工具最特别的地方在于&#xff0…

张开发

前端开发 2026/4/10 6:27:29

formsy-react跨字段验证：实现复杂业务逻辑的终极方法

formsy-react跨字段验证：实现复杂业务逻辑的终极方法【免费下载链接】formsy-react A form input builder and validator for React JS 项目地址: https://gitcode.com/gh_mirrors/fo/formsy-react 想要在React应用中构建复杂的表单验证逻辑吗？f…

张开发

前端开发 2026/4/10 6:27:29

【多模态大模型——跨越感知与认知的鸿沟】第6章工具增强与视觉Agent系统

目录第一部分：原理详解 6.1 视觉工具使用（Visual Tool Use） 6.1.1 外部视觉工具的API调用 6.1.1.1 视觉定位（Visual Grounding）工具集成 6.1.1.2 OCR、检测、分割模型的协同调度 6.1.1.3 工具选择的决策机制 6.1.2 多工具协同的Agent架构 6.1.2.1 观察-思考-行动-…

张开发

前端开发 2026/4/10 6:26:23

Ion.RangeSlider源码架构解析：理解插件核心实现原理

Ion.RangeSlider源码架构解析：理解插件核心实现原理【免费下载链接】ion.rangeSlider jQuery only range slider 项目地址: https://gitcode.com/gh_mirrors/io/ion.rangeSlider Ion.RangeSlider是一款功能强大的jQuery范围滑块插件，它允许用户通…

张开发

前端开发 2026/4/10 6:19:07

如何快速从Google Drive下载共享文件：Python开发者的完整指南

如何快速从Google Drive下载共享文件：Python开发者的完整指南【免费下载链接】google-drive-downloader Minimal class to download shared files from Google Drive. 项目地址: https://gitcode.com/gh_mirrors/go/google-drive-downloader 前言&#xff1…

张开发

前端开发 2026/4/10 6:18:12

如何成为Node.js开发高手：2024年102个最佳实践终极指南

如何成为Node.js开发高手：2024年102个最佳实践终极指南【免费下载链接】nodebestpractices :white_check_mark: The Node.js best practices list (July 2024) 项目地址: https://gitcode.com/GitHub_Trending/no/nodebestpractices Node.js作为现代后端开发…

张开发

GraphRAG 安装与使用教程

最新文章

VibeVoice开源大模型部署指南：从零开始配置CUDA 12.4环境

# 48_矩阵在工程中的作用场合

G-Helper技术解析：轻量化华硕笔记本控制架构与实现

一芯搞定 Type‑C 转 DP+USB3.0+PD@ACP#GSV6155 应用之一

终极指南：如何安装ViGEMBus虚拟手柄驱动提升Windows游戏体验

【深度学习笔记】CPU深度学习环境简易搭建及基础知识

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

快速搭建RAG：最小可用方案实战

Dify知识库文件处理链路优化：从上传到检索的稳定闭环方案解析！

Git-RSCLIP在林业资源调查中的应用：树木种类识别

SecGPT-14B威胁预测：用OpenClaw实现安全事件早期预警

InternLM2-Chat-1.8B在嵌入式开发中的应用：STM32项目文档自动生成

StructBERT中文语义工具实操：产品说明书语义检索功能实现

Pixel Aurora Engine入门指南：理解‘进化像素’设计哲学与生成逻辑

formsy-react跨字段验证：实现复杂业务逻辑的终极方法

【多模态大模型——跨越感知与认知的鸿沟】第6章工具增强与视觉Agent系统

Ion.RangeSlider源码架构解析：理解插件核心实现原理

如何快速从Google Drive下载共享文件：Python开发者的完整指南

如何成为Node.js开发高手：2024年102个最佳实践终极指南

GraphRAG 安装与使用教程

最新文章

VibeVoice开源大模型部署指南：从零开始配置CUDA 12.4环境

# 48_矩阵在工程中的作用场合

G-Helper技术解析：轻量化华硕笔记本控制架构与实现

一芯搞定 Type‑C 转 DP+USB3.0+PD@ACP#GSV6155 应用之一

终极指南：如何安装ViGEMBus虚拟手柄驱动提升Windows游戏体验

【深度学习笔记】CPU深度学习环境简易搭建及基础知识

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统