山东省网站建设_网站建设公司_Ruby_seo优化-万宁市网站建设公司

Open-AutoGLM办公自动化实践：WPS文档自动生成

@TOC

1. 引言：让AI帮你写报告，真的可以这么简单？

你有没有这样的经历？
临近下班，领导突然发来消息：“明天上午十点前把项目总结报告发我。”
你心里一紧，打开WPS，新建文档，开始绞尽脑汁地组织语言、调整格式、插入图表……一通操作下来，两个小时过去了。

如果有一种方式，只需要你说一句话，AI就能自动打开WPS，创建文档，写好内容，甚至排版完成——你会不会觉得这是科幻片里的场景？

今天要介绍的Open-AutoGLM，正是这样一个“能听懂人话、会操作手机”的AI智能体。它不仅能帮你点外卖、刷抖音，还能在办公场景中大显身手——比如，用自然语言指令自动生成WPS文档。

本文将带你从零开始，实操一次完整的“语音指令 → AI操作手机 → 自动生成WPS文档”的全流程，看看这个开源框架是如何把“懒人办公”变成现实的。

2. Open-AutoGLM 是什么？不只是个聊天机器人

2.1 它不是一个普通的AI助手

我们常说的“AI助手”，大多只能回答问题或生成文字。而Open-AutoGLM 是一个真正能“动手”的AI代理（Agent）。

它的核心能力是：

看懂屏幕：通过视觉语言模型理解手机界面
听懂指令：用自然语言接收用户任务
自动操作：通过 ADB 控制手机执行点击、滑动、输入等动作
自主规划：像人类一样思考下一步该做什么

换句话说，它不是“你说一句，它回一句”，而是“你说一句，它做一串”。

比如你说：“打开WPS，写一份关于AI发展趋势的报告。”
它会自己打开WPS → 新建文档 → 输入标题 → 写正文 → 保存文件，全程无需你动手。

2.2 技术架构一览

Open-AutoGLM 的工作流程分为四步：

屏幕感知：截取手机当前画面，送入视觉语言模型分析
意图理解：结合用户指令和屏幕信息，判断当前状态和目标
动作规划：决定下一步操作（点击哪个按钮、输入什么文字）
执行控制：通过 ADB 发送指令，模拟真实用户操作

整个过程形成一个闭环，直到任务完成。

这种“感知-决策-执行”的模式，正是现代AI Agent的核心范式。

3. 环境准备：搭建你的AI办公助理

要让 Open-AutoGLM 替你写报告，首先得把它“请进门”。以下是本地部署的基本步骤。

3.1 硬件与软件要求

项目	要求
操作系统	Windows / macOS
Python 版本	3.10 或以上
手机设备	Android 7.0+（真机或模拟器）
工具依赖	ADB、Git、pip

建议使用一台闲置安卓手机作为专用测试设备，避免误操作影响日常使用。

3.2 安装 ADB 工具

ADB（Android Debug Bridge）是连接电脑和安卓设备的桥梁。安装方法如下：

Windows 用户

下载 Platform Tools
解压后将文件夹路径添加到系统环境变量PATH
打开命令行，输入adb version验证是否成功

macOS 用户

# 假设 platform-tools 解压在 Downloads 目录 export PATH=${PATH}:~/Downloads/platform-tools

3.3 手机端设置

为了让AI能“操控”你的手机，需要开启几个关键权限：

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次
启用USB调试
设置 → 开发者选项 → 打开“USB调试”
安装 ADB Keyboard
- 下载 ADB Keyboard APK
- 安装后，在“语言与输入法”中设为默认输入法
  （这样AI才能输入中文）

4. 部署 Open-AutoGLM 控制端

现在开始部署本地控制程序。

4.1 克隆项目代码

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

pip install -r requirements.txt pip install -e .

这一步会安装必要的Python包，包括adbutils、requests、transformers等。

5. 连接设备：让AI“看到”你的手机

5.1 USB 连接方式（推荐新手）

用数据线将手机连上电脑，运行：

adb devices

如果看到类似输出：

List of devices attached emulator-5554 device

说明连接成功。

5.2 WiFi 无线连接（适合远程控制）

先用USB连接，然后启用TCP/IP模式：

adb tcpip 5555 adb connect 192.168.x.x:5555

断开USB后仍可继续控制，适合长期运行任务。

6. 实战演示：一句话生成WPS文档

终于到了最激动人心的环节——让AI替你写报告！

6.1 场景设定

我们的目标是：

“打开WPS Office，新建一个文档，标题为‘AI技术发展现状报告’，写一段300字左右的概述，并保存。”

只需一条自然语言指令即可实现。

6.2 启动AI代理

运行以下命令：

python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开WPS，新建一个文档，标题为'AI技术发展现状报告'，写一段关于当前AI发展趋势的概述，大约300字，然后保存。"

参数说明：

--device-id：通过adb devices获取的设备ID
--base-url：本地或云端模型服务地址
--model：使用的模型名称
最后的字符串：你的自然语言指令

注意：如果你没有本地部署模型，也可以使用智谱AI或魔搭社区提供的API服务。

7. 模型服务部署（可选）：本地运行更安全

为了保护隐私和提升响应速度，建议在本地部署模型。

7.1 使用 vLLM 启动推理服务

确保已安装vLLM：

pip install vllm

启动模型服务：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

服务启动后，可通过http://localhost:8000/v1访问。

7.2 替代方案：调用在线API

如果不具备本地GPU条件，也可使用以下平台：

平台	base-url	model
智谱 BigModel	`https://open.bigmodel.cn/api/paas/v4`	`autoglm-phone`
魔搭 ModelScope	`https://api-inference.modelscope.cn/v1`	`ZhipuAI/AutoGLM-Phone-9B`

需注册账号并获取 API Key。

8. 执行过程解析：AI是怎么一步步完成任务的？

当你说出那句指令后，Open-AutoGLM 在后台做了哪些事？我们来拆解一下。

8.1 第一步：识别当前界面

AI先截图当前手机屏幕，传给视觉语言模型分析，确认是否在桌面、是否有WPS图标。

8.2 第二步：启动WPS应用

根据指令意图，AI找到WPS图标并模拟点击，进入主界面。

8.3 第三步：新建文档

在WPS首页，AI识别“新建文档”按钮并点击，进入编辑页面。

8.4 第四步：输入标题

调用 ADB Keyboard，输入“AI技术发展现状报告”作为标题。

8.5 第五步：撰写正文

AI调用自身语言模型生成一段符合要求的内容，并逐字输入到文档中。

示例生成内容：

当前，人工智能正处于快速发展阶段。以大模型为代表的生成式AI在自然语言处理、图像生成、语音合成等领域取得了突破性进展。特别是在多模态融合、上下文理解、推理能力方面，模型表现日益接近人类水平。与此同时，AI在医疗、教育、金融、制造等行业加速落地，推动生产效率提升和商业模式创新。未来，随着算力成本下降和算法优化，AI将进一步向轻量化、专业化、可解释化方向发展，成为推动社会进步的重要力量。

8.6 第六步：保存文档

完成输入后，AI点击左上角返回键，触发WPS的自动保存机制，或手动选择“保存”选项。

整个过程耗时约60~90秒，完全无需人工干预。

9. 办公场景拓展：不止于写报告

WPS文档生成只是冰山一角。Open-AutoGLM 还能在更多办公场景中发挥作用。

9.1 自动生成会议纪要

指令示例：

“打开WPS，创建一个新文档，命名为‘本周例会纪要’，写下时间、参会人员、主要议题和决议事项。”

AI可根据预设模板自动生成结构化文档。

9.2 批量处理Excel表格

指令示例：

“打开WPS，加载‘销售数据.xlsx’，筛选出本月销售额超过10万的记录，另存为‘高业绩名单.xlsx’。”

结合OCR和脚本能力，可实现简单数据分析。

9.3 制作PPT演示文稿

指令示例：

“打开WPS，新建PPT，主题为‘Q3产品规划’，包含封面、目录、市场分析、产品路线图、总结页。”

AI可调用内置模板，填充内容并自动排版。

9.4 跨应用协同办公

更高级的场景：

“从微信收藏里找到上周的项目讨论记录，提取关键信息，写进WPS文档并发送给张经理。”

这就涉及多应用切换、信息提取与整合，正是AI Agent的优势所在。

10. 常见问题与优化建议

10.1 常见问题排查

问题	可能原因	解决方案
设备未识别	ADB未正确安装	重新安装驱动，检查USB调试
模型无响应	网络不通或API密钥错误	检查base-url和apikey
输入乱码	ADB Keyboard未启用	进入设置确认为默认输入法
操作失败	屏幕分辨率不匹配	使用固定分辨率的模拟器

10.2 提升成功率的小技巧

保持屏幕干净：关闭无关通知，避免干扰AI识别
使用标准UI：尽量使用原生WPS界面，避免第三方皮肤
指令清晰具体：避免模糊表述，如“写点东西”应改为“写一段300字的技术趋势描述”
预留容错时间：网络延迟可能导致操作超时，适当增加等待时间

11. 总结：AI办公的未来已来

通过这次实践，我们可以看到：

Open-AutoGLM 真正实现了“用说话的方式操作手机”
它不仅能聊天，更能动手完成复杂任务
在办公自动化领域，尤其是WPS这类高频应用中，潜力巨大

虽然目前还存在一些限制，比如对复杂布局的识别精度、长任务的稳定性等，但其展现出的方向无疑是正确的——让AI成为我们的“数字员工”。

未来，你可以想象这样的场景：

早上起床，AI已经根据昨晚的会议录音生成了纪要；
下午开会前，PPT和数据报表已准备就绪；
下班路上，周报自动提交到邮箱。

这一切，都不再是梦。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

山东省网站建设_网站建设公司_Ruby_seo优化

Open-AutoGLM办公自动化实践：WPS文档自动生成

1. 引言：让AI帮你写报告，真的可以这么简单？

2. Open-AutoGLM 是什么？不只是个聊天机器人

2.1 它不是一个普通的AI助手

2.2 技术架构一览

3. 环境准备：搭建你的AI办公助理

3.1 硬件与软件要求

3.2 安装 ADB 工具

Windows 用户

macOS 用户

3.3 手机端设置

4. 部署 Open-AutoGLM 控制端

4.1 克隆项目代码

4.2 安装依赖库

5. 连接设备：让AI“看到”你的手机

5.1 USB 连接方式（推荐新手）

5.2 WiFi 无线连接（适合远程控制）

6. 实战演示：一句话生成WPS文档

6.1 场景设定

6.2 启动AI代理

7. 模型服务部署（可选）：本地运行更安全

7.1 使用 vLLM 启动推理服务

7.2 替代方案：调用在线API

8. 执行过程解析：AI是怎么一步步完成任务的？

8.1 第一步：识别当前界面

8.2 第二步：启动WPS应用

8.3 第三步：新建文档

8.4 第四步：输入标题

8.5 第五步：撰写正文

8.6 第六步：保存文档

9. 办公场景拓展：不止于写报告

9.1 自动生成会议纪要

9.2 批量处理Excel表格

9.3 制作PPT演示文稿

9.4 跨应用协同办公

10. 常见问题与优化建议

10.1 常见问题排查

10.2 提升成功率的小技巧

11. 总结：AI办公的未来已来

热门文章

文章分类

标签云

相关文章

Qwen3-0.6B与Baichuan-Lite对比：推理延迟与显存占用评测

亲测Cute_Animal_Qwen镜像：生成可爱动物图片效果惊艳

PyTorch-2.x镜像结合Flair做NER，全流程实操分享

需要专业的网站建设服务？