山东省网站建设_网站建设公司_Ruby_seo优化
2026/1/22 7:15:59 网站建设 项目流程

Open-AutoGLM办公自动化实践:WPS文档自动生成

@TOC


1. 引言:让AI帮你写报告,真的可以这么简单?

你有没有这样的经历?
临近下班,领导突然发来消息:“明天上午十点前把项目总结报告发我。”
你心里一紧,打开WPS,新建文档,开始绞尽脑汁地组织语言、调整格式、插入图表……一通操作下来,两个小时过去了。

如果有一种方式,只需要你说一句话,AI就能自动打开WPS,创建文档,写好内容,甚至排版完成——你会不会觉得这是科幻片里的场景?

今天要介绍的Open-AutoGLM,正是这样一个“能听懂人话、会操作手机”的AI智能体。它不仅能帮你点外卖、刷抖音,还能在办公场景中大显身手——比如,用自然语言指令自动生成WPS文档

本文将带你从零开始,实操一次完整的“语音指令 → AI操作手机 → 自动生成WPS文档”的全流程,看看这个开源框架是如何把“懒人办公”变成现实的。


2. Open-AutoGLM 是什么?不只是个聊天机器人

2.1 它不是一个普通的AI助手

我们常说的“AI助手”,大多只能回答问题或生成文字。而Open-AutoGLM 是一个真正能“动手”的AI代理(Agent)

它的核心能力是:

  • 看懂屏幕:通过视觉语言模型理解手机界面
  • 听懂指令:用自然语言接收用户任务
  • 自动操作:通过 ADB 控制手机执行点击、滑动、输入等动作
  • 自主规划:像人类一样思考下一步该做什么

换句话说,它不是“你说一句,它回一句”,而是“你说一句,它做一串”。

比如你说:“打开WPS,写一份关于AI发展趋势的报告。”
它会自己打开WPS → 新建文档 → 输入标题 → 写正文 → 保存文件,全程无需你动手。

2.2 技术架构一览

Open-AutoGLM 的工作流程分为四步:

  1. 屏幕感知:截取手机当前画面,送入视觉语言模型分析
  2. 意图理解:结合用户指令和屏幕信息,判断当前状态和目标
  3. 动作规划:决定下一步操作(点击哪个按钮、输入什么文字)
  4. 执行控制:通过 ADB 发送指令,模拟真实用户操作

整个过程形成一个闭环,直到任务完成。

这种“感知-决策-执行”的模式,正是现代AI Agent的核心范式。


3. 环境准备:搭建你的AI办公助理

要让 Open-AutoGLM 替你写报告,首先得把它“请进门”。以下是本地部署的基本步骤。

3.1 硬件与软件要求

项目要求
操作系统Windows / macOS
Python 版本3.10 或以上
手机设备Android 7.0+(真机或模拟器)
工具依赖ADB、Git、pip

建议使用一台闲置安卓手机作为专用测试设备,避免误操作影响日常使用。

3.2 安装 ADB 工具

ADB(Android Debug Bridge)是连接电脑和安卓设备的桥梁。安装方法如下:

Windows 用户
  1. 下载 Platform Tools
  2. 解压后将文件夹路径添加到系统环境变量PATH
  3. 打开命令行,输入adb version验证是否成功
macOS 用户
# 假设 platform-tools 解压在 Downloads 目录 export PATH=${PATH}:~/Downloads/platform-tools

3.3 手机端设置

为了让AI能“操控”你的手机,需要开启几个关键权限:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次

  2. 启用USB调试
    设置 → 开发者选项 → 打开“USB调试”

  3. 安装 ADB Keyboard

    • 下载 ADB Keyboard APK
    • 安装后,在“语言与输入法”中设为默认输入法
      (这样AI才能输入中文)

4. 部署 Open-AutoGLM 控制端

现在开始部署本地控制程序。

4.1 克隆项目代码

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

pip install -r requirements.txt pip install -e .

这一步会安装必要的Python包,包括adbutilsrequeststransformers等。


5. 连接设备:让AI“看到”你的手机

5.1 USB 连接方式(推荐新手)

用数据线将手机连上电脑,运行:

adb devices

如果看到类似输出:

List of devices attached emulator-5554 device

说明连接成功。

5.2 WiFi 无线连接(适合远程控制)

先用USB连接,然后启用TCP/IP模式:

adb tcpip 5555 adb connect 192.168.x.x:5555

断开USB后仍可继续控制,适合长期运行任务。


6. 实战演示:一句话生成WPS文档

终于到了最激动人心的环节——让AI替你写报告

6.1 场景设定

我们的目标是:

“打开WPS Office,新建一个文档,标题为‘AI技术发展现状报告’,写一段300字左右的概述,并保存。”

只需一条自然语言指令即可实现。

6.2 启动AI代理

运行以下命令:

python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开WPS,新建一个文档,标题为'AI技术发展现状报告',写一段关于当前AI发展趋势的概述,大约300字,然后保存。"

参数说明:

  • --device-id:通过adb devices获取的设备ID
  • --base-url:本地或云端模型服务地址
  • --model:使用的模型名称
  • 最后的字符串:你的自然语言指令

注意:如果你没有本地部署模型,也可以使用智谱AI或魔搭社区提供的API服务。


7. 模型服务部署(可选):本地运行更安全

为了保护隐私和提升响应速度,建议在本地部署模型。

7.1 使用 vLLM 启动推理服务

确保已安装vLLM

pip install vllm

启动模型服务:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

服务启动后,可通过http://localhost:8000/v1访问。

7.2 替代方案:调用在线API

如果不具备本地GPU条件,也可使用以下平台:

平台base-urlmodel
智谱 BigModelhttps://open.bigmodel.cn/api/paas/v4autoglm-phone
魔搭 ModelScopehttps://api-inference.modelscope.cn/v1ZhipuAI/AutoGLM-Phone-9B

需注册账号并获取 API Key。


8. 执行过程解析:AI是怎么一步步完成任务的?

当你说出那句指令后,Open-AutoGLM 在后台做了哪些事?我们来拆解一下。

8.1 第一步:识别当前界面

AI先截图当前手机屏幕,传给视觉语言模型分析,确认是否在桌面、是否有WPS图标。

8.2 第二步:启动WPS应用

根据指令意图,AI找到WPS图标并模拟点击,进入主界面。

8.3 第三步:新建文档

在WPS首页,AI识别“新建文档”按钮并点击,进入编辑页面。

8.4 第四步:输入标题

调用 ADB Keyboard,输入“AI技术发展现状报告”作为标题。

8.5 第五步:撰写正文

AI调用自身语言模型生成一段符合要求的内容,并逐字输入到文档中。

示例生成内容:

当前,人工智能正处于快速发展阶段。以大模型为代表的生成式AI在自然语言处理、图像生成、语音合成等领域取得了突破性进展。特别是在多模态融合、上下文理解、推理能力方面,模型表现日益接近人类水平。与此同时,AI在医疗、教育、金融、制造等行业加速落地,推动生产效率提升和商业模式创新。未来,随着算力成本下降和算法优化,AI将进一步向轻量化、专业化、可解释化方向发展,成为推动社会进步的重要力量。

8.6 第六步:保存文档

完成输入后,AI点击左上角返回键,触发WPS的自动保存机制,或手动选择“保存”选项。

整个过程耗时约60~90秒,完全无需人工干预。


9. 办公场景拓展:不止于写报告

WPS文档生成只是冰山一角。Open-AutoGLM 还能在更多办公场景中发挥作用。

9.1 自动生成会议纪要

指令示例:

“打开WPS,创建一个新文档,命名为‘本周例会纪要’,写下时间、参会人员、主要议题和决议事项。”

AI可根据预设模板自动生成结构化文档。

9.2 批量处理Excel表格

指令示例:

“打开WPS,加载‘销售数据.xlsx’,筛选出本月销售额超过10万的记录,另存为‘高业绩名单.xlsx’。”

结合OCR和脚本能力,可实现简单数据分析。

9.3 制作PPT演示文稿

指令示例:

“打开WPS,新建PPT,主题为‘Q3产品规划’,包含封面、目录、市场分析、产品路线图、总结页。”

AI可调用内置模板,填充内容并自动排版。

9.4 跨应用协同办公

更高级的场景:

“从微信收藏里找到上周的项目讨论记录,提取关键信息,写进WPS文档并发送给张经理。”

这就涉及多应用切换、信息提取与整合,正是AI Agent的优势所在。


10. 常见问题与优化建议

10.1 常见问题排查

问题可能原因解决方案
设备未识别ADB未正确安装重新安装驱动,检查USB调试
模型无响应网络不通或API密钥错误检查base-url和apikey
输入乱码ADB Keyboard未启用进入设置确认为默认输入法
操作失败屏幕分辨率不匹配使用固定分辨率的模拟器

10.2 提升成功率的小技巧

  1. 保持屏幕干净:关闭无关通知,避免干扰AI识别
  2. 使用标准UI:尽量使用原生WPS界面,避免第三方皮肤
  3. 指令清晰具体:避免模糊表述,如“写点东西”应改为“写一段300字的技术趋势描述”
  4. 预留容错时间:网络延迟可能导致操作超时,适当增加等待时间

11. 总结:AI办公的未来已来

通过这次实践,我们可以看到:

Open-AutoGLM 真正实现了“用说话的方式操作手机”
它不仅能聊天,更能动手完成复杂任务
在办公自动化领域,尤其是WPS这类高频应用中,潜力巨大

虽然目前还存在一些限制,比如对复杂布局的识别精度、长任务的稳定性等,但其展现出的方向无疑是正确的——让AI成为我们的“数字员工”

未来,你可以想象这样的场景:

  • 早上起床,AI已经根据昨晚的会议录音生成了纪要;
  • 下午开会前,PPT和数据报表已准备就绪;
  • 下班路上,周报自动提交到邮箱。

这一切,都不再是梦。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询