遂宁市网站建设_网站建设公司_展示型网站_seo优化
2026/1/22 7:59:55 网站建设 项目流程

Open-AutoGLM邮件处理尝试:重要通知查看执行部署

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

你有没有想过,让AI帮你操作手机?不是简单的语音助手,而是真正能“看”懂屏幕、“理解”界面,并自动完成复杂任务的智能体。比如,你只需要说一句:“打开小红书搜美食”,它就能自己启动App、输入关键词、滑动浏览结果——整个过程完全自动化。

这就是Open-AutoGLM的核心能力。它是智谱AI开源的一个基于视觉语言模型(VLM)的手机端AI Agent框架,名为AutoGLM-Phone。这个系统不仅能“读图”,还能通过 ADB(Android Debug Bridge)实际操控安卓设备,实现从“感知”到“行动”的闭环。

更进一步,Phone Agent是在 AutoGLM 基础上构建的完整智能助理框架。它结合了多模态理解、意图解析、动作规划和安全机制,让用户用自然语言就能驱动手机完成各种操作。无论是查邮件、回消息、刷短视频还是处理通知,都可以交给AI来执行。

本文将带你一步步完成 Open-AutoGLM 的本地控制端部署,连接真实安卓设备,并尝试让它帮你查看并处理一条“重要邮件通知”。


2. 核心工作原理:AI如何“操作”手机?

要理解 Phone Agent 是怎么工作的,我们可以把它拆成四个关键环节:

2.1 屏幕感知:AI在“看”什么?

每次执行任务前,AI会通过 ADB 截取当前手机屏幕画面。这幅图像会被送入一个强大的视觉语言模型(VLM),模型不仅能识别出图片内容,还能理解界面上的文字、按钮位置、UI结构等信息。

比如,当屏幕显示微信聊天列表时,模型能准确识别出“未读消息”图标、“联系人名称”、“时间戳”等元素,就像人眼一样“读懂”界面。

2.2 意图理解:你说的话,AI听懂了吗?

用户输入的自然语言指令,例如“打开抖音搜索某个博主并关注”,会被大语言模型(LLM)解析成具体的任务目标。模型会判断你需要打开哪个App、执行什么操作、目标对象是谁。

这一阶段的关键是把模糊的人类语言转化为清晰的任务描述,为后续的动作规划打下基础。

2.3 动作规划:下一步该点哪里?

这是最核心的部分。AI需要根据当前屏幕状态和目标任务,决定下一步该做什么:是点击某个按钮?滑动页面?还是输入文字?

系统采用了一种“观察-决策-执行”的循环模式:

  • 观察:获取当前屏幕截图
  • 决策:模型输出一个操作指令(如“点击坐标(x,y)”或“输入文本”)
  • 执行:通过 ADB 发送命令,模拟触摸或输入
  • 循环:直到任务完成或达到最大步数

整个流程无需预设脚本,完全由AI动态规划路径。

2.4 安全与人工接管机制

为了避免误操作(比如误删文件、误支付),系统内置了敏感操作确认机制。当检测到可能涉及隐私或风险的操作时(如输入密码、点击支付按钮),AI会暂停并提示用户是否继续。

此外,在验证码弹窗、登录授权等无法自动处理的场景中,也支持人工临时接管,确保任务既能自动化又不失安全性。


3. 本地环境准备:让电脑控制手机

要想让 Open-AutoGLM 正常运行,我们需要在本地电脑上配置好控制端环境,并确保能通过 ADB 连接安卓设备。

3.1 硬件与软件要求

项目要求
操作系统Windows 或 macOS
Python 版本建议 3.10 或以上
安卓设备Android 7.0 及以上版本(真机或模拟器均可)
ADB 工具必须安装并配置环境变量

3.2 安装与配置 ADB

Windows 用户
  1. 下载 Android SDK Platform Tools 并解压。
  2. Win + R输入sysdm.cpl,打开“系统属性” → “高级” → “环境变量”。
  3. 在“系统变量”中找到Path,点击编辑,添加 platform-tools 的解压路径(如C:\platform-tools)。
  4. 打开命令行,输入adb version,如果显示版本号说明配置成功。
macOS 用户

在终端中执行以下命令(假设 platform-tools 解压在 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行命令写入.zshrc.bash_profile文件,避免每次重启终端都要重新设置。

验证方式同样是运行adb version


4. 手机端设置:开启调试权限

为了让电脑能够远程控制手机,必须开启开发者选项和USB调试。

4.1 开启开发者模式

进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

4.2 启用 USB 调试

返回设置主菜单 → “开发者选项” → 找到“USB调试”并开启。

注意:不同品牌手机路径略有差异,请根据机型查找对应入口。

4.3 安装 ADB Keyboard(关键步骤)

由于 AI 需要自动输入文字(如搜索关键词),而大多数输入法不支持 ADB 文字注入,因此必须安装专用输入法。

  1. 下载 ADB Keyboard APK 并安装。
  2. 进入“语言与输入法”设置 → 将默认输入法切换为ADB Keyboard

这样,AI就可以通过 ADB 命令直接向输入框发送文本,无需手动打字。


5. 部署 Open-AutoGLM 控制端

现在我们开始部署本地控制代码。

5.1 克隆项目仓库

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

5.2 安装依赖

推荐使用虚拟环境(可选):

python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows

安装所需依赖:

pip install -r requirements.txt pip install -e .

-e .表示以开发模式安装,便于后续修改代码。


6. 连接设备:USB 与 WiFi 两种方式

确保手机已通过 USB 连接到电脑,或处于同一局域网内。

6.1 使用 USB 连接(推荐初学者)

插上数据线后,在终端运行:

adb devices

正常情况下会输出类似:

List of devices attached 1234567890abcde device

其中1234567890abcde就是你的设备ID,后续调用时需要用到。

6.2 使用 WiFi 远程连接(适合无线调试)

首次需通过 USB 连接启用 TCP/IP 模式:

adb tcpip 5555

然后拔掉数据线,在同一网络下连接设备IP:

adb connect 192.168.x.x:5555

替换192.168.x.x为你的手机IP地址(可在Wi-Fi设置中查看)。连接成功后,同样可用adb devices查看。

这种方式特别适合长期运行AI代理,无需一直插线。


7. 启动 AI 代理:让AI接管手机

一切就绪,现在可以下达第一条指令了!

7.1 命令行方式运行

假设你的云服务已部署好模型(如 vLLM 提供 API 接口),且公网 IP 为123.45.67.89,映射端口为8800,设备ID为1234567890abcde

运行以下命令:

python main.py \ --device-id 1234567890abcde \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开邮箱App,查找来自‘system@bank.com’的重要通知邮件,并将其标记为已读。"

AI 将会:

  1. 自动启动邮箱应用
  2. 分析收件箱界面
  3. 找到发件人为system@bank.com的邮件
  4. 判断是否为“重要通知”
  5. 点击进入并执行“标记为已读”操作

整个过程无需人工干预。

7.2 Python API 方式调用(适合集成)

如果你希望将 Phone Agent 集成到自己的系统中,也可以使用其提供的 Python API。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这段代码可用于自动化连接管理、设备发现和状态监控。


8. 实际应用场景:不止是“打开App”

虽然演示中只是简单地查看邮件,但 Open-AutoGLM 的潜力远不止于此。它可以应用于多种高频、重复性高的手机操作场景:

8.1 日常任务自动化

  • 每日打卡类App自动签到
  • 新闻App阅读积分任务
  • 社交平台点赞/评论互动

8.2 信息提取与汇总

  • 自动抓取快递App中的物流信息
  • 从银行App中提取交易记录摘要
  • 监控招聘App的新职位推送

8.3 多App协同操作

  • “把我微信收到的发票转发到钉钉给财务”
  • “把微博上的优惠券截图保存到相册并分享给家人”

这些跨App、多步骤的任务,正是 AI Agent 最擅长的领域。


9. 常见问题与排查建议

在实际部署过程中,可能会遇到一些常见问题,以下是解决方案:

9.1 ADB 连接失败

  • 现象adb devices无设备或显示unauthorized
  • 解决:检查手机是否弹出“允许USB调试?”对话框,勾选“始终允许”并确认。

9.2 WiFi 连接不稳定

  • 现象adb connect成功但很快断开
  • 解决:尝试重启手机 ADB 服务:adb usbadb tcpip 5555;或改用 USB 连接测试。

9.3 AI 操作卡住或乱点

  • 现象:AI反复点击错误位置或无法前进
  • 解决:检查云端模型响应是否正常;确认截图清晰、UI元素可识别;适当增加每步等待时间。

9.4 输入中文失败

  • 现象:搜索框无法输入中文
  • 解决:确保已安装并启用ADB Keyboard,并在其设置中开启“Use Hardware Keyboard”。

9.5 模型无响应或返回乱码

  • 现象:API 调用超时或输出非结构化文本
  • 解决:检查 vLLM 启动参数是否正确,特别是--max-model-len和显存分配;确认模型权重加载完整。

10. 总结:迈向真正的手机AI助手

Open-AutoGLM 不只是一个技术玩具,它代表了下一代移动交互的可能性——用自然语言指挥手机完成复杂任务

通过本次部署实践,我们完成了:

  • 本地控制端环境搭建
  • 真机 ADB 调试配置
  • 连接云端 AI 模型
  • 成功执行一条“查看重要邮件”的自动化指令

虽然目前仍存在对界面变化敏感、部分App兼容性差等问题,但随着视觉语言模型能力的提升和动作规划算法的优化,这类 AI Agent 正在快速走向成熟。

未来,你可以想象这样一个场景:早上醒来,对手机说一句:“帮我看看昨晚有什么重要消息,订个会议室,再预约下午的车检。” 然后一切自动完成。

而现在,你已经迈出了第一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询