塔城地区网站建设_网站建设公司_UI设计师_seo优化
2026/1/22 6:40:46 网站建设 项目流程

Open-AutoGLM效果惊艳!AI自动操作手机全流程演示

@TOC


1. 引言:当AI开始“动手”操作你的手机

你有没有想过,有一天只需要说一句话,比如“帮我点一份附近评分最高的川菜外卖”,然后你的手机就自己打开美团、搜索餐厅、选好菜品、提交订单,整个过程完全不需要你动手?这听起来像是科幻电影里的桥段,但现在,Open-AutoGLM 正在让这一切变成现实

由智谱AI开源的Open-AutoGLM是一个基于视觉语言模型(VLM)的手机端AI智能体框架。它不仅能“听懂”你的自然语言指令,还能“看懂”手机屏幕上的内容,并通过 ADB 自动完成点击、滑动、输入等操作。换句话说,它是一个真正意义上的“会用手机”的AI助手。

本文将带你完整体验一次从零搭建到实际运行的全过程,展示 Open-AutoGLM 是如何实现“一句话操控手机”的惊人能力。


2. 项目核心原理:AI是如何“看”和“动”的?

2.1 多模态理解:看得懂界面

传统自动化脚本依赖固定的坐标或控件ID,一旦界面变化就会失效。而 Open-AutoGLM 使用的是视觉语言大模型(AutoGLM-Phone-9B),它能像人一样“看到”屏幕内容:

  • 识别文字按钮(如“立即下单”、“搜索”)
  • 理解图标含义(购物车、消息气泡)
  • 分析布局结构(顶部导航栏、底部Tab)

这意味着无论应用怎么更新,只要界面上有可读信息,AI都能理解并做出反应。

2.2 智能规划:想得出路径

用户的一句指令往往包含多个步骤。例如:“打开小红书搜美食推荐”。AI需要拆解为:

  1. 找到小红书App图标并点击
  2. 等待应用启动
  3. 定位搜索框
  4. 输入“美食推荐”
  5. 触发搜索

这个过程叫做任务规划(Task Planning),模型会结合当前屏幕状态和目标意图,动态生成最优操作序列。

2.3 ADB驱动:真正动起来

所有操作最终都通过ADB(Android Debug Bridge)来执行。这是一种官方支持的安卓调试协议,可以远程控制设备。Open-AutoGLM 利用 ADB 实现:

  • 屏幕截图获取当前画面
  • 坐标点击、滑动、长按
  • 文本输入(借助 ADB Keyboard)
  • 设备连接管理(USB / WiFi)

整个流程闭环:看 → 思考 → 动手 → 再看 → 再思考……直到任务完成


3. 快速部署指南:本地环境搭建全记录

3.1 准备工作清单

项目要求
操作系统Windows / macOS
Python 版本3.10 或以上
安卓设备Android 7.0+ 手机或模拟器
工具包ADB 工具已配置环境变量

提示:建议使用真实手机测试,模拟器可能存在兼容性问题。

3.2 启用开发者模式与USB调试

在安卓手机上依次操作:

  1. 进入「设置」→「关于手机」
  2. 连续点击“版本号”7次,开启“开发者选项”
  3. 返回设置主菜单 →「开发者选项」→ 开启“USB调试”

此时用数据线连接电脑,手机会弹出“允许USB调试?”提示,勾选“始终允许”后确认。

3.3 安装 ADB Keyboard(关键步骤)

这是实现文本输入的核心工具。

  1. 下载 ADB Keyboard APK 并安装
  2. 进入「设置」→「语言与输入法」→「默认键盘」
  3. 选择 “ADB Keyboard” 作为默认输入法

这样 AI 就可以通过 ADB 发送文本命令,实现自动打字。

3.4 配置 ADB 环境

Windows 用户:
  • 下载 Platform Tools
  • 解压后将文件夹路径添加到系统PATH环境变量
  • 打开命令行输入adb version验证是否成功
macOS 用户:
export PATH=${PATH}:~/Downloads/platform-tools

可将其写入.zshrc.bash_profile文件中永久生效。

验证连接:

adb devices

如果看到设备ID后跟device状态,说明连接成功。


4. 控制端部署:让AI接管手机

4.1 克隆项目代码

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

pip install -r requirements.txt pip install -e .

注意:部分依赖对Python版本敏感,请确保使用 3.10+

4.3 连接方式选择

USB直连(推荐新手)
adb devices # 输出示例:ABCDEF12 device
WiFi无线连接(适合远程调试)

先用USB连接启用TCP模式:

adb tcpip 5555

断开USB,通过IP连接:

adb connect 192.168.1.100:5555

可通过以下命令获取设备IP:

adb shell ip route show

5. 启动AI代理:见证奇迹时刻

5.1 使用本地部署模型(高性能首选)

如果你有GPU服务器,推荐本地运行模型服务。

启动 vLLM 推理服务:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --allowed-local-media-path / \ --limit-mm-per-prompt "{\"image\":10}"

服务地址:http://localhost:8000/v1

5.2 调用云端API(快速体验)

也可使用智谱或魔搭平台提供的在线服务。

智谱 BigModel API
--base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone --apikey YOUR_API_KEY
魔搭 ModelScope
--base-url https://api-inference.modelscope.cn/v1 --model ZhipuAI/AutoGLM-Phone-9B --apikey YOUR_API_KEY

5.3 执行第一条指令!

运行命令:

python main.py \ --device-id ABCDEF12 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索抖音号 dycwo11nt61d 的博主并关注他!"

你会看到:

  1. AI自动截取当前屏幕
  2. 模型分析界面元素
  3. 找到抖音图标并点击
  4. 等待启动后定位搜索框
  5. 输入指定抖音号
  6. 点击搜索结果中的用户
  7. 最后执行“关注”操作

整个过程无需人工干预,就像有人在替你操作手机


6. 实测效果展示:这些任务它都能搞定

6.1 场景一:社交互动自动化

指令:“打开微信,给‘张三’发消息:今晚聚餐地点改到798艺术区那家日料了。”

实际表现:

  • 成功识别微信图标并启动
  • 进入聊天列表查找“张三”
  • 点击进入对话窗口
  • 使用 ADB Keyboard 输入完整消息
  • 点击发送按钮

全程耗时约 18 秒,准确率极高。

6.2 场景二:电商比价下单

指令:“打开京东和淘宝,查iPhone 15 Pro的价格,选便宜的那个加入购物车。”

表现亮点:

  • 能区分两个电商平台的UI差异
  • 正确识别商品标题和价格标签
  • 对比后选择低价平台
  • 自动点击“加入购物车”

注意:涉及支付类操作默认不会自动执行,需人工确认。

6.3 场景三:信息查询汇总

指令:“打开高德地图,查从公司到首都机场的驾车路线,预估时间和费用。”

结果反馈:

  • 成功定位起点(假设已设置常用地址)
  • 输入终点“首都机场”
  • 获取路线详情
  • 截图返回或语音播报(可扩展)

非常适合通勤前快速了解路况。


7. 高级功能与安全机制

7.1 敏感操作拦截

对于以下行为,系统会暂停并等待人工确认:

  • 支付操作(微信/支付宝付款)
  • 删除重要数据(相册、聊天记录)
  • 修改隐私设置(位置、相机权限)
  • 登录新账号

这有效防止误操作导致的安全风险。

7.2 人工接管机制

在验证码、滑块验证等AI无法处理的场景下,系统会:

  1. 暂停自动化流程
  2. 弹出提示通知用户介入
  3. 用户完成操作后继续后续流程

实现“人机协同”最优化体验。

7.3 远程调试能力

得益于 ADB 的网络支持,你可以:

  • 在办公室控制家里的测试机
  • 批量管理多台设备
  • 实现无人值守自动化测试

特别适合企业级自动化运维场景。


8. 常见问题与解决方案

8.1 ADB 连接失败

现象adb devices显示 unauthorized 或 offline
解决方法

  • 检查手机是否弹出授权对话框
  • 重新插拔USB线
  • 执行adb kill-server && adb start-server

8.2 模型响应慢或乱码

可能原因

  • 显存不足(建议至少 16GB GPU)
  • max-model-len设置过小
  • 输入图片分辨率太高

建议参数调整

--max-model-len 25480 --mm-processor-kwargs "{\"max_pixels\":5000000}"

8.3 文本输入失败

检查项

  • 是否已安装 ADB Keyboard
  • 是否设为默认输入法
  • 是否被其他输入法抢占

可在设置中强制切换回来。


9. 总结:未来已来,只是分布不均

Open-AutoGLM 不只是一个技术玩具,它是移动端AI智能体发展的重要里程碑。通过自然语言 + 视觉理解 + 自动化执行的三重能力,它让我们离“AI助理”这一理想更近了一步。

核心价值回顾:

  • 降本提效:重复性手机操作交给AI
  • 无障碍辅助:帮助视障人士更便捷使用手机
  • 自动化测试:替代人工进行APP功能验证
  • 智能家居联动:成为家庭数字中枢的操作手

更重要的是,它是完全开源的,意味着每个人都可以参与改进、定制专属功能,甚至构建自己的“数字分身”。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询