新星市网站建设_网站建设公司_移动端适配_seo优化
2026/1/22 7:52:30 网站建设 项目流程

小白必看!Open-AutoGLM手机端AI代理快速入门指南

你有没有想过,有一天只要动动嘴说一句“帮我打开小红书搜美食”,手机就能自动完成所有操作?听起来像科幻片,但现在——它已经能实现了。今天要介绍的Open-AutoGLM,就是这样一个能让 AI 当你“手机助理”的开源框架。

它不只是会听指令,还能“看懂”屏幕、理解界面、自己点按钮、输文字,甚至在关键时刻提醒你确认敏感操作。整个过程完全自动化,却又足够安全。最棒的是,哪怕你是技术小白,也能跟着这篇指南一步步上手。

本文将带你从零开始,搞懂 Open-AutoGLM 是什么、怎么用,并手把手教你部署和运行第一个 AI 手机任务。不需要深厚的编程背景,只要你会用电脑和手机,就能轻松搞定。


1. 什么是 Open-AutoGLM?

简单来说,Open-AutoGLM 是一个让 AI 能真正“操控手机”的智能代理框架。它的核心叫Phone Agent,背后是智谱推出的 AutoGLM 视觉语言模型。这个系统厉害的地方在于:

  • 它不仅能“听”你说话(自然语言理解),还能“看”你的手机屏幕(多模态视觉识别)。
  • 看完之后,它能像人一样思考下一步该点哪里、滑哪里、输入什么。
  • 最后通过 ADB(Android Debug Bridge)真正去操作手机,完成整个流程。

比如你说:“打开抖音,搜索一个叫 dycwo11nt61d 的博主并关注他。”
AI 会自动:

  1. 打开抖音 App;
  2. 找到搜索框并点击;
  3. 输入那一串复杂的用户名;
  4. 进入主页;
  5. 点击“关注”按钮。

全程无需你动手,就像有个看不见的小助手替你完成了所有点击操作。

1.1 核心能力亮点

能力说明
多模态感知结合图像和文字理解当前手机界面
自然语言驱动用户只需用中文或英文下指令,无需写代码
自主决策规划AI 自动拆解任务步骤,生成可执行的操作序列
安全机制完善遇到登录、支付等敏感操作时会暂停,等待人工确认
支持远程控制可通过 WiFi 连接设备,实现无线自动化

1.2 适合谁使用?

  • 想体验 AI 自动化生活的普通用户
  • 做移动端自动化测试的开发者
  • 想研究 AI Agent 行为逻辑的技术爱好者
  • 需要批量操作多个账号的运营人员(注意合规性)

2. 准备工作:软硬件与环境配置

要让 Open-AutoGLM 正常工作,你需要准备三样东西:一台安卓手机、一台电脑、以及基本的开发工具。别担心,这些都不难搞。

2.1 硬件与系统要求

  • 电脑系统:Windows 或 macOS 均可
  • Python 版本:建议安装 Python 3.10 或更高版本
  • 安卓设备:Android 7.0 以上的真实手机或模拟器
  • 连接方式:支持 USB 数据线连接,也支持 WiFi 无线连接

2.2 安装 ADB 工具

ADB(Android Debug Bridge)是连接电脑和安卓设备的关键桥梁。我们需要先把它装好。

Windows 用户安装步骤:
  1. 下载 Android SDK Platform Tools 并解压。
  2. Win + R输入sysdm.cpl,打开“系统属性” → “高级” → “环境变量”。
  3. 在“系统变量”里的Path中添加你解压后的 platform-tools 文件夹路径。
  4. 打开命令提示符,输入adb version,如果显示版本号就说明安装成功。
macOS 用户安装方法:

打开终端,运行以下命令(假设你把文件解压到了 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

你可以把这个命令加到.zshrc.bash_profile里,避免每次都要重新设置。


3. 手机端设置:开启调试权限

为了让电脑能控制手机,必须在手机上开启几个关键开关。

3.1 开启开发者模式

进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

3.2 启用 USB 调试

返回设置主菜单 → “开发者选项” → 找到“USB 调试”,勾选开启。

注意:不同品牌手机路径略有差异,请根据机型自行查找。

3.3 安装 ADB Keyboard(重要!)

这是个特殊的输入法,能让 AI 通过 ADB 直接向手机输入文字,而不需要手动打字。

  1. 下载 ADB Keyboard APK 并安装。
  2. 进入“语言与输入法”设置 → 将默认输入法切换为ADB Keyboard

这样以后 AI 下达“输入xxx”指令时,就能自动填入内容了。


4. 部署 Open-AutoGLM 控制端

现在轮到在电脑上部署我们的“指挥中心”了。

4.1 克隆项目代码

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

接下来安装必要的 Python 包:

pip install -r requirements.txt pip install -e .

提示:建议使用虚拟环境(如 venv 或 conda),避免依赖冲突。


5. 连接手机设备

确保手机通过 USB 连接到电脑,然后测试是否能被识别。

5.1 使用 USB 连接

在终端运行:

adb devices

你应该能看到类似这样的输出:

List of devices attached ABCDEF1234567890 device

只要有设备 ID 和device状态,说明连接成功。

5.2 使用 WiFi 远程连接(更方便)

如果你不想一直插着数据线,可以用 WiFi 连接。

第一步:先用 USB 连接,启动 ADB TCP 模式

adb tcpip 5555

第二步:拔掉 USB,用 IP 地址连接

先查看手机 IP 地址(一般在“设置 → WLAN”里),然后运行:

adb connect 192.168.x.x:5555

再次运行adb devices,应该能看到设备以 IP 形式在线。


6. 启动 AI 代理:让手机“活”起来

一切准备就绪,终于可以召唤 AI 助理了!

6.1 前提:确保模型服务已运行

Open-AutoGLM 本身只是一个“客户端”,真正的 AI 大脑需要提前部署在本地或云端。通常使用 vLLM 或 SGlang 来启动模型服务。

例如,使用 vLLM 启动 AutoGLM-Phone-9B 模型:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

启动成功后,模型服务地址为:http://<服务器IP>:8000/v1

6.2 命令行方式运行任务

回到 Open-AutoGLM 目录,运行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://192.168.1.100:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices显示的设备 ID
  • --base-url:替换为你实际的模型服务地址
  • 最后的字符串:你要下达的自然语言指令

运行后,你会看到 AI 开始截图、分析界面、规划动作,并逐步执行每一步操作。整个过程就像有人在替你操作手机。

6.3 使用 Python API 调用(适合集成)

如果你想把功能嵌入自己的程序中,也可以用 API 方式调用。

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://192.168.1.100:8000/v1", model_name="autoglm-phone-9b", ) # 创建代理实例 agent = PhoneAgent(model_config=model_config) # 下达指令 result = agent.run("打开美团搜索附近的火锅店") print(result)

这种方式更适合做批量任务或与其他系统联动。


7. 实际使用技巧与注意事项

虽然 Open-AutoGLM 很强大,但想让它稳定工作,还需要注意一些细节。

7.1 如何提高成功率?

  • 保持屏幕亮度常亮:避免自动锁屏导致中断
  • 关闭省电模式:某些省电策略会限制后台服务
  • 减少干扰弹窗:提前关闭广告推送、系统通知等
  • 网络稳定:尤其是 WiFi 连接时,尽量靠近路由器

7.2 常见问题排查

问题现象可能原因解决方案
ADB 无法识别设备驱动未安装或 USB 调试未开启重装驱动,检查设置
连接频繁断开WiFi 不稳定改用 USB 连接
AI 乱点或无响应模型服务异常或参数错误检查 vLLM 启动参数,特别是max-model-lenmm_processor_kwargs
文字输入失败ADB Keyboard 未设为默认输入法回到设置中重新选择
敏感操作卡住AI 主动暂停等待确认手动完成操作后继续

7.3 安全与隐私提醒

  • Open-AutoGLM 会频繁截图上传至模型服务,请确保服务部署在可信环境中。
  • 不要在生产环境或重要账号上随意启用全自动模式。
  • 建议开启“人工接管”功能,在涉及密码、支付等场景时由人来操作。

8. 总结:迈向真正的 AI 手机助理

通过这篇文章,我们一步步完成了 Open-AutoGLM 的部署与使用全过程。从环境配置、手机调试,到模型服务启动、任务执行,你现在已经有能力让 AI 替你操作手机了。

这不仅仅是一个炫酷的技术玩具,更是未来人机交互的一种新范式。想象一下:

  • 每天早上自动帮你打卡、签到、领红包;
  • 自动浏览招聘信息并保存感兴趣的岗位;
  • 辅助老年人操作复杂 App,提升数字包容性;
  • 做自动化测试,快速验证 App 功能……

这些场景正在变得触手可及。

当然,目前它还不能做到 100% 完美,偶尔会误判界面或卡住。但随着模型迭代和社区贡献,它的能力只会越来越强。

最重要的是——这一切,你现在就可以亲手实现。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询