2026 新年刚开始,科技圈最重磅的消息,莫过于 Meta 豪掷 20 亿美金,收购号称“通用智能体”的 Manus。
此前也体验过 Manus,不得不说其自动化能力确实惊艳。只需给它一个目标,就能帮我们自动操作电脑,把事情干完。
但现在被收进了大厂里,后续能力或许能成倍放大,但是使用价格必然也会随之提升。
与其同时,我在 GitHub 上发现Browser Use这个被称之为开源版的 Manus,伴随着这波热度,Star 数一路狂飙到了 75000+。
它能让 AI 真正接管浏览器,像真人一样点击、滚动、输入,替我们完成那些繁琐的重复性工作。
以前做网页自动化,基本都是靠 Selenium,但网站一改版,脚本就报废,这种痛苦经历搞爬虫的朋友会经常遇到。
现在 Browser Use 为我们提供了新的解决方案:给 AI 装上了“眼睛”。
基于 Playwright 和视觉大模型(Vision Model),不再是去扒网页代码,而是像人类一样“看懂”页面内容。
不管网页底层代码结构怎么变,它都能通过看理解页面上的所有内容,进而帮我们完成操作。
在官方文档里有三个特别实用的场景,每一个都直击痛点,下面逐一跟大家说说。
首先是打工人都懂的“海投简历”。
以前投简历,最烦的就是在不同网站上重复填写那些永远填不完的表格。
官方演示了一个非常实用的指令:“用我的简历信息填好这份申请表”。
Browser Use 启动后,会自动打开招聘页面。它能精准识别出“姓名”、“邮箱”、“工作经历”这些输入框,然后把你的资料填进去。
哪怕遇到下拉菜单或者勾选框,它也能像人一样处理得妥妥当当。
再来看一个生活场景应用,比如“电商购物”。
如果你有一份很长的购物清单,可以直接甩给它:“把这些东西加到我的购物车里”。
它会像真人一样浏览商品列表,通过视觉识别出哪个是你要的牌子,然后点击“加入购物”。
这中间更绝的是,如果网页出现弹窗广告,它不会像传统脚本那样傻傻地报错,而是会像真人一样找到关闭按钮点掉它,然后继续干活。
还有一个场景很适合喜欢组装电脑的朋友,那就是“电脑配件筛选”。
像以往我们想组装一台电脑,需要去了解大量配件的参数,以及它们之间兼容性。
有了 Browser Use,只需简单一条指令:“我想组装一台台式电脑,预算在 5000 元以内,帮我找到合适的配置”。
它就会自动搜索 CPU、显卡、主板,对比参数和价格,帮我们完成初步筛选。这比我们自己一个个去搜索效率真的高出不少。
从这些官方演示案例中可以看出,都是通过代码来启动自动化脚本的,很多朋友此时会觉得使用起来比较难。
但我想说恰恰相反,它的核心启动代码其实就如下几行:
from browser_use import Agentfrom langchain_openai import ChatOpenAI# 选择一个聪明的大脑(比如 Gemini 3 Pro)agent = Agent( task="帮我查一下明天去上海的高铁票", llm=ChatOpenAI(model="gemini-3-pro"))# 开始干活await agent.run()就这几行代码,就能让 Browser Use 运行起来,自动打开浏览器执行任务。
当然,还得跟大家说实话,Browser Use 的强大,是要靠消耗大量 Token 来换取的。
在使用过程,它会不断地截图、发给大模型分析、再决策,这一套流程下来,如果全程用 Gemini 3 Pro,成本确实不低。
不过好在也有办法解决,我们可以用比较便宜的 OCR 模型,甚至自己本地一个 DeepSeek-OCR 模型,来充当“眼睛”,负责识别页面文字和坐标。
然后在需要做复杂决策(比如判断哪个机票更划算)的时候,才调用昂贵的 GPT-5 或 Claude 4.5。
这样一来,成本就可以直接砍掉一大截,让人人都雇得起这位 “数字员工”。
总的来说,Browser Use 算是给了我们多一个选择权。
Manus 很好,但已成为了大厂的壁垒。Browser Use 也许还需要打磨,但代码是掌握在我们自己手里。
如果我们受够了在浏览器里重复点击鼠标,或者想体验一下拥有 “私人 Jarvis” 的感觉,这个项目值得一试。
GitHub 项目地址:https://github.com/browser-use/browser-use
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!