AI agents có thể nhìn màn hình và thực hiện hành động đang chuyển từ demo sang production. Computer use — khả năng model điều khiển trình duyệt thật, điền form, đọc trang và click qua workflow — đang trở thành một primitive thực sự. Đây là những gì builders cần hiểu trước khi tích hợp vào sản phẩm.
Computer use thực sự là gì
Computer use là khả năng AI model điều khiển máy tính như cách con người làm: di chuyển con trỏ, gõ text, đọc nội dung màn hình và thực hiện các workflow nhiều bước. Thay vì gọi API, agent nhìn screenshot, quyết định hành động, và môi trường thực thi nó.
Anthropic là một trong những đơn vị đầu tiên ship tính năng này với computer use beta. Từ đó, các framework như browser-use của Browserbase, Vimah, và các dự án open source đã mang khả năng tương tự đến tay developer. Model không chỉ đọc DOM — nó đọc pixels, nghĩa là nó hoạt động với bất kỳ UI nào ngay cả khi không có accessibility hooks.
Tại sao nó quan trọng với product teams
Quy trình tích hợp AI truyền thống: API → structured output → action. Computer use thay đổi thành: goal → agent quan sát môi trường → agent thực hiện hành động. Điều này thu hẹp khoảng cách cho các use case không có API, API quá hạn chế, hoặc interface chính là sản phẩm.
Ứng dụng thực tế:
- Tự động nhập dữ liệu qua các web portal cũ
- End-to-end testing thực sự trên UI
- Research agents kéo dữ liệu từ các trang không có API
- Workflow điền form và nộp tài liệu
Bài toán độ tin cậy
Agents dựa trên screen kém tin cậy hơn đáng kể so với agents dựa trên API. Chất lượng screenshot, việc xác định vị trí UI element, và phát hiện thành công hành động đều tạo ra nhiễu. Một click hoạt động 95% trường hợp có thể thất bại âm thầm trong 5% còn lại, và agent có thể không biết nó thất bại.
Teams ship computer use trong production thường thêm:
- Bước xác nhận: agent xác minh trạng thái sau mỗi hành động
- Đường dẫn dự phòng: thử lại với hành động khác nếu bước đầu thất bại
- Human-in-the-loop gates: người phê duyệt trước các hành động không thể đảo ngược
- Ghi record session: video log đầy đủ để con người audit những gì đã xảy ra
Ranh giới bảo mật và quyền hạn
Khi agent điều khiển trình duyệt thay cho user, nó thừa hưởng session và quyền của user. Điều này mạnh mẽ nhưng rủi ro. Lộ credentials, mua hàng ngoài ý muốn, xóa dữ liệu và nộp form vào sai hệ thống đều là các failure mode có thể xảy ra.
Best practices:
- Dùng browser session riêng với quyền hạn tối thiểu
- Không bao giờ chạy computer use agents trên cùng profile với duyệt web hàng ngày
- Log mọi hành động kèm timestamp và screenshot
- Yêu cầu user consent rõ ràng trước mỗi session
- Cân nhắc sandboxed environments (VMs, containers) cho các workflow không đáng tin cậy
Open source và hệ sinh thái browser-use
Thư viện browser-use trên GitHub đã trở thành reference implementation để kết nối LLM với browser automation. Nó dùng pipeline multi-model: một model xác định UI elements từ screenshots, model khác quyết định hành động, và model thứ ba xác minh kết quả. Playwright hoặc Puppeteer điều khiển trình duyệt thực sự.
from browser_use import Agent
from langchain_openai import ChatOpenAI
agent = Agent(task="Tìm chuyến bay từ NYC sang Tokyo thứ 6 tuần sau",
llm=ChatOpenAI(model="gpt-4o"),
browser_engine="playwright")
await agent.run()
Ý nghĩa cho roadmap
Computer use không thay thế API-based automation. Nó là lớp bổ sung cho long tail các use case không có API. Các teams thắng với computer use là những teams coi nó như fall-back layer — dùng API khi có sẵn, fallback sang computer use khi cần, và xây observability cho cả hai.
Làn sóng tiếp theo của AI product features sẽ bao gồm agents có thể vận hành các web products hiện có mà không cần products đó xây native AI integrations. Đó là một bước tiến có ý nghĩa cho builders.