Cuộc Đào Vàng Của Agent Là Thật, Nhưng Công Cụ Thì Không Đồng Đều
Tính đến giữa năm 2025, cứ mỗi hai tweet từ developer lại có một tweet khen hoặc chửi AI coding agent của họ. Cursor dẫn đầu bảng xếp hạng. Claude Code khiến thị trường bất ngờ. Amazon ngầm ra mắt Kiro. Trong khi đó, các team chạy 15 agent trên cùng một prompt nhận được 15 kết quả hoàn toàn khác nhau.
Vậy thực sự cái gì hoạt động?
Những Gì Dữ Liệu Nói
Một bài benchmark tháng 6/2025 đã đánh giá 15 AI coding agent hàng đầu với cùng một task phức tạp đa file. Kết quả rất đáng chú ý:
- Top performers (Cursor, Claude Code, Copilot): hoàn thành task với độ chính xác 80–92%, duy trì context xuyên suốt qua 50+ lần nhảy file, và tự self-correct sau ít nhất một lần chạy thất bại.
- Tier giữa: tiến bộ nhưng bị stuck ở context window, thường restart với memory loss một phần sau lần chạm file thứ 20.
- Kém nhất: hallucinate API calls, generate code nhìn có vẻ hợp lý nhưng không hoạt động, và trong một trường hợp được ghi nhận, ẩn một infinite recursion bug kỹ đến mức reviewer gần như merge nó.
Cursor vs. Claude Code: Divergence Thực Sự
Cả hai tool đều có major update trong 2025, và cuộc so sánh đáng để unpack.
Cursor nhân đôi nỗ lực vào IDE-native approach. Multi-file edits cải thiện đáng kể. Compose mode — nơi một prompt generate changes xuyên nhiều file — bắt đầu hoạt động đáng tin cậy cho backend service changes. Killer feature vẫn là phím tắt CTRL+K: inline edit bất kỳ file nào mà không phá vỡ luồng suy nghĩ. Đặc biệt với frontend work, Cursor cảm giác như pairing với một junior engineer nhanh và có ý kiến riêng.
Claude Code khiến thị trường bất ngờ khi ship một agent hành xử ít như autocomplete hơn và nhiều hơn như một reasoning partner. Nó document reasoning của chính mình, flag khi uncertain, và hỏi clarifying questions trước khi refactor critical paths. Các team cho biết Claude Code cần ít rollbacks hơn — không phải vì nó thông minh hơn ở mỗi step, mà vì nó hiểu scope tốt hơn.
Amazon Kiro, vẫn còn trong limited preview giữa 2025, thì khác: được build cho teams, không phải individuals. Kiro tích hợp trực tiếp với AWS infrastructure và hiểu IAM roles, VPCs, và deployment pipelines một cách native. Nếu bạn là AWS-heavy shop, context của Kiro về cloud environment thực sự khó replicate với một generic agent.
Những Rủi Ro Ẩn Mà Ít Ai Nói Đủ
Bugs Vô Hình
Trường hợp infinite recursion đáng để dừng lại. Một AI agent viết một React component pass tất cả local tests. Recursion chỉ trigger dưới một user state combination cụ thể. Trong staging, nó không bao giờ xuất hiện. Trong production, nó hit một page lúc 3 AM.
Bài học: AI-generated code giỏi ở happy path và tệ ở adversarial inputs. Test những edge cases mà agent của bạn không bao giờ nghĩ đến.
Context Bleed
Một số team báo cáo agents làm việc trên parallel PRs thỉnh thoảng "mượn" logic của nhau — subtle merge patterns từ hai branch khác nhau. Fix thì nhỏ nhưng phiền. Version discipline và clear agent session boundaries quan trọng hơn ai ngờ.
Over-reliance on Generation, Under-reliance on Review
Developers dùng agents như "máy in code" — paste prompts và accept mọi thứ — có kết quả tệ nhất. Những người đối xử với agents như một sophisticated search-and-replace layer, với active human review ở mọi boundary, ship nhanh hơn và clean hơn.
Điều Thực Sự Hiệu Quả Với Teams
Kết Luận
AI coding agents trong 2025 thực sự hữu ích — không phải như replacements cho developers, mà như multipliers cho những thứ developers thấy nhàm chán. Những teams tốt nhất không dùng chúng để viết code nhanh hơn; họ dùng chúng để dành nhiều thời gian suy nghĩ và ít thời gian đánh máy hơn.
Những agents thắng trong 2025 không phải agent có model lớn nhất. Chúng là những agents hiểu codebase của bạn, ở trong lane của mình, và biết khi nào cần hỏi help.