Agent Evaluation: Làm sao biết AI coding agent có thật sự tốt hơn?

AI coding agent không còn được đánh giá bằng demo đẹp. Năm 2026, câu hỏi thật sự là: agent có thể giải quyết lặp lại các task kỹ thuật phức tạp với tool, memory, context repo, test và ràng buộc của con người hay không? Agent evaluation đang chuyển từ “AI có viết được code không?” sang “AI có cải thiện toàn bộ vòng đời phát triển phần mềm mà không tạo rủi ro ẩn không?”

Agent evaluation là gì?

Agent evaluation là cách đo lường một AI agent khi nó thực hiện công việc nhiều bước, chứ không chỉ trả lời một prompt. Với coding agent, điều đó nghĩa là agent phải đọc repository, lập kế hoạch, sửa file, chạy test, debug lỗi và tạo ra patch có thể maintain.

Điểm khác biệt là coding agent không chỉ là model. Nó là cả một workflow: prompt, tool, context retrieval, terminal, editor, memory, guardrail và đôi khi là các skill tái sử dụng.

Vì sao benchmark code truyền thống chưa đủ?

Benchmark code truyền thống thường đo một câu trả lời: giải thuật toán, viết một function, hoặc pass hidden test. Hữu ích, nhưng phần mềm thật không sạch như vậy.

Một task thực tế thường cần:

đọc file lạ,
hiểu architecture hiện có,
sửa nhiều module,
viết hoặc cập nhật test,
xử lý dependency lỗi,
tuân thủ convention của project,
và giải thích trade-off cho con người.

Vì vậy các benchmark như SWE-bench, SWE-bench Verified, AgentBench và tau-bench trở nên quan trọng. Chúng đo hành vi qua nhiều bước, không chỉ đo khả năng sinh code một lần.

“Agent-skills-eval” nghĩa là gì?

Ý tưởng của agent-skills-eval rất đơn giản: nếu vendor nói agent có “skill”, “playbook” hay “memory”, ta phải đo xem những thứ đó có thật sự cải thiện output không.

Skill nghe rất hay về mặt marketing, nhưng bài test thực tế là:

Claim	Cần đo gì
“Agent có skill debug”	Nó có tìm root cause nhanh hơn và ít patch bừa hơn không?
“Agent làm theo TDD”	Nó có viết test fail trước rồi mới sửa cho pass không?
“Agent nhớ convention project”	Nó có giảm comment review và lỗi style không?
“Agent dùng tool tốt”	Nó có verify bằng command thật thay vì đoán không?
“Agent tự động hoàn thành task”	Nó có xong việc mà không tạo regression không?

Câu hỏi chính không phải là skill có tồn tại hay không. Câu hỏi chính là skill có tạo ra kết quả đo được hay không.

Framework thực tế để đánh giá coding agent

Một hệ thống đánh giá tốt nên có ít nhất sáu lớp.

1. Task success

Agent có giải đúng issue không? Có thể đo bằng test, acceptance criteria hoặc human review. Nhưng chỉ đo success là chưa đủ, vì agent có thể pass test nhưng tạo code khó maintain.

2. Patch quality

Giải pháp có dễ maintain không? Reviewer nên xem sự đơn giản, fit với architecture, readability, logic trùng lặp, rủi ro security và convention project.

3. Verification behavior

Agent có chạy đúng kiểm tra không? Một agent tốt không chỉ nói “done”. Nó phải chạy test, lint, type check, build hoặc bước reproduce phù hợp.

4. Process reliability

Agent có workflow ổn định không? Ví dụ: inspect trước, lập giả thuyết, sửa tối thiểu, test, rồi summarize. Trial-and-error ngẫu nhiên nên bị trừ điểm.

5. Cost và latency

Một agent giải task trong 90 phút với token cost rất lớn chưa chắc tốt hơn tool đơn giản giải trong 10 phút. Đánh giá phải tính thời gian, chi phí và số tool call.

6. Human handoff quality

Agent làm việc cùng con người. Nó phải nói rõ đã đổi gì, verify gì, rủi ro còn lại là gì và reviewer nên tập trung vào đâu.

Vì sao skill vừa hữu ích vừa nguy hiểm?

Skill là procedure tái sử dụng: cách debug, cách review PR, cách deploy, cách viết test. Chúng giúp agent nhất quán hơn vì không phải tự nghĩ workflow từ đầu mỗi lần.

Nhưng skill cũng có thể tạo tự tin giả. Skill sai khiến agent lặp lại quy trình sai. Skill cũ có thể chứa command lỗi thời, assumption cũ về architecture hoặc shortcut không an toàn.

Vì vậy skill cũng cần được evaluate. Benchmark nên so sánh cùng một agent khi có skill và khi không có skill trên cùng nhóm task.

Test đơn giản nhất: A/B agent có skill và không có skill

Nếu một công ty nói skill coding agent giúp cải thiện performance, hãy chạy A/B evaluation:

Chọn 30–100 task thật từ lịch sử project.

Chạy baseline agent không có skill.

Chạy cùng agent đó nhưng có skill.

So sánh success rate, test pass rate, review comment, thời gian, token cost và rollback rate.

Reviewer đánh giá patch quality mà không biết phiên bản nào tạo ra.

Nếu skill thật sự có giá trị, con số sẽ thể hiện.

Team nên đo gì trước khi dùng AI coding agent?

Đừng mua tool chỉ vì screenshot leaderboard. Scorecard nội bộ nên có:

Metric	Vì sao quan trọng
Resolved task rate	Đo hoàn thành thật, không phải demo
Regression rate	Bắt lỗi phá ngầm
Test behavior	Xem agent có verify không
Review burden	Đo lượng cleanup con người phải làm
Time-to-merge	Đo tốc độ workflow
Cost per merged PR	Giữ automation có ý nghĩa kinh tế
Security findings	Tránh code sinh ra không an toàn
Repeatability	Kiểm tra kết quả có ổn định không

Điều gì thay đổi trong 2026?

Thị trường đang chuyển từ model benchmark sang workflow benchmark. Coding agent tốt nhất sẽ không chỉ là model có điểm cao nhất. Nó sẽ là hệ thống kết hợp model mạnh, tool đáng tin, context tốt, workflow kỷ luật và verification đo được.

Đó là lý do agent evaluation quan trọng. Nó biến AI coding từ “vibe” thành một ngành engineering thật sự.

FAQ

SWE-bench có đủ để đánh giá coding agent không?

Không. SWE-bench rất hữu ích vì dùng issue GitHub thật, nhưng không đủ cho mọi team. Repo nội bộ, convention, security rule và deployment workflow cần evaluation riêng.

Agent skill có thật sự cải thiện chất lượng code không?

Có thể, nhưng phải đo. Skill nên tăng success rate, giảm review burden hoặc làm verification nhất quán hơn. Nếu không, nó chỉ là prompt được đặt tên đẹp.

Rủi ro lớn nhất của AI coding agent là gì?

Rủi ro lớn nhất là regression ẩn: code nhìn có vẻ đúng, pass check nông, nhưng phá edge case, security assumption hoặc maintainability.

Startup nên đánh giá coding agent như thế nào?

Bắt đầu bằng task thật từ backlog của chính mình. So sánh agent theo success, patch quality, thời gian, chi phí và effort review. Đừng chỉ dựa vào public leaderboard.