Chi Phí Mà Không Ai Nói Đến
Khi các team nói về chi phí của AI trong việc tạo code, họ thường tập trung vào khâu sinh code. Nhưng một nghiên cứu thực nghiệm mới về mức tiêu thụ token trong hệ thống LLM Multi-Agent (LLM-MA) đã lật ngược hoàn toàn giả định đó.
Phân tích 30 tác vụ phát triển phần mềm do ChatDev framework thực hiện với mô hình GPT-5 reasoning, các nhà nghiên cứu đã ánh xạ các giai đoạn nội bộ sang các giai đoạn SDLC tiêu chuẩn: Thiết kế, Lập trình, Hoàn thiện code, Code Review, Kiểm thử và Tài liệu. Kết quả thật đáng chú ý.
Phát hiện chính: Code Review mới là con quái vật ăn token
Giai đoạn Code Review lặp đi lặp lại chiếm 59.4% tổng lượng tiêu thụ token trung bình. Đó không phải sai số làm tròn — đây mới là yếu tố chi phí chi phối trong kỹ thuật phần mềm dựa trên agent.
Tệ hơn, input token liên tục chiếm 53.9% tổng tiêu thụ ở tất cả các giai đoạn. Điều này có nghĩa là các agent đang tiêu tốn nhiều token hơn cho việc đọc và hiểu code so với việc tạo code mới. Nút thắt cổ chai không nằm ở khâu sinh code — mà là vòng lặp qua lại không ngừng của quá trình tinh chỉnh tự động.
Điều này có nghĩa gì cho Builders
Với các founders kỹ thuật và developers có tư duy sản phẩm, những con số này mang những hàm ý thực tiễn:
- Dự đoán chi phí đang bị sai. Hầu hết các team ước tính chi phí AI dựa trên output token. Nhưng các giai đoạn nặng về input như Code Review có thể âm thầm đẩy hóa đơn lên 2–3×.
- Collaboration giữa các agent có chi phí ẩn. Các pipeline đa agent có vẻ hiệu quả vì các tác vụ chạy song song. Nhưng mỗi vòng lặp của agent lại cộng thêm token theo cách mà setup đơn agent không có.
- Chi phí thực sự nằm ở verification, không phải creation. Tinh chỉnh và kiểm tra chất lượng tự động mới là nơi agentic engineering đốt ngân sách. Điều này gợi ý rằng cải tiến lớn nhất đến từ việc tối ưu các vòng review, không phải từ prompt sinh code.
Phân bổ Token theo Giai đoạn
| Giai đoạn | Tỷ lệ Token |
|---|---|
| Code Review | 59.4% |
| Coding + Completion | ~25% |
| Testing + Documentation | ~15% |
| Design | <1% |
Hành động thực tiễn
Bức tranh lớn
Nghiên cứu này là sơ bộ — 30 tác vụ trong một framework (ChatDev) với một model (GPT-5). Nhưng phương pháp luận thì chắc chắn và hướng đi thì rõ ràng: cấu trúc chi phí của kỹ thuật phần mềm agentic khác hoàn toàn so với AI coding đơn lẻ.
Cuộc đua tiếp theo không phải là model nhanh hơn. Mà là các giao thức collaboration thông minh hơn giúp giảm các vòng review không cần thiết. Các team hiểu điều này sẽ xây dựng hệ thống AI tiết kiệm chi phí hơn — và quan trọng hơn, họ sẽ biết nên tối ưu ở đâu.