Khi Hóa Đơn Đến
Trên khắp ngành, các công ty bắt đầu lo ngại về giá của AI. Câu chuyện nhất quán: triển khai dễ dàng, nhiệt huyết cao, và hóa đơn bị phớt lờ — cho đến khi không thể phớt lờ được nữa.
Uber đốt hết toàn bộ ngân sách AI coding cả năm 2026 chỉ trong 4 tháng. Microsoft thu hồi license Claude Code ngay sau khi triển khai. Một nhân viên Priceline cho TechCrunch biết hợp đồng Cursor gia hạn đột nhiên tăng 4–5 lần. Một công ty được cho là đã nhận hóa đơn Claude 500 triệu đô sau khi quên đặt giới hạn sử dụng cho nhân viên.
Giá per-token đã giảm đáng kể. Nhưng mức tiêu thụ tăng nhanh hơn nhiều so với giá giảm. Các agent tự trị, workflow nhiều bước, và đà thúc đẩy toàn ngành "di chuyển nhanh" đã đẩy mức sử dụng token lên 18.6x mỗi developer chỉ trong 9 tháng, theo dữ liệu từ Jellyfish.
Tại Sao Chi Phí Bùng Nổ Vượt Qua Tiết Kiệm
Sáu tháng trước, head of enterprise của OpenAI nói với TechCrunch rằng các cuộc trò chuyện với khách hàng xoay quanh khả năng: "Nó đủ tốt không?" Giờ đây, mọi cuộc trò chuyện bắt đầu bằng cùng một câu hỏi: "Chúng tôi đang chi quá nhiều. Bạn có nhìn thấy gì không? Bạn có kiểm soát token không?"
Sự chuyển dịch rõ rệt. Các model mới ra mắt cuối 2025 — Claude Opus 4.5, GPT-5.1, Gemini 3 Pro — mang lại cải tiến thực sự cho các công cụ agentic. Nhưng những cải tiến đó đi kèm một chi phí ẩn: agent tiêu thụ token ở mức mà subscription không bao giờ làm được.
Chris Reed, Senior Director of IT Finance tại Priceline, nói thẳng: "Giống như đại dịch cocaine. Họ cho bạn dùng thử để bạn nghiện, và giờ bạn phụ thuộc vào nó."
Nghịch Lý Năng Suất
Nghiên cứu của Jellyfish trên 20,000 developer cho thấy điều khó chịu: kỹ sư dùng nhiều token AI nhất chỉ năng suất hơn khoảng 2 lần so với người dùng ít hơn — nhưng họ tiêu tốn 10x số token để đạt được điều đó. Nicholas Arcolano, Head of Research tại Jellyfish, nhận định liệu chi tiêu cực độ có đáng giá hay không "phụ thuộc vào giá trị kinh doanh cuối cùng của code được ship, mà hầu hết các công ty vẫn chưa đo lường được."
CEO của Faros AI, Vitaly Gordon, chia sẻ một cuộc trò chuyện với CTO: "Một trong các kỹ sư của tôi đã tiêu $40,000 token tháng trước, và tôi thực sự không biết có nên dừng anh ấy lại hay nên bảo mọi người học theo anh ấy."
Đó là câu hỏi $40,000 — và hầu hết các leader kỹ thuật đang bị buộc phải trả lời nó ngay bây giờ.
FinOps Cho AI
Những tiếng kêu la khắp thế giới tech đến sau các mệnh lệnh từ CEO thúc đẩy đội ngũ dùng model tốt nhất và di chuyển nhanh. Kết quả: khủng hoảng ngân sách từ Q2 2026.
Linux Foundation công bố kế hoạch cho Tokenomics Foundation — một tổ chức tiêu chuẩn mới nhằm mang lại kỷ luật chi phí cho token AI tương tự như FinOps mang lại cho cloud spend. Executive Director của FinOps Foundation, J.R. Storment, cho biết tổ chức bắt đầu nghe từ các công ty từ tháng 4: "Ôi chúa ơi, chúng tôi đã vượt 3 lần ngân sách token cả năm 2026 và mới chỉ là tháng 4."
Điều Builders và Founders Cần Làm Ngay
Đây không chỉ là vấn đề của doanh nghiệp lớn. Các developer độc lập và đội nhỏ đang đốt qua credits OpenRouter, Anthropic, và OpenAI nhanh hơn dự kiến. Đây là lời cảnh tỉnh thực tế:
- Đặt giới hạn token theo user hoặc theo project trước khi triển khai AI tools toàn công ty. Coi ngân sách AI như ngân sách cloud.
- Theo dõi chi tiêu token theo từng engineer — giống như cách bạn theo dõi chi phí compute. Bạn không thể tối ưu thứ bạn không đo lường được.
- Audit các workflow agentic — agent đa turn có thể tạo hàng nghìn token mỗi task. Thêm checkpoint.
- Cân nhắc hiệu quả model, không chỉ khả năng — model 70B có giá 5x rẻ hơn có thể ship code 90% tốt. Với nhiều task, đó là trade đúng.
- Đòi hỏi nhà cung cấp về khả năng hiển thị chi phí — nếu vendor AI không cung cấp breakdown theo user hoặc project, hãy yêu cầu họ.