Context Window Là Gì, Thật Sự?
Context window là lượng text một AI model có thể "nhìn thấy" cùng một lúc. Nó bao gồm cả những gì bạn gửi vào (prompt) và những gì model tạo ra (output). Mọi thứ ngoài ngưỡng đó về cơ bản là invisible.
Nhiều năm qua, 4K–8K tokens là tiêu chuẩn. Nghe có vẻ đủ — cho đến khi các developer bắt đầu nhồi nhét toàn bộ codebase, lịch sử chat hàng năm, hay hàng loạt tài liệu vào. Ngưỡng trần cứ liên tục đẩy lên, và 2026 đã khiến nó gần như vô lý.
Những Con Số Đưa Chúng Ta Đến Đây
| Năm | Model | Context Window |
|---|---|---|
| 2023 | GPT-4 | 8K → 128K |
| 2024 | Claude 3.5 | 200K |
| 2025 | Gemini 2.0 | 1M |
| 2026 | Gemini 2.5 Ultra | 10M |
Tại Sao 10M Tokens Thực Sự Quan Trọng Với Builder
1. Whole-Codebase Reasoning Không Cần RAG
Retrieval-Augmented Generation là câu trả lời cho giới hạn context. Bạn chunk tài liệu, embed chúng, retrieve phần liên quan, rồi inject vào prompt. Nó hoạt động — nhưng phức tạp.
Với window 10M tokens, bạn có thể paste toàn bộ một monorepo cỡ trung (dễ dàng dưới 2M tokens) và hỏi: *"Bug authentication ở đâu, và cái gì đang gây ra lỗi intermittent trên production?"* Model nhìn thấy toàn bộ bức tranh.
Không bước retrieval. Không chiến lược chunking. Không embeddings cũ. Chỉ một câu hỏi trực tiếp với toàn bộ codebase trong tầm nhìn.
2. Agentic Workflows Không Cần Overhead Quản Lý State
AI agents dùng tool — browsing, code execution, file manipulation — truyền thống mất dấu những gì đã làm sau vài turn. Lịch sử chat dài bị cắt ngắn. Hệ thống agent memory ra đời để bù đắp.
Context window khổng lồ thay đổi toán. Giờ bạn có thể chạy workflow agent 50 bước với full transparency: mọi tool call, mọi output, mọi quyết định đều nằm trong context. Agent không quên.
3. Document Understanding Ở Quy Mô
Hợp đồng pháp lý, báo cáo tài chính, architecture decision records — những thứ này thường vượt quá 200K context ở full fidelity. Ở 10M tokens, bạn đang nói về khoảng 7.500 trang text. Toàn bộ corpus tài liệu của một công ty trong một lần gọi.
4. Multi-Modal Long-Form Analysis
Context không chỉ là text. Khi models có thể ingest 10M tokens hình ảnh (qua vision tokenized), bạn có thể feed hàng trăm giờ video frames, hàng trăm UI screenshots, hoặc toàn bộ design system libraries và hỏi câu hỏi synthesis xuyên suốt.
Chi Phí Ẩn Mà Không Ai Nói Đến
Chi Phí Compute Không Tuyến Tính
Context dài hơn có nghĩa compute tăng vượt bậc. Xử lý 10M tokens tốn khoảng 50 lần so với 200K tokens cho cùng một model. Bạn không chỉ trả tiền cho "nhiều hơn" — bạn trả cho quadratic attention computation.
Hầu hết provider giờ tính phí theo token bucket, không phải flat rate. Biết rõ pricing tiers của model.
Latency Đánh Production Nặng
Một prompt 10M tokens với round-trip generation có thể mất 60–120 giây trên hardware hiện tại. Không acceptable cho real-time UX. Batch processing và async pipelines trở thành bắt buộc.
Context Không Phải Memory
Có một distinciton tinh tế nhưng quan trọng: *có thể nhìn thấy* một token và *suy luận hiệu quả* về nó là hai thứ khác nhau. Attention quality suy giảm ở context length cực lớn. Giữa một document lớn thường nhận ít trọng lượng hơn phần đầu và cuối ("lost in the middle" problem).
Models đang cải thiện ở đây, nhưng đừng giả định 10M context window có nghĩa là 10M tokens của equally useful attention.
Khi Nào Vẫn Nên Dùng RAG
Bất chấp hype, context windows không làm RAG lỗi thời hôm nay. Dùng RAG khi:
- Dữ liệu thay đổi thường xuyên (RAG indexes cập nhật nhanh hơn fine-tuning)
- Bạn cần semantic search UX ("tìm tài liệu tương tự X")
- Cost là ràng buộc cứng (retrieval targeted rẻ hơn full context)
- Yêu cầu pháp lý đòi hỏi traceability trên document nào đã inform câu trả lời
Ý Nghĩa Cho Stack Của Bạn
Tooling đang đuổi kịp nhanh. Cursor, Claude Code, và GitHub Copilot đang thử nghiệm full-repo context modes. Expect IDE integrations default về "whole project" context trong 18 tháng tới.
Với founder và builder: câu hỏi đang chuyển từ *"làm sao nhét data vào context?"* sang *"làm sao thiết kế prompts và workflows dùng massive context hiệu quả?"*
Cửa sổ đã rộng hơn. Cách bạn đóng khung câu hỏi bên trong nó vẫn là phần khó.