Bài toán độ tin cậy tích lũy
Khi bạn xếp chồng các lời gọi LLM vào một workflow agentic nhiều bước, tỷ lệ thất bại nhân lên theo cấp số nhân. Độ chính xác 90% mỗi bước nghe có vẻ ổn — nhưng ghép nối 5 bước, bạn đã có 40% khả năng thất bại trước khi trưa trà. Không có framework nào giải quyết vấn đề cơ học này. Tất cả đều được thiết kế cho cloud frontier.
Antoine Zambelli, Giám đốc AI tại Texas Instruments, phát hiện ra điều này khi xây dựng các agent home automation trên GPU giá rẻ. Anh ấy tạo ra Forge — một lớp độ tin cậy mã nguồn mở bổ sung guardrails vào tool-calling của LLM tự host. Kết quả: một model 8B nhảy từ ~53% lên ~99% trên các tác vụ agentic nhiều bước mà không cần thay đổi trọng số model.
Forge Thực Sự Làm Gì
Forge là một framework Python bao bọc các model local chạy trên Ollama, Llamafile, hoặc bất kỳ endpoint nào tương thích OpenAI. Nó thêm năm lớp guardrail độc lập:
ToolResolutionError để model có thể thử lại thay vì âm thầm truyền rác xuống dòng.nvidia-smi khi khởi động và tính toán ngân sách token an toàn VRAM. Cả Ollama và Llamafile đều âm thầm fallback về CPU khi VRAM hết — không cảnh báo, chỉ suy giảm 10–100x tốc độ inference. Forge ngăn chặn điều này.Các Con Số
Được rèn giũa bằng eval harness có bằng chứng peer-reviewed qua 97 cấu hình model/backend, 18 kịch bản, 50 lần chạy mỗi kịch bản. Kết quả đã công bố:
- Ministral 8B + Forge: 99.3% vs. Ministral 8B đơn thuần: ~53%
- Claude Sonnet + Forge: 100%
- Ministral 8B + Forge (99.3%) > Claude Sonnet đơn thuần (87.2%) — một model 8B local miễn phí với framework phù hợp đánh bại kết quả tốt nhất từ frontier API không có guardrails
- Mọi model được test đều đạt 0% error recovery mà không có Forge — không phải khoảng cách năng lực, mà là thiếu sót kiến trúc
Tại Sao Điều Này Quan Trọng Với Builders
Nếu bạn đang chạy workflow agentic — coding assistant, home automation, data pipeline, internal tools — và đang trả tiền cho frontier API, chế độ proxy server của Forge cho phép bạn chuyển sang model local mà không cần viết lại code. Chỉ cần trỏ bất kỳ client tương thích OpenAI nào vào Forge và framework sẽ xử lý guardrails một cách trong suốt.
Demo tại ACM CAIS 2026 ở San Jose (26–29 tháng 5) trình bày toàn bộ phương pháp luận peer-reviewed và dashboard eval tương tác để bất kỳ ai cũng có thể tái tạo kết quả.
Bắt Đầu
pip install forge-ai
Hoặc clone repo và chạy eval harness trên model của bạn. Kết quả được chia sẻ trên dashboard cộng đồng.
- Repo: antoinezambelli/forge (1,948 sao)
- Paper: forge_ieee_preprint.pdf
- Demo video: YouTube