Kỹ Thuật1 tháng 6, 2026Cập nhật: 1 tháng 6, 20265 phút đọc

Forge đưa model 8B local từ 53% lên 99% trên tác vụ agentic

Forge là một framework Python mã nguồn mở bổ sung lớp guardrail độ tin cậy cho LLM tự host, giúp model 8B local đạt 99% accuracy trên các tác vụ agentic đa bước mà không cần thay đổi model.

L

Lugon

Vibe Engineer

Chia sẻ bài viết

Forge đưa model 8B local từ 53% lên 99% trên tác vụ agentic

Bài toán độ tin cậy tích lũy

Khi bạn xếp chồng các lời gọi LLM vào một workflow agentic nhiều bước, tỷ lệ thất bại nhân lên theo cấp số nhân. Độ chính xác 90% mỗi bước nghe có vẻ ổn — nhưng ghép nối 5 bước, bạn đã có 40% khả năng thất bại trước khi trưa trà. Không có framework nào giải quyết vấn đề cơ học này. Tất cả đều được thiết kế cho cloud frontier.

Antoine Zambelli, Giám đốc AI tại Texas Instruments, phát hiện ra điều này khi xây dựng các agent home automation trên GPU giá rẻ. Anh ấy tạo ra Forge — một lớp độ tin cậy mã nguồn mở bổ sung guardrails vào tool-calling của LLM tự host. Kết quả: một model 8B nhảy từ ~53% lên ~99% trên các tác vụ agentic nhiều bước mà không cần thay đổi trọng số model.

Forge Thực Sự Làm Gì

Forge là một framework Python bao bọc các model local chạy trên Ollama, Llamafile, hoặc bất kỳ endpoint nào tương thích OpenAI. Nó thêm năm lớp guardrail độc lập:

Retry nudges — khi một bước thất bại, model nhận được một gợi ý có cấu trúc để thử lại với prompt sửa đổi. Đây là lớp có tác động lớn nhất, chiếm 24–49 điểm trong các nghiên cứu ablation.

Error recovery — xử lý sự khác biệt giữa "tool chạy và trả dữ liệu" vs. "tool chạy và không tìm thấy gì." Hầu hết hệ thống đều coi cả hai là thành công. Forge giới thiệu một class exception ToolResolutionError để model có thể thử lại thay vì âm thầm truyền rác xuống dòng.

Step enforcement — giữ các model có khả năng sequencing yếu đi đúng hướng. Ít quan trọng với frontier model, đáng kể với model local.

Rescue parsing — xử lý output function-calling bị lỗi format trên các backend local khó tính.

Context compaction — truy vấn nvidia-smi khi khởi động và tính toán ngân sách token an toàn VRAM. Cả Ollama và Llamafile đều âm thầm fallback về CPU khi VRAM hết — không cảnh báo, chỉ suy giảm 10–100x tốc độ inference. Forge ngăn chặn điều này.

Các Con Số

Được rèn giũa bằng eval harness có bằng chứng peer-reviewed qua 97 cấu hình model/backend, 18 kịch bản, 50 lần chạy mỗi kịch bản. Kết quả đã công bố:

Ministral 8B + Forge: 99.3% vs. Ministral 8B đơn thuần: ~53%
Claude Sonnet + Forge: 100%
Ministral 8B + Forge (99.3%) > Claude Sonnet đơn thuần (87.2%) — một model 8B local miễn phí với framework phù hợp đánh bại kết quả tốt nhất từ frontier API không có guardrails
Mọi model được test đều đạt 0% error recovery mà không có Forge — không phải khoảng cách năng lực, mà là thiếu sót kiến trúc

Serving backend cũng quan trọng hơn dự kiến. Cùng trọng số Mistral-Nemo 12B tạo ra 7% accuracy trên llama-server với native function calling và 83% trên Llamafile ở prompt mode. Một bước nhảy 75 điểm chỉ từ infrastructure — chưa ai công bố con số này vì benchmark tiêu chuẩn không kiểm soát được serving backend.

Tại Sao Điều Này Quan Trọng Với Builders

Nếu bạn đang chạy workflow agentic — coding assistant, home automation, data pipeline, internal tools — và đang trả tiền cho frontier API, chế độ proxy server của Forge cho phép bạn chuyển sang model local mà không cần viết lại code. Chỉ cần trỏ bất kỳ client tương thích OpenAI nào vào Forge và framework sẽ xử lý guardrails một cách trong suốt.

Demo tại ACM CAIS 2026 ở San Jose (26–29 tháng 5) trình bày toàn bộ phương pháp luận peer-reviewed và dashboard eval tương tác để bất kỳ ai cũng có thể tái tạo kết quả.

Bắt Đầu

pip install forge-ai

Hoặc clone repo và chạy eval harness trên model của bạn. Kết quả được chia sẻ trên dashboard cộng đồng.

Repo: antoinezambelli/forge (1,948 sao)
Paper: forge_ieee_preprint.pdf
Demo video: YouTube

forgellmagenticopen-sourcepythonlocal-aitool-callingguardrails

Chia sẻ bài viết

Bắt Đầu Dự Án

Sẵn sàng để chuyển đổi?

Tìm hiểu cách TeguFy có thể giúp doanh nghiệp của bạn simplify, amplify và fortify với AI, Blockchain và công nghệ tiên phong.

Yêu Cầu Tư Vấn Xem Dự Án