Quyết định tự build server GPU
Năm 2024, một kỹ sư FAANG nghỉ việc để trở thành nhà nghiên cứu độc lập. Câu hỏi đầu tiên: compute đâu. Thuê GPU cloud tiện lợi, nhưng bài toán trở nên thú vị khi bạn cần GPU hours liên tục và nặng.
Họ build "grumbl" — server 6x RTX 6000 Ada trị giá $48K. Số tiền lớn, nhưng đặt cạnh chi phí cơ hội khi rời mức lương FAANG, thì chỉ cần GPU mạnh hơn giúp research nhanh hơn được vài tháng cũng đã đáng.
Vì sao chọn RTX 6000 Ada thay vì H100 hay A100
Lựa chọn thu hẹp: A100, H100, hoặc RTX 6000 Ada. Tim Dettmers' GPU guide là điểm bắt đầu.
- A100: không hỗ trợ FP8, inference chậm hơn các GPU mới hơn — loại.
- H100: hiệu năng cao nhất, nhưng tỉ lệ giá/throughput quá cao.
- RTX 6000 Ada: hỗ trợ FP8 tốt, tỉ lệ giá/throughput hợp lý, phù hợp giới hạn điện của căn hộ.
Irony: sau khi thiết kế cả build quanh giới hạn căn hộ, cuối cùng server lại chuyển xuống tầng hầm nhà bố mẹ, nơi có thể nâng cấp mạch điện.
Toán Cloud vs. Tự sở hữu
Ở mức giá on-demand 2024, hòa vốn server $48K yêu cầu ~85%+ utilization liên tục trong khoảng một năm — giả định bạn có thể stop/start từng GPU độc lập.
Để có số thực, một script ghi log từng phút sử dụng GPU và công suất điện (watt) xuyên suốt năm.
Lưu ý phương pháp: "usage" nghĩa là GPU có hoạt động trong một giờ, không phải utilization %. So sánh cloud rental tính mỗi GPU độc lập — khá hào phóng cho cloud, vì trong thực tế khoảng nghỉ ngắn giữa các experiment runs không ai stop/start cloud server.
Kết quả: Dữ liệu GPU usage một năm
Năm đó tạo ra một biểu đồ utilization với ba lần downtime bảo trì đáng chú ý — mỗi lần đều căng thẳng vì phân biệt một PCIe riser lỗi đơn lẻ với damage nghiêm trọng toàn bộ phần cứng đều tốn cùng effort ban đầu.
Trước tháng 6/2025, các experiment nhỏ hơn khiến dev time ngang experiment time, nhiều khoảng nghỉ giữa các runs hơn. Sau tháng 6/2025, một project cần compute nhiều hơn giữ 4–5 GPU chạy liên tục hầu hết các ngày.
Tóm lại từ phân tích của tác giả: toán cloud rental rất sít sao — tự sở hữu chỉ có lý khi utilization thực sự trên ~85%. Với researcher solo có workload thay đổi, cloud là lựa chọn thực tế hơn — trừ khi bạn đánh giá cao việc sở hữu hardware vì lý do ngoài kinh tế đơn thuần.
Chi phí ẩn ít ai nói
Ngoài con số $48K:
- Điện: đáng kể khi full load. Script ghi log đã theo dõi.
- Downtime bảo trì: ba lần trong năm đầu. Hardware có thể hỏng.
- Chi phí cơ hội của việc tự build: vài tuần setup vs. chỉ cần spin up cloud instance.
- Giá trị bán lại: GPU mất giá nhanh khi kiến trúc mới ra mắt.
Ý nghĩa cho Technical Founders
Nếu bạn đang build sản phẩm AI và đánh giá hạ tầng compute, quyết định build vs. rent phụ thuộc nhiều vào pattern utilization thực tế và timeline project. Đội ngũ làm training liên tục thì custom hardware có toán kinh tế rõ ràng hơn. Dev sản phẩm với workload thay đổi, cloud cho flexibility scale up/down.
Con số $48K là có thật, nhưng gánh nặng bảo trì cũng vậy. Biết utilization trước khi commit.
Credit
- Bài gốc: Was my $48K GPU server worth it?
- Tác giả gốc: apwheele
- Nguồn: Rosmine ML Blog
- Viết lại bởi: Lugon (TeguFy)