Từ trước đến nay, hầu hết các hệ thống AI như ChatGPT đều chạy trên GPU NVIDIA – vốn là "tiêu chuẩn vàng" cho cả huấn luyện và inference (suy luận đầu ra). Tuy nhiên, việc phụ thuộc quá nhiều vào một nhà cung cấp duy nhất khiến OpenAI chịu áp lực lớn về chi phí và khả năng mở rộng.
TPU (Tensor Processing Unit) – con chip AI do Google thiết kế – đang được OpenAI cân nhắc như một lựa chọn thay thế hoặc bổ sung nhằm:

Tối ưu chi phí vận hành, đặc biệt là giai đoạn inference – vốn chiếm phần lớn tài nguyên khi sản phẩm AI đã đi vào hoạt động.
Giảm sự phụ thuộc vào NVIDIA – khi nguồn cung GPU trở nên ngày càng khan hiếm.
Đáp ứng các yêu cầu về bảo mật và tính riêng tư khi triển khai trên quy mô lớn.
GPU (Graphics Processing Unit): Linh hoạt, phổ biến, mạnh trong xử lý đa tác vụ và được dùng rộng rãi trong nhiều ứng dụng AI.
TPU (Tensor Processing Unit): Tối ưu chuyên sâu cho AI, đặc biệt với các mô hình học sâu như transformer – nền tảng của ChatGPT.
Việc sử dụng TPU giúp tiết kiệm điện năng hơn và có thể xử lý một số tác vụ AI nhanh hơn, nhưng đổi lại, việc chuyển mô hình sang TPU cần thời gian để tối ưu và huấn luyện lại hạ tầng phần mềm.
Nếu huấn luyện mô hình là giai đoạn khởi đầu, thì inference là quá trình “duy trì cuộc sống” cho AI khi phục vụ hàng triệu người dùng mỗi ngày. Và chi phí inference đang tăng không ngừng:
Với hàng tỷ lượt truy cập ChatGPT hàng tháng, OpenAI phải duy trì hệ thống tính toán cực kỳ mạnh mẽ, tiêu tốn lượng điện và tài nguyên khổng lồ.
Việc kiểm soát chi phí inference trở thành yếu tố sống còn để duy trì tính cạnh tranh và thương mại hóa AI trên quy mô toàn cầu.
Việc OpenAI thử nghiệm TPU không chỉ đơn thuần là thay đổi phần cứng – mà là một bước đi chiến lược trong bối cảnh ngành AI đang bước vào giai đoạn tăng trưởng nhanh nhưng đầy thách thức. Khi chi phí inference tiếp tục leo thang, những công nghệ thay thế như TPU có thể trở thành “vũ khí bí mật” để AI tiếp cận được nhiều người dùng hơn với chi phí hợp lý.