Dưới đây là phân tích chi tiết về các mô hình ngôn ngữ lớn (LLM) phổ biến và mức chi phí sử dụng chúng qua API, dựa trên dữ liệu mới nhất tính đến năm 2025. Tôi tập trung vào các nhà cung cấp chính như OpenAI, Google, Anthropic, Meta (qua AWS Bedrock), và một số khác. Chi phí thường được tính theo số lượng token (input: token đầu vào, output: token đầu ra), với đơn vị phổ biến là USD per 1M token (hoặc per 1K token ở một số trường hợp). Lưu ý rằng chi phí có thể thay đổi theo khu vực, khối lượng sử dụng, hoặc các gói đăng ký (ví dụ: free tier, batch mode giảm 50%). Đối với xAI’s Grok, vui lòng truy cập https://x.ai/grok để biết chi tiết giá SuperGrok, hoặc https://x.ai/api cho dịch vụ API.
1. Các Mô Hình LLM Phổ Biến Năm 2025
Dựa trên các nguồn đánh giá, đây là một số mô hình hàng đầu theo hiệu suất, tính năng (như context window lớn, multimodal), và ứng dụng (ví dụ: coding, reasoning, generation):
- OpenAI’s GPT series: GPT-5 (flagship, mạnh về reasoning), GPT-5 mini (cân bằng chi phí/hiệu suất), GPT-4.1 (fine-tuning hỗ trợ).
- Anthropic’s Claude series: Claude 4 (tập trung an toàn, dài context), Claude 3.5/3.7 (hybrid reasoning).
- Google’s Gemini series: Gemini 2.5 Pro/Flash (multimodal, context 1M token), Gemini 2.5 Flash-Lite (nhanh, giá rẻ).
- Meta’s Llama series: Llama 4/3.3 (open-source, tùy chỉnh cao), Llama 3.1/3.2 (chat-focused).
- Mistral AI’s models: Mistral Large (cao cấp), Mixtral 8x7B (hiệu quả chi phí).
- Khác: Grok 3 (xAI, mạnh về real-time data), DeepSeek-R1 (giá rẻ, reasoning tốt).
Các mô hình này thường được phân loại thành proprietary (đóng, như GPT/Claude), open-source (miễn phí tùy chỉnh như Llama), và hybrid.
2. Mức Chi Phí Sử Dụng (Qua API)
Chi phí phụ thuộc vào input/output token, context caching (giảm giá cho dữ liệu lặp lại), và các tính năng bổ sung (như grounding với search hoặc image generation). Dưới đây là bảng tóm tắt từ các nguồn đáng tin cậy (USD, per 1M token trừ khi ghi chú khác). Lưu ý: Một số tính theo per 1K token; batch mode có thể giảm 50%; free tier thường có cho testing.
Bảng So Sánh Chi Phí (USD per 1M Token, trừ khi ghi chú)
Nhà Cung Cấp / Mô Hình | Input (per 1M) | Output (per 1M) | Cached Input (per 1M) | Ghi Chú |
---|---|---|---|---|
OpenAI (GPT-5) | 1.25 | 10.00 | 0.125 | Flagship; fine-tuning: 25.00 training. |
OpenAI (GPT-5 mini) | 0.25 | 2.00 | 0.025 | Cân bằng; realtime API: 5.00 input cho GPT-4o. |
OpenAI (GPT-5 nano) | 0.05 | 0.40 | 0.005 | Giá rẻ; image gen: 5.00-10.00 input. |
OpenAI (GPT-4.1) | 3.00 | 12.00 | 0.75 | Fine-tuning: 25.00 training. |
Google (Gemini 2.5 Pro – Multimodal) | 1.25 (prompt <=200k), 2.50 (>200k) | 10.00 (<=200k), 15.00 (>200k) | 0.31 (<=200k), 0.625 (>200k) | Free tier; grounding search: 35/1K requests sau free. |
Google (Gemini 2.5 Flash) | 0.30 (text/image/video), 1.00 (audio) | 2.50 | 0.075 (text/image/video) | Batch: 50% giảm; TTS preview: 20.00 output audio. |
Google (Gemini 2.5 Flash-Lite) | 0.10 (text/image/video), 0.30 (audio) | 0.40 | 0.025 (text/image/video) | Free tier; shared grounding limit. |
AWS Bedrock (Anthropic Claude – Ví dụ) | 8.00 per 1K input (tương đương 8,000 per 1M) | 24.00 per 1K output (24,000 per 1M) | Không chỉ định | On-demand; batch giảm 50%. |
AWS Bedrock (Meta Llama 2 Chat 70B) | 1.95 per 1K input (1,950 per 1M) | 2.56 per 1K output (2,560 per 1M) | Không chỉ định | Llama 3/4 tùy chỉnh cao; custom import: 0.0785/minute/unit. |
AWS Bedrock (Mistral Large) | 8.00 per 1K input (8,000 per 1M) | 24.00 per 1K output (24,000 per 1M) | Không chỉ định | Mistral 7B rẻ hơn: 0.15 per 1K input. |
AWS Bedrock (Cohere Command) | 1.50 per 1K input (1,500 per 1M) | 2.00 per 1K output (2,000 per 1M) | Không chỉ định | Command-Light: 0.30 per 1K input. |
Azure OpenAI | Không chỉ định cụ thể (sử dụng calculator) | Không chỉ định | Không chỉ định | Dựa trên offer; liên hệ Microsoft cho chi tiết. |
Các Yếu Tố Ảnh Hưởng Chi Phí
- Token Calculation: Input bao gồm prompt + context; output là nội dung tạo ra. 1 token ≈ 0.75 từ tiếng Anh.
- Free Tier: OpenAI/Google có free tier cho testing (ví dụ: Google grounding search free 1,500 requests/day).
- Batch/Async Mode: Giảm 50% chi phí cho xử lý không thời gian thực.
- Fine-Tuning/Custom: Thêm phí training (ví dụ: OpenAI 25.00-100.00 per 1M/training hour); AWS custom: 1.95/month storage.
- Multimodal: Audio/video/image đắt hơn (ví dụ: Google audio input 1.00-3.00 per 1M).
- So Sánh Tổng Thể: Google và OpenAI mini/nano thường rẻ nhất cho volume cao; Claude/Mistral đắt hơn nhưng mạnh về an toàn/reasoning. Llama open-source miễn phí nếu self-host, nhưng API qua AWS có phí.
3. Lời Khuyên Khi Sử Dụng
- Chọn Mô Hình: Dùng mini/nano cho tác vụ đơn giản để tiết kiệm; flagship cho reasoning phức tạp.
- Tối Ưu Hóa: Sử dụng caching để giảm input lặp; prompt ngắn gọn để tiết kiệm token.
- Cập Nhật: Giá có thể thay đổi; kiểm tra trực tiếp từ nhà cung cấp (ví dụ: OpenAI pricing calculator).
- Open-Source: Llama/Mistral miễn phí nếu deploy tự, nhưng cần chi phí server (AWS/GCP: ~0.10-1.00/hour tùy GPU).