DeepSeek là gì?
DeepSeek là một mô hình AI (chatbot) hoạt động tương tự như ChatGPT, giúp người dùng thực hiện các tác vụ như lập trình, tư duy logic và giải toán. Nó được vận hành bởi mô hình R1, sở hữu 670 tỷ tham số, khiến nó trở thành mô hình ngôn ngữ mã nguồn mở lớn nhất tính đến ngày 28/01/2025.
DeepSeek đã phát triển hai mô hình: v3 và R1. Trong đó, R1 vượt trội trong khả năng suy luận bằng cách tạo phản hồi từng bước, mô phỏng quá trình tư duy của con người. Cách tiếp cận này giúp giảm mức tiêu thụ bộ nhớ, khiến nó trở nên hiệu quả hơn về chi phí so với nhiều đối thủ. DeepSeek nổi bật trong các chatbot AI nhờ chi phí phát triển thấp—chỉ khoảng 6 triệu USD, thấp hơn rất nhiều so với chi phí hơn 100 triệu USD để phát triển GPT-4 của OpenAI.
Phương pháp DeepSeek sử dụng để tạo ra mô hình này vẫn chưa rõ ràng. Người sáng lập DeepSeek được cho là đã tích trữ chip Nvidia A100—loại chip đã bị cấm xuất khẩu sang Trung Quốc từ tháng 9/2022—để sử dụng trong hệ thống AI của mình. Với hơn 50.000 đơn vị A100 cùng với chip H800 kém tiên tiến nhưng rẻ hơn, DeepSeek đã tạo ra một mô hình AI mạnh mẽ với chi phí thấp hơn đáng kể.
DeepSeek có khả năng sử dụng đồng thời một phần tập tham số của mô hình, cùng với chi phí huấn luyện chỉ bằng một phần nhỏ so với các ông lớn trong ngành, giúp nó cạnh tranh với các đối thủ như ChatGPT, Google Gemini, Grok AI và Claude AI.
DeepSeek R1 đã được phát hành dưới dạng mã nguồn mở, nhưng dữ liệu huấn luyện vẫn được giữ bí mật. Điều này giúp cộng đồng kiểm chứng tuyên bố của công ty, đồng thời mở rộng khả năng nghiên cứu AI với tốc độ và chi phí thấp hơn.
Những cải tiến kiến trúc chính của DeepSeek-V2
DeepSeek-V2 mang đến một số tiến bộ kiến trúc quan trọng, bao gồm kiến trúc MoE (Mixture-of-Experts) và cơ chế MLA (Multi-head Latent Attention).
- Kiến trúc Mixture-of-Experts (MoE): MoE chỉ kích hoạt một phần tập tham số của mô hình, giúp tối ưu hóa tài nguyên tính toán. Thay vì một mạng nơ-ron khổng lồ, mô hình này bao gồm nhiều mạng nhỏ hơn (các “chuyên gia”) chuyên xử lý các phần khác nhau của đầu vào. Điều này giúp cải thiện hiệu suất tính toán đáng kể.
- Multi-head Latent Attention (MLA): MLA là một cơ chế chú ý giúp giảm đáng kể lượng bộ nhớ cần thiết. Các cơ chế chú ý truyền thống phải lưu trữ lượng lớn thông tin, trong khi MLA nén dữ liệu này thành một dạng “tiềm ẩn” nhỏ gọn hơn, giúp xử lý thông tin hiệu quả hơn.
Các mô hình AI của DeepSeek cũng cải thiện hiệu suất thông qua cơ chế học tập thử và sai, tương tự như cách con người học hỏi.
Việc cân bằng giữa sức mạnh AI và chi phí phát triển hợp lý của DeepSeek có thể sẽ tác động đến tương lai của các mô hình ngôn ngữ lớn. Nhà đầu tư nổi tiếng Marc Andreessen đã gọi sự ra mắt của DeepSeek R1 là một “khoảnh khắc Sputnik” đối với AI Mỹ, báo hiệu một thách thức lớn đối với sự thống trị của Mỹ trong lĩnh vực AI.

Ai đã phát triển DeepSeek?
DeepSeek được thành lập vào tháng 12/2023 bởi Liang Wenfeng, người đã ra mắt mô hình ngôn ngữ lớn đầu tiên vào năm 2024. Liang tốt nghiệp Đại học Chiết Giang, chuyên ngành kỹ thuật thông tin điện tử và khoa học máy tính.
Không giống nhiều doanh nhân AI đến từ Silicon Valley, Liang có nền tảng trong lĩnh vực tài chính. Ông là CEO của High-Flyer, một quỹ đầu tư phòng hộ chuyên về giao dịch định lượng, sử dụng AI để phân tích dữ liệu tài chính và đưa ra quyết định đầu tư.
Mặc dù DeepSeek là một công ty độc lập, High-Flyer vẫn là một nhà đầu tư quan trọng. DeepSeek chủ yếu tập trung vào phát triển các mô hình trí tuệ nhân tạo tiên tiến, đặc biệt là các mô hình ngôn ngữ lớn (LLMs).
Liang, được mệnh danh là “Sam Altman của Trung Quốc”, đã nhấn mạnh rằng Trung Quốc cần đổi mới thay vì chỉ sao chép AI từ phương Tây. Ông tin rằng thách thức thực sự của AI Trung Quốc là chuyển từ bắt chước sang sáng tạo, đòi hỏi tư duy độc đáo.
Tại sao DeepSeek lại được quan tâm?
DeepSeek có tiềm năng thay đổi đáng kể bối cảnh công nghệ AI và tài chính. Trong khi các công ty công nghệ Mỹ đầu tư hàng tỷ USD vào năng lượng hạt nhân để duy trì các trung tâm dữ liệu tiêu thụ điện khổng lồ, DeepSeek đạt được cùng mục tiêu với chi phí thấp hơn nhiều.
Phát triển AI tiêu tốn nguồn lực lớn—ví dụ, Meta đã đầu tư 65 tỷ USD vào công nghệ AI. CEO OpenAI, Sam Altman, cũng tuyên bố rằng ngành AI cần hàng nghìn tỷ USD để phát triển chip tiên tiến phục vụ các trung tâm dữ liệu.
DeepSeek cho thấy rằng AI có thể đạt hiệu suất cao với chi phí thấp hơn đáng kể, thách thức quan niệm rằng cần đầu tư khổng lồ để tạo ra các mô hình AI mạnh mẽ. Việc giảm chi phí có thể mở rộng ứng dụng AI trong nhiều ngành công nghiệp, nâng cao năng suất và thúc đẩy đổi mới.
DeepSeek vs. ChatGPT: So sánh hai mô hình
Mặc dù cả ChatGPT và DeepSeek đều là các mô hình AI tiên tiến, nhưng chúng phục vụ những mục đích khác nhau:
| Tiêu chí | DeepSeek | ChatGPT |
|---|---|---|
| Mục tiêu chính | Tối ưu hóa khả năng giải quyết vấn đề kỹ thuật | Đa dụng, từ trò chuyện đến sáng tạo nội dung |
| Kiến trúc | MoE giúp tăng hiệu suất tính toán | Transformer giúp tạo nội dung phong phú |
| Số tham số | 671 tỷ tham số, nhưng chỉ kích hoạt 37 tỷ mỗi truy vấn | 1,8 nghìn tỷ tham số, hoạt động đồng thời |
| Huấn luyện | 55 ngày trên 2.048 GPU H800, chi phí 5,5 triệu USD | Chi phí huấn luyện khoảng 100 triệu USD |
| Ứng dụng mạnh nhất | Giải toán, lập trình, logic | Sáng tạo nội dung, viết văn bản, hỗ trợ hội thoại |
| Chi phí sử dụng | Miễn phí với API giá rẻ | Phiên bản miễn phí có giới hạn, phiên bản trả phí đắt hơn |
ChatGPT vượt trội trong các tác vụ sáng tạo như viết lách và tạo nội dung, trong khi DeepSeek được tối ưu hóa cho các nhiệm vụ tính toán và lập trình hiệu quả hơn.
Hạn chế và chỉ trích của DeepSeek
DeepSeek, giống như các mô hình AI khác của Trung Quốc như Baidu Ernie hay ByteDance Doubao, bị kiểm duyệt nội dung chính trị. Nó từ chối trả lời các câu hỏi nhạy cảm, như sự kiện Thiên An Môn 1989, với lý do đảm bảo câu trả lời “hữu ích và vô hại”. Điều này có thể làm giảm sức hấp dẫn của DeepSeek bên ngoài Trung Quốc.

Ngoài ra, lo ngại về bảo mật dữ liệu cũng được đặt ra. Bộ trưởng Khoa học Úc, Ed Husic, đã cảnh báo về nguy cơ liên quan đến quyền riêng tư và chất lượng nội dung của DeepSeek. Chính sách quyền riêng tư của DeepSeek tập trung nhiều vào thương mại hóa, có khả năng chia sẻ dữ liệu với các đối tác quảng cáo, trong khi OpenAI có chính sách bảo vệ dữ liệu người dùng chặt chẽ hơn.
Mặc dù DeepSeek mang lại AI mạnh mẽ với chi phí thấp hơn, nhưng điều này cũng tiềm ẩn rủi ro về bảo mật, đặc biệt là khi AI trở nên dễ tiếp cận hơn đối với các tổ chức nhà nước hoặc phi nhà nước có ý đồ xấu. Việc cân bằng giữa đổi mới công nghệ và rủi ro an ninh toàn cầu vẫn là một thách thức lớn.
