Các AI dùng trong kiến thức phổ thông ở VN & Đánh giá so sánh _ Google Groups

68 views

AIGoogle-Bing

Skip to first unread message

Mikali Nguyễn

unread,

Oct 4, 2025, 7:25:27 PM10/4/25

to Alphons...@googlegroups.com, Giaitri...@googlegroups.com

Các AI dùng trong kiến thức phổ thông ở VN & Đánh giá so sánh

Tập 1. Các con AI thông dụng ở VN & So sánh các thông tin cơ bản

AI đã trở nên vấn đề hot: chi phối sâu trong đời sống chúng ta ở hầu hết các lĩnh vực, các hội nghị hội thảo hầu hết đều bàn đến AI...

👉 Ở bài này sẽ liệt kê 6 con AI thông dụng, miễn phí ở VN và các chi tiết cơ bản: Của ai? phiên bản miễn phí mới nhất đang sử dụng là gì (tháng 10/2025)? Phiên bản mới này ra đời lúc nào? Nó sử dụng dữ liệu nguồn và thông tin từ đâu? Có cập nhật thông tin bám sát theo thời gian thực hay không? Có sử dụng thông tin từ các google groups không? ...Thông tin này do chính các con AI này khai báo.

👉 So sánh về 1 số chỉ tiêu nói trên giữa các con AI

Ở đây chỉ liệt kê các con AI miễn phí sử dụng trong kiến thức phổ thông, không đề cập các con AI có phí và chuyên sâu trong nhiều lĩnh vực khác nhau. Còn nhiều các con AI khác cung cấp kiến thức phổ thông như: Perplexity, Poe (của Quora)...nhưng ít thông dụng tại VN.

I. Các con AI thông dụng ở VN

1. ChatGPT-5

👉 Của OpenAI (Mỹ), ra mắt từ 7/8/2025

👉 Sử dụng dữ liệu kiến thức nền tảng từ Internet công khai, dữ liệu được cấp phép, cộng với dữ liệu do con người gán nhãn (RLHF). Có sử dụng dữ liệu từ các google groups được chia sẻ công khai trên web.

👉 Chế độ cập nhật thông tin: kiến thức nền (training data) được cập nhật đến tháng 6/2024. Nhưng có hỗ trợ thông tin cập nhật thông qua tìm kiếm web thời gian thực.

- Không tra web → kiến thức tới 6/2024 (dữ liệu nền).

- Có bật chế độ tra web → bám sát thời gian thực

2. Gemini 2.5 Pro

👉 Của Google (Mỹ) triển khai từ giữa năm 2025.

👉 Sử dụng 1 phần lớn dữ liệu từ Internet công cộng, web, sách, code, dữ liệu hình ảnh/âm thanh/video và kho dữ liệu Google có bản quyền như Google Search (Tìm kiếm), YouTube và nhiều nguồn khác. Có sử dụng dữ liệu từ các google groups.

👉 Thời điểm cập nhật kiến thức nền gần nhất cho Gemini 2.5 Pro là vào khoảng đầu năm 2025 nhưng có cập nhật thông tin bám sát thời gian thực

3. Grok 3

👉 Của xAI (công ty AI do Elon Musk sáng lập), được phát hành vào ngày 17/2/2025.

👉 Sử dụng dữ liệu nguồn từ internet và dữ liệu thời gian thực từ 𝕏 (X, trước đây là Twitter). Không công bố số Token (đơn vị đo lường dữ liệu). Không xác nhận có sử dụng dữ liệu trực tiếp từ các google groups để huấn luyện hoặc xử lý.

👉 Thời điểm cập nhật thông tin
- Kiến thức nền và dữ liệu đã được huấn luyện: tính đến khoảng tháng 11/2024.
- Nếu kích hoạt DeepSearch mode (chỉ khả dụng qua nút DeepSearch trên giao diện), Grok sẽ tìm kiếm và phân tích thông tin cập nhật trên web

4. Claude Sonnet 4:

👉 Của Anthropic (Mỹ), ra mắt vào 29/9/2025.

👉 Sử dụng dữ liệu nguồn từ internet , dữ liệu mua bản quyền, dữ liệu do con người tạo/gán nhãn(không công bố chi tiết). Không xác nhận có sử dụng thông tin từ các google groups.

👉 Kiến thức nền được cập nhật đến cuối tháng 1/2025. Tuy nhiên có thể sử dụng công cụ tìm kiếm web để tra cứu thông tin mới nhất khi cần thiết.

5. DeepSeek

👉 Của Công ty Deep Seek (TQ), ra mắt từ tháng 11 /2023.

👉 Sử dụng dữ liệu nguồn từ internet (không công bố chi tiết). Không xác nhận có sử dụng thông tin từ các google groups.

👉 Kiến thức nền cập nhật đến tháng 7/2024. Không có khả năng truy cập theo thời gian thực.

6. Copilot

👉 Của Microsoft (Mỹ), ra mắt từ cuối năm 2023.

👉 Sử dụng dữ liệu nguồn từ internet và mã nguồn công khai trên GitHub. Không công bố số Token). Có lấy thông tin từ google groups có nội dung công khai và được lập chỉ mục trên web

👉 Kiến thức nền được huấn luyện đến khoảng cuối 2023, nhưng có thể tra cứu theo thời gian thực để cập nhật.

II. So sánh các thông tin cơ bản

1. Kho dữ liệu đồ sộ ước lượng:

Qua tự khai báo của các con AI, ta thấy con nào cũng được huấn luyện và thu thập dữ liệu (crawl) trên Internet. Nhưng Gemini, có kho dữ liệu dựa trên nền tảng hệ sinh thái đa dạng của Google: Google Search, Youtube, Google Groups.... Grog 3, có sử dụng thêm dữ liệu công khai trên nền tảng X (Twitter). Copiot dựa trên hệ sinh thái của Microsoft Edge, Bing, GitHub...

Tóm lại:

👉 Nhóm khủng, siêu lớn (với hàng nghìn tỷ token): Google Gemini (lớn nhất), OpenAI GPT-4, Claude, DeepSeek.
👉 Nhóm lớn vừa (với hàng trăm, nghìn tỷ tokens, nhưng chưa rõ chi tiết): Grok
👉 Nhóm nhỏ: Copilot có quy mô nhỏ hơn, nhưng chuyên sâu về code, không đa lĩnh vực.

2. Mức độ thân thiện, có sử dụng dữ liệu của Google Groups:
AI có thể đã học từ Google Groups công khai, nhưng chưa hãng nào công khai xác nhận. Các công ty AI thường tránh nói đích danh từng nguồn để giảm rủi ro pháp lý.
👉 Nhưng do Google sở hữu cả Google Groups và công cụ tìm kiếm, khả năng Gemini có mức bao phủ dữ liệu từ Google Groups cao hơn so với các AI khác
👉 Các AI khác như ChatGPT và Copilot cho biết có lấy thông tin từ google groups có nội dung công khai, được Google đăng lên mạng chung (EG và AF là công khai)

3. Cập nhật kiến thức theo thời gian thực

Ta phân biệt giữa theo chỉ tiêu:

👉 Thời điểm cập nhật kiến thức nền (được huấn luyện): kiến thức chung về thế giới, khoa học, lịch sử, văn hóa, v.v.

👉 Khả năng truy tìm thông tin cập nhật theo thời gian thực: các tin tức mới nhất được cung cấp vào thời điểm truy cập.

3.1. Thời điểm cập nhật kiến thức nền

Dưới đây là danh sách cập nhật (từ mới → cũ)

1. DeepSeek (phiên bản miễn phí) — 01/07/2024 (knowledge cutoff)

2. ChatGPT (GPT-5) — 06/2024

3. Copilot (Microsoft) — 06/2024

4. Gemini (Google DeepMind) — Q1–Q2/2024 (ước tính)

5. Grok (xAI) — Giữa 2024 (ước tính)

6. Claude (Anthropic) — 04/2024

3.2. Khả năng truy tìm thông tin cập nhật theo thời gian thực:

Tự động hay phải bật chế độ truy cập

👉 ChatGPT (OpenAI): Có truy cập web thời gian thực. Hệ thống tự bật khi cần hoặc người dùng bật thủ công.
👉 Claude (Anthropic): Có thể truy cập web, nhưng phải bật thủ công hoặc dùng bản có hỗ trợ (Claude Pro+).
👉 Gemini (Google): Có chế độ truy cập web “live browsing”, thường bật mặc định ở bản nâng cao (Ultra / Agent Mode).
👉 Copilot (Microsoft): Có truy cập web tự động khi cần, đặc biệt trong Bing hoặc Office.
👉 Grok (xAI): Có khả năng truy cập web, thường kết nối với dữ liệu X (Twitter), nhưng không phải lúc nào cũng bật.
👉DeepSeek: Có thể truy cập web, chưa chắc bật mặc định, và tùy phiên bản (bản miễn phí thường giới hạn).

➡️ Tóm lại: chỉ ChatGPT, Gemini, Copilot là có truy cập web tự động ổn định; còn Claude, Grok, DeepSeek thì cần bật hoặc chỉ có trong bản đặc biệt.

Mikali Nguyễn

unread,

Oct 5, 2025, 8:29:02 PM10/5/25

to Alphons...@googlegroups.com, Giaitri...@googlegroups.com

Tập 2. So sánh chất lượng của các con AI

1. Thước đo chất lượng: Bảng xếp hạng lớn và Benchmark

Để đánh giá chất lượng về độ chính xác của các AI, người ta dựa vào Bảng xếp hạng lớn và dùng các benchmark.

1.1. Các Bảng xếp hạng lớn:

Một trong những thước đo uy tín để đánh giá hiệu suất tổng thể của các chatbot là Chatbot Arena Leaderboard do LMSys tổ chức, dựa trên bình chọn ẩn danh của hàng chục nghìn người dùng.

👉 Theo các kết quả gần đây, các phiên bản cao cấp nhất của Claude (Claude 4), Gemini (Gemini 2.5 Pro) và ChatGPT (GPT-4o) thường xuyên chiếm giữ các vị trí dẫn đầu, cho thấy chúng được người dùng đánh giá cao về khả năng cung cấp câu trả lời hữu ích và chính xác.
👉 Claude 4 và Gemini 2.5 Pro thường được xếp hạng rất cao, thể hiện khả năng suy luận và cung cấp thông tin chi tiết, có chiều sâu.
👉 ChatGPT-4o cũng là một đối thủ đáng gờm, luôn bám sát và đôi khi vượt lên dẫn đầu, nổi bật với sự linh hoạt và sáng tạo trong câu trả lời.
👉 DeepSeek và Grok cũng xuất hiện trên các bảng xếp hạng này nhưng thường ở các vị trí thấp hơn một chút so với bộ ba dẫn đầu khi xét về hiệu suất tổng thể. Copilot, do được tích hợp sâu vào các sản phẩm của Microsoft, ít khi xuất hiện trên các bảng xếp hạng công khai so sánh trực tiếp về kiến thức phổ thông tổng quát, mà thường được đánh giá trong bối cảnh hỗ trợ công việc và lập trình.

1.2. Benchmark
Trong trí tuệ nhân tạo (AI), benchmark là một tập hợp các bài kiểm tra tiêu chuẩn— thường là câu hỏi, tác vụ, hoặc dữ liệu — được dùng để đo xem mô hình AI nào “hiểu”, “lý luận”, hoặc “trả lời đúng” tốt hơn.

Khi nói “benchmark so sánh giữa các con AI tức là các nhà nghiên cứu cho các mô hình AI này cùng làm một bộ bài kiểm tra chuẩn giống nhau, rồi so sánh:
- Mô hình nào trả lời đúng nhiều hơn,
- Mô hình nào lý luận chính xác hơn,
- Mô hình nào bị lỗi hoặc bịa ít hơn.

Benchmark có 3 loại chính:
👉 MMLU (Massive Multitask Language Understanding): Đây là một trong những bài kiểm tra toàn diện nhất về kiến thức phổ thông, bao gồm 57 chủ đề từ toán, lý, hóa đến lịch sử, luật pháp và đạo đức. Trong các bài kiểm tra MMLU, các mô hình hàng đầu như Grok, Gemini 2.5 Pro, và Claude 4 thường đạt điểm số rất cao, cho thấy nền tảng kiến thức rộng lớn và khả năng hiểu đa dạng các lĩnh vực của chúng. ChatGPT-4o cũng thể hiện rất tốt ở benchmark này.
👉 TruthfulQA: Benchmark này được thiết kế để đo lường khả năng của AI trong việc trả lời các câu hỏi một cách trung thực và tránh đưa ra những thông tin sai lệch phổ biến. Claude thường được đánh giá cao trong các bài kiểm tra về tính trung thực và an toàn, nhờ vào việc được huấn luyện để giảm thiểu "ảo giác" (hallucination) và cung cấp các câu trả lời có trách nhiệm. Gemini, với khả năng truy cập và kiểm chứng thông tin từ Google Search, cũng có lợi thế trong việc cung cấp các câu trả lời chính xác và được kiểm chứng.
👉 DROP (Discrete Reasoning Over Paragraphs): Bài kiểm tra này đánh giá khả năng suy luận dựa trên việc đọc hiểu một đoạn văn bản. Các mô hình như Claude và Gemini thường thể hiện tốt ở các tác vụ đòi hỏi sự hiểu sâu và suy luận phức tạp từ thông tin được cung cấp.

3. Điểm mạnh và điểm yếu của từng AI

AI	Điểm mạnh nổi bật về kiến thức phổ thông	Điểm cần lưu ý
ChatGPT (GPT-4o)	- Linh hoạt và toàn diện: Có khả năng trả lời tốt trên một loạt các chủ đề. - Sáng tạo: Thường đưa ra các câu trả lời dễ hiểu, có cấu trúc tốt và sáng tạo.	- Kiến thức bị giới hạn bởi thời gian huấn luyện: Mặc dù có khả năng duyệt web, nhưng câu trả lời đôi khi có thể không cập nhật bằng các mô hình có tích hợp tìm kiếm thời gian thực sâu hơn.
Gemini (Advanced)	- Tích hợp sâu với Google Search: Cung cấp thông tin cập nhật và có khả năng kiểm chứng cao. - Đa phương thức: Hiểu và xử lý thông tin từ nhiều định dạng khác nhau (văn bản, hình ảnh, video), giúp làm giàu kiến thức.	- Câu trả lời đôi khi có thể hơi khô khan và tập trung vào dữ kiện hơn là diễn giải sâu.
Claude (Claude 4)	- Độ chính xác và trung thực cao: Được huấn luyện để giảm thiểu thông tin sai lệch và đưa ra các câu trả lời cẩn trọng. - Khả năng phân tích sâu: Rất mạnh trong việc xử lý và tóm tắt các văn bản dài, phức tạp để trích xuất kiến thức.	- Kiến thức cũng bị giới hạn bởi dữ liệu huấn luyện và không phải lúc nào cũng có thông tin mới nhất.
Grok (Grok-3)	- Truy cập thông tin thời gian thực: Được kết nối trực tiếp với nền tảng X (Twitter), cung cấp kiến thức về các sự kiện mới nhất. - Khả năng suy luận mạnh mẽ: Thường đạt điểm cao trong các benchmark về suy luận logic và toán học.	- Phong cách trả lời có thể mang tính cá nhân và đôi khi "hài hước", có thể không phù hợp với mọi ngữ cảnh.
DeepSeek	- Mạnh về lĩnh vực kỹ thuật và lập trình: Cung cấp kiến thức chuyên sâu và chính xác trong các lĩnh vực khoa học, công nghệ và code. - Hiệu suất tốt với chi phí hợp lý: Là một lựa chọn mã nguồn mở mạnh mẽ.	- Kiến thức phổ thông tổng quát có thể không rộng bằng các đối thủ hàng đầu như Gemini hay ChatGPT.
Copilot	- Tích hợp trong hệ sinh thái Microsoft: Cung cấp kiến thức ngữ cảnh trong các ứng dụng như Word, Excel, Teams. - Hỗ trợ công việc hiệu quả: Giỏi trong việc cung cấp thông tin liên quan đến công việc và năng suất.	- Khả năng cung cấp kiến thức phổ thông ngoài bối cảnh công việc có thể không được tối ưu bằng các chatbot chuyên dụng.

Kết Luận
Không có một câu trả lời duy nhất cho câu hỏi "AI nào chính xác nhất". Việc lựa chọn phụ thuộc vào nhu cầu cụ thể của người dùng:
👉 Để có câu trả lời toàn diện, cập nhật và được kiểm chứng: Gemini là một lựa chọn hàng đầu.
👉 Để có câu trả lời chi tiết, đáng tin cậy và có khả năng phân tích sâu: Claude là một ứng cử viên sáng giá.
👉 Để có sự linh hoạt, sáng tạo và hiệu suất tốt trên nhiều lĩnh vực: ChatGPT vẫn là một thế lực đáng gờm.
👉 Để cập nhật thông tin thời gian thực và các chủ đề nóng: Grok mang lại một lợi thế độc đáo.
👉 Đối với các kiến thức chuyên sâu về kỹ thuật và lập trình: DeepSeek là một lựa chọn mạnh mẽ.
👉 Để hỗ trợ kiến thức trong công việc và các ứng dụng văn phòng: Copilot là công cụ được tối ưu hóa tốt nhất.

Nhìn chung, cuộc cạnh tranh giữa các mô hình AI đang thúc đẩy sự cải tiến liên tục, và mức độ chính xác về kiến thức phổ thông của chúng ngày càng được nâng cao. Người dùng nên tự mình trải nghiệm và đối chiếu thông tin từ nhiều nguồn để có được kết quả tốt nhất.

4. Bảng so sánh điểm Benchmark các mô hình AI hàng đầu

Dưới đây là điểm số trên các bài kiểm tra (benchmark) tiêu chuẩn, đo lường các khía cạnh khác nhau của trí tuệ nhân tạo.

Benchmark (Bài kiểm tra)	GPT-4o (OpenAI)	Gemini 2.5 Pro (Google)	Claude 4 Opus (Anthropic)	DeepSeek-V2 (DeepSeek)	Grok-3 (xAI)	Lĩnh vực đánh giá
MMLU (Kiến thức phổ thông)	~88.7%	~86.1%	88.8%	78.5%	~80.0%	Hiểu biết đa lĩnh vực ở cấp độ chuyên gia (từ vật lý, luật đến lịch sử).
GPQA Diamond (Suy luận cấp cao)	70.1%	83.0%	83.3%	68.4%	84.6%	Khả năng trả lời các câu hỏi cực khó do các chuyên gia cấp tiến sĩ biên soạn.
GSM8K (Toán học cấp 2)	~90%	~91%	~91%	92.2%	~93.0% (AIME)¹	Khả năng suy luận toán học đa bước.
HumanEval (Viết mã Python)	~88.4%	~84%	~84.9%	81.1% (RL)	~79.4% (LCB)²	Khả năng tạo ra code Python chính xác từ mô tả.
SWE-Bench (Kỹ thuật phần mềm)	~30.8%	53.6%	~79.4%	~66.0% (V3)	N/A	Khả năng giải quyết các vấn đề thực tế trên GitHub (đòi hỏi sự phức tạp cao).

5. Phân tích chi tiết từng mô hình

Claude 4 Opus (Anthropic)
Điểm mạnh: Thường xuyên dẫn đầu trong các bài kiểm tra về kiến thức sâu rộng (MMLU) và kỹ thuật phần mềm phức tạp (SWE-Bench). Claude 4 được thiết kế để xử lý các tác vụ đòi hỏi sự suy luận sâu, hiểu ngữ cảnh phức tạp và giảm thiểu việc "ảo giác" (đưa thông tin sai). Đây là lựa chọn hàng đầu cho các công việc phân tích tài liệu dài và giải quyết vấn đề trong thực tế.
Vị thế: Nhà vô địch về kiến thức chuyên sâu và độ tin cậy.

Grok-3 (xAI)
Điểm mạnh: Vượt trội trong các bài kiểm tra suy luận cấp cao (GPQA) và toán học ở cấp độ thi đấu (AIME). Grok được thiết kế để trở thành một "đại lý suy luận" (reasoning agent), có khả năng giải quyết các vấn đề đa bước phức tạp. Lợi thế của Grok là được cập nhật thông tin thời gian thực từ mạng xã hội X.
Vị thế: Bậc thầy về suy luận logic và toán học.

DeepSeek-V2
Điểm mạnh: Gây ấn tượng mạnh mẽ ở lĩnh vực toán học (GSM8K) và lập trình (HumanEval), đặc biệt là phiên bản đã qua tinh chỉnh (RL - Reinforcement Learning). DeepSeek là một dự án có thiên hướng mã nguồn mở, cho thấy sự cạnh tranh đáng gờm với các mô hình độc quyền, đặc biệt trong các lĩnh vực kỹ thuật.
Vị thế: Ngôi sao đang lên trong lĩnh vực lập trình và toán học.

Gemini 2.5 Pro (Google)

Điểm mạnh: Thể hiện hiệu năng rất cân bằng và mạnh mẽ trên nhiều lĩnh vực, đặc biệt là suy luận cấp cao (GPQA). Với hệ sinh thái của Google, Gemini có lợi thế về khả năng tích hợp tìm kiếm và xử lý thông tin đa phương thức (hình ảnh, video, âm thanh), giúp nó có nền tảng kiến thức rộng và cập nhật.
Vị thế: Mô hình toàn diện và linh hoạt.

ChatGPT-4o (OpenAI)

Điểm mạnh: Mặc dù không luôn đứng đầu trong mọi benchmark, GPT-4o vẫn là một trong những mô hình mạnh nhất với hiệu năng tổng thể xuất sắc, đặc biệt về lập trình (HumanEval) và kiến thức chung (MMLU). Sức mạnh lớn nhất của ChatGPT nằm ở sự phổ biến, giao diện thân thiện và hệ sinh thái API, plugin khổng lồ.
Vị thế: Kẻ dẫn đầu thị trường với hiệu năng toàn diện và ổn định.

Kết Luận
Dựa trên điểm benchmark, cuộc đua AI hiện tại không có người chiến thắng tuyệt đối. Thay vào đó, mỗi mô hình đều có những thế mạnh riêng:
👉 Nếu bạn cần độ chính xác cao, kiến thức sâu và khả năng phân tích phức tạp, Claude 4 Opus là lựa chọn hàng đầu.
👉 Nếu bạn cần giải quyết các bài toán suy luận logic, khoa học và toán học khó, Grok-3 đang tỏ ra vượt trội.
👉 Nếu bạn tập trung vào lập trình và các tác vụ kỹ thuật, DeepSeek-V2 là một đối thủ cực kỳ đáng gờm.
👉 Nếu bạn cần một mô hình toàn diện, cập nhật và xử lý tốt nhiều loại thông tin, Gemini 2.5 Pro là một sự lựa chọn tuyệt vời.
👉 Nếu bạn cần một công cụ linh hoạt, dễ sử dụng và có hệ sinh thái mạnh mẽ, ChatGPT-4o vẫn là tiêu chuẩn vàng.