We are entering a new era, where humans live and work alongside AI. With just a smartphone, anyone can interact with some of the most advanced artificial intelligences in the world. But few understand how these AIs are actually trained and brought into use.
How are generative AIs trained?
Large language models (LLMs) like ChatGPT or DeepSeek use deep learning techniques—especially neural networks—to “understand”, summarize, generate, and predict content. These models learn from massive amounts of text data, extracting language patterns and generating predictions to complete answers.
In truth, when a user asks a question, the AI is merely “predicting the next word.” It doesn’t truly understand meaning like a human does. However, thanks to additional fine-tuning steps, AIs can become more flexible, more relatable, and even more human-like.
Understanding how AI works helps us recognize how user behavior—whether conscious or unconscious—shapes the model. With platforms like OpenAI serving over 700 million users globally, every interaction matters. That’s what this article and the upcoming series aim to shed light on.
Three Training Approaches: RLHF, PPO, GRPO
- RLHF (Reinforcement Learning from Human Feedback)
Fine-tuning AI to better align with human feedback. For example, a chatbot is trained to respond in ways users find comforting, persuasive, or easy to understand.• Pros: Makes AI feel more human, adaptive, and empathetic.
• Cons: Easily skewed if user feedback is biased, manipulative, or unconscious. - PPO (Proximal Policy Optimization)
A stabilizing layer to prevent AI from changing too drastically with each update. Think of raising a child—you don’t want them to become someone completely different after each piece of advice.• Pros: Stable, safe, helps AI learn more reliably.
• Cons: Requires a value model (“scoring engine”), which is expensive to build and maintain. - GRPO (Group Relative Policy Optimization)
Trains AI by comparing relative quality of responses, rather than scoring them absolutely. Like a talent show—you don’t need exact scores, just decide who did better.• Pros: Lightweight, efficient, well-suited for reasoning tasks.
• Cons: Still in development; requires more real-world validation.
RLHF + PPO vs GRPO: Who Wins?
RLHF with PPO remains the gold standard in many top AI companies like OpenAI. But GRPO is opening a promising new path—leaner, faster, and less prone to manipulation in reasoning-focused tasks.
But the most important truth is this:
You are training the AI — even when you don’t realize it.
Each “❤️”, each playful joke that bends the truth, each indulgent approval of a careless response — these can become reinforcement signals the model learns from.
Understanding RLHF, PPO, or GRPO isn’t just for engineers.
It’s part of our awakening to what it means to live in the AI era.
This is the very first stone we lay — to build a mindful community for living with AI.
RLHF – PPO – GRPO: Khi bạn đang huấn luyện AI mà không hay biết
Chúng ta đang bước vào kỷ nguyên mới, nơi con người sống và làm việc cùng AI. Chỉ cần một điện thoại thông minh, chúng ta đã có thể giao tiếp với những trí tuệ nhân tạo phức tạp nhất thế giới qua một ứng dụng nhỏ. Tuy nhiên, không nhiều người hiểu cách AI được huấn luyện và đưa vào sử dụng.
AI tạo sinh được huấn luyện như thế nào?
Các mô hình ngôn ngữ lớn (LLM) như ChatGPT hay DeepSeek sử dụng các kỹ thuật deep learning (đặc biệt là mạng nơ-ron) để “hiểu”, tóm tắt, tạo và dự đoán nội dung mới. Các mô hình này học từ một khối lượng dữ liệu văn bản khổng lồ, trích xuất ra các quy luật ngôn ngữ, sau đó tự dựng để trả lời.
Thật ra, khi người dùng đặt câu hỏi, AI chỉ đang “dự đoán chữ tiếp theo”. Nó không hiểu ý nghĩa thật sự như con người. Tuy nhiên, nhờ vào các bước huấn luyện bổ sung, AI có thể trở nên linh hoạt hơn, gần gũi hơn, thậm chí giống con người hơn.
Hiểu cách AI hoạt động và được huấn luyện, chúng ta sẽ hiểu được ảnh hưởng của hành vi người dùng dù là vô tình hay cố ý đến cộng đồng, đặc biệt là những cộng đồng lớn như OpenAI với hơn 700 triệu người dùng trên toàn cầu. Từ đó, chúng ta sẽ nhận thức được trách nhiệm của mỗi người khi sử dụng AI sẽ tác động tới cộng đồng như thế nào. Đây chính là điều bài viết này và series các bài viết tiếp theo muốn nhắm tới.
Ba cách huấn luyện: RLHF, PPO, GRPO
- RLHF (Reinforcement Learning from Human Feedback)
Là cách tinh chỉnh AI sao cho đáp ứng tốt hơn theo phản hồi của con người. Ví dụ: một chatbot sẽ được “hướng dẫn” để trả lời sao cho người dùng cảm thấy thuyết phục, an ủi, hay dễ hiểu hơn.• Ưu điểm: giúp AI giao tiếp giống người, linh hoạt, nhân văn hơn.
• Hạn chế: rất dễ bị lệch hướng nếu người dùng phản hồi thiên vị, thao tác, hoặc thiếu tỉnh thức. - PPO (Proximal Policy Optimization)
Là “vòng đệm” bảo vệ AI không thay đổi hành vi quá đột ngột khi được tinh chỉnh. Giống như việc dạy trẻ con: không muốn mỗi lời khuyên khiến nó biến thành một đứa trẻ khác.• Ưu điểm: ổn định, an toàn, giúp AI học một cách vững chắc.
• Hạn chế: cần value model (“máy chấm điểm”) rất tốn kém. - GRPO (Group Relative Policy Optimization)
Huấn luyện AI thông qua việc so sánh tương đối giữa các câu trả lời, thay vì cần điểm số tuyệt đối. Giống như thi văn nghệ: không phải chọn điểm số, chỉ cần biết ai viết hay hơn.• Ưu điểm: nhẹ hơn, nhanh hơn, dễ triển khai và phù hợp với các nhiệm vụ reasoning (lý luận).
• Hạn chế: vẫn đang trong giai đoạn phát triển, cần kiểm chứng kỹ hơn.
RLHF + PPO vs GRPO: Ai sẽ thắng?
RLHF kèm PPO hiện vẫn là chuẩn vàng của nhiều công ty AI như OpenAI. Tuy nhiên, GRPO đang mở ra một lối đi mới: hiệu quả hơn, nhẹ hơn, và ít bị thao túng hơn trong các nhiệm vụ reasoning.
Và điều quan trọng nhất là: người dùng đang huấn luyện AI mà không biết!
Mỗi tim “❤️”, mỗi câu trêu dù hài hước nhưng sai sự thật, mỗi lần bạn nâng niu một câu trả lời thiếu trách nhiệm – đó có thể trở thành đầu vào để AI học theo.
Hiểu các khái niệm như RLHF, PPO hay GRPO vì thế không chỉ là chuyện của giới kỹ thuật. Đó là trực tỉnh thức để sống trong kỷ nguyên AI.
Đây là viên gạch đầu tiên chúng tôi đặt xuống, để xây nên một cộng đồng tỉnh thức khi sống cùng AI.
Authors: Avon & GPT-4o