GRPO Archives

GRPO: คณิตศาสตร์และโมเดลเบื้องหลัง DeepSeek

08/02/2025

สวัสดีค่ะทุกท่าน^^ บทความนี้นิกจะพาทุกท่านไปเจาะลึกถึงคณิตศาสตร์เบื้องหลัง DeepSeek ในการทำ Optimization ด้วยเทคนิคที่ชื่อว่า Group Relative Policy Optimization หรือ “GRPO” ซึ่งเป็น Machine learning (ML) Algorithm แบบ Reinforcement Learning ซึ่งเป็นตัวขับเคลื่อนความสามารถในการใช้เหตุผลอันยอดเยี่ยมของ DeepSeek โดยความเข้าใจนี้จะทำให้เราสามารถเข้าใจถึงบริบทของการใช้งานมากขึ้น โดยเฉพาะอย่างยิ่งสำหรับผู้ที่ต้องการพัฒนาต่อ หรือแม้แต่ Marketer และ Data Analyst ที่ต้องการใช้ Service นี้ในการวิเคราะห์ข้อมูล พัฒนาแผนการตลาด และงานด้านการ Support ลูกค้าค่ะ โดยเนื้อหาของบทความจะอธิบายให้เห็นว่า GRPO ทำงานอย่างไร? องค์ประกอบสำคัญของ GRPO มีอะไรบ้าง? และทำไมโมเดลแบบนี้ถึงเข้ามาเป็น Game changer สำหรับการ Train โมเดลภาษาขนาดใหญ่ที่เราเรียกกันว่า Large Language Models (LLM) (ﾉ◕ヮ◕)ﾉ*:･ﾟ✧ Group Relative […]

Panaya Sudta, PhD