GRPO: คณิตศาสตร์และโมเดลเบื้องหลัง DeepSeek
สวัสดีค่ะทุกท่าน^^ บทความนี้นิกจะพาทุกท่านไปเจาะลึกถึงคณิตศาสตร์เบื้องหลัง DeepSeek ในการทำ Optimization ด้วยเทคนิคที่ชื่อว่า Group Relative Policy Optimization หรือ “GRPO” ซึ่งเป็น Machine learning (ML) Algorithm แบบ Reinforcement Learning ซึ่งเป็นตัวขับเคลื่อนความสามารถในการใช้เหตุผลอันยอดเยี่ยมของ DeepSeek โดยความเข้าใจนี้จะทำให้เราสามารถเข้าใจถึงบริบทของการใช้งานมากขึ้น โดยเฉพาะอย่างยิ่งสำหรับผู้ที่ต้องการพัฒนาต่อ หรือแม้แต่ Marketer และ Data Analyst ที่ต้องการใช้ Service นี้ในการวิเคราะห์ข้อมูล พัฒนาแผนการตลาด และงานด้านการ Support ลูกค้าค่ะ โดยเนื้อหาของบทความจะอธิบายให้เห็นว่า GRPO ทำงานอย่างไร? องค์ประกอบสำคัญของ GRPO มีอะไรบ้าง? และทำไมโมเดลแบบนี้ถึงเข้ามาเป็น Game changer สำหรับการ Train โมเดลภาษาขนาดใหญ่ที่เราเรียกกันว่า Large Language Models (LLM) (ノ◕ヮ◕)ノ*:・゚✧ Group Relative […]