GRPO: คณิตศาสตร์และโมเดลเบื้องหลัง DeepSeek
สวัสดีค่ะทุกท่าน^^ บทความนี้นิกจะพาทุกท่านไปเจาะลึกถึงคณิตศาสตร์เบื้องหลัง DeepSeek ถึงการทำ Optimization ด้วยเทคนิคที่ชื่อว่า Group Relative Policy Optimization หรือ “GRPO” ซึ่งเป็น Machine learining (ML) Alogorithm แบบ Reinforcment Learning ที่เป็นตัวขับเคลื่อนความสามารถในการใช้เหตุผลอันยอดเยี่ยมของ DeepSeek ซึ่งความเข้าใจนี้จะทำให้เราสามารถเข้าใจถึงบริบทของการใช้งานมากขึ้น โดยเฉพาะอย่างยิ่งสำหรับผู้ที่ต้องการพัฒนาต่อ หรือแม้แต่ Marketer และ Data Analyst ที่ต้องการใช้ Service นี้ในการวิเคราะห์ข้อมูล พัฒนาแผนการตลาด และงานด้านการ Support ลูกค้าค่ะ โดยเนื้อหาของบทความจะอธิบายให้เห็นว่า GRPO ทำงานอย่างไร? องค์ประกอบสำคัญของ GRPO มีอะไรบ้าง? และทำไมโมเดลแบบนี้ถึงเข้ามาเป็น Game changer สำหรับการ Train โมเดลภาษาขนาดใหญ่ที่เราเรียกกันว่า Large Language Models (LLM) Group Relative Policy […]