อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง

ถ้าคุณเคยรู้สึกว่า GPT รุ่นก่อนก็เก่งแล้วนะ แต่การอัปเดต GPT-5.2 ของ OpenAI ทำให้เห็นภาพชัดขึ้นว่า รอบนี้ไม่ได้แค่เก่งขึ้นอย่างเดียว แต่มันทำงานจบเป็นชิ้น ได้ดีขึ้นในหลาย ๆ ด้าน โดยเฉพาะงานที่คนทำงานจริงเจอทุกวัน สเปรดชีต พรีเซนเทชัน โค้ด งานอ่านเอกสารยาว งานดูภาพ/แดชบอร์ด และงานที่ต้องใช้เครื่องมือหลายขั้นตอน บทความนี้จะพามาดูว่า อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้างครับ

ชื่อการทดสอบ (Benchmark)GPT‑5.2 Thinking GPT‑5.1 Thinking 
GDPval (wins or ties)
Knowledge work tasks
70.9%38.8% (GPT‑5)
SWE-Bench Pro (public)
Software engineering
55.6%50.8%
SWE-bench Verified
Software engineering
80.0%76.3%
GPQA Diamond (no tools)
Science questions
92.4%88.1%
CharXiv Reasoning (w/ Python)
Scientific figure questions
88.7%80.3%
AIME 2025 (no tools)
Competition math
100.0%94.0%
FrontierMath (Tier 1–3)
Advanced mathematics
40.3%31.0%
FrontierMath (Tier 4)
Advanced mathematics
14.6%12.5%
ARC-AGI-1 (Verified)
Abstract reasoning
86.2%72.8%
ARC-AGI-2 (Verified)
Abstract reasoning
52.9%17.6%

ตารางนี้คือ ตารางเปรียบเทียบประสิทธิภาพของ GPT-5.2 Thinking กับรุ่นก่อนหน้า (หลัก ๆ คือ GPT-5.1 Thinking และบางแถวเทียบกับ GPT-5) เพื่อให้เราเห็นว่า รุ่นใหม่ดีขึ้นแค่ไหน ในงานประเภทใดบ้าง ไม่ใช่คำอธิบายเชิงความรู้สึก แต่เป็นคะแนนจาก benchmark มาตรฐานที่ใช้ในวงการ AI ครับ

1) GDPval (wins or ties) Knowledge work tasks คือตการวัดความสามารถในการผลิตงานความรู้ที่ขอบเขตชัดครอบคลุม 44 อาชีพ เช่น ทำสไลด์ขาย ทำสเปรดชีตบัญชี จัดตารางเวร วาดไดอะแกรมการผลิต หรือทำวิดีโอสั้น ซึ่ง GPT-5.2 Thinking 70.9% รุ่นก่อน 38.8%

พูดง่าย ๆ คือ GPT-5.2 ชนะหรืออย่างน้อยก็ทำได้พอ ๆ กับผู้เชี่ยวชาญมนุษย์ เกือบ 71% ของงานทั้งหมด ขณะที่รุ่นก่อน ทำได้แค่ราว 4 งานจาก 10 นี่คือเหตุผลที่ OpenAI บอกว่า GPT-5.2 เป็นรุ่นแรกที่แตะระดับผู้เชี่ยวชาญในงานความรู้ด้านอาชีพ

อีกจุดที่หลายคนจะชอบคือ ใน ChatGPT รุ่น Thinking/Pro มีเครื่องมือใหม่ที่รุ่น Thinking เดิมไม่มี และ OpenAI บอกตรง ๆ ด้วยว่า ถ้าจะใช้ความสามารถด้านสเปรดชีต/พรีเซนเทชันแบบใหม่ ต้องอยู่ใน Plus/Pro/Business/Enterprise และเลือก GPT-5.2 Thinking หรือ Pro และงานซับซ้อนอาจใช้เวลาหลายนาทีในการ generate ครับ

อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง

2) งานเขียนโค้ด (Software Engineering) มี SWE-Bench Pro และ SWE-Bench Verified สองอันนี้คือโจทย์เขียนโค้ดระดับโลกจริง ไม่ใช่โค้ดตัวอย่างสวย ๆ ผลที่ได้คือ SWE-Bench Pro โดย GPT 5.2 ได้ 55.6% ส่วน GPT 5.1ได้ 50.8% และ SWE-Bench Verified โดย GPT 5.2 ได้ 80.0% และ GPT 5.1 ได้ 76.3%

หมายความว่ารุ่นใหม่สามารถ แก้บั๊ก / รีแฟกเตอร์ / ต่อฟีเจอร์จริงได้แม่นขึ้น ความต่างดูเหมือนไม่เยอะเป็นตัวเลข แต่ในโลกซอฟต์แวร์ เพิ่ม 4–5% คือคุณภาพที่ต่างชัดมาก ครับ โมเดลมีแนวโน้มดีขึ้นในงานที่นักพัฒนาต้องทำจริง เช่น ดีบักโค้ดโปรดักชัน ทำฟีเจอร์ รีแฟกเตอร์โค้ดเบสใหญ่ ๆ และส่งแพตช์แบบ end-to-end โดยต้องพึ่งคนมานั่งแก้มือให้น้อยลง

ทาง OpenAI ยังย้ำด้วยว่า GPT-5.2 Thinking แข็งขึ้นในงาน front-end และ UI ที่ซับซ้อนหรือแปลกใหม่ โดยเฉพาะงานที่มีองค์ประกอบ 3D ซึ่งเป็นกลุ่มงานที่โมเดลหลายรุ่นก่อนหน้ามักรู้สึกติด ๆ ขัด ๆ เวลาต้องคุมประสบการณ์ผู้ใช้พร้อมกับความถูกต้องทางเทคนิคครับ

3) วิทยาศาสตร์ & การอ่านกราฟ โดย GPQA Diamond (no tools) – Science questions GPT 5.2 ได้ 92.4% ส่วน GPT 5.1 ได้ 88.1% และ CharXiv Reasoning (w/ Python) – Scientific figures GPT 5.2 ได้ 88.7% ส่วน GPT 5.1 80.3%

หมายความว่า GPT-5.2 เข้าใจคำถามวิทยาศาสตร์ระดับบัณฑิตศึกษาได้ดีกว่า และอ่านกราฟ/ภาพจาก paper วิจัยแล้วตีความถูกมากขึ้น เหมาะมากกับงานรีเสิร์ช, วิเคราะห์ข้อมูล, เขียนบทความเชิงลึก, สาย Data / Science ครับ

โดย OpenAI บอกว่า GPT-5.2 Thinking หลอนน้อยกว่า GPT-5.1 Thinking โดยจากชุดคำถามแบบไม่ระบุตัวตนใน ChatGPT คำตอบที่มีข้อผิดพลาดน้อยลง 30% และในกราฟคำตอบที่มีอย่างน้อยหนึ่งข้อผิดพลาด อยู่ที่ 6.2% สำหรับ GPT-5.2 Thinking เทียบกับ 8.8% ของ GPT-5.1 Thinking (ภายใต้เงื่อนไข reasoning effort สูงสุดและเปิดเครื่องมือค้นหา)

แปลว่าอะไร? แปลว่าในงานที่เราใช้ AI เป็นแรงเสริมทุกวัน สรุปข้อมูล ทำรีเสิร์ช ทำเด็ค ทำข้อเสนอ ความเสี่ยงของหลุดมั่วแบบเงียบ ๆ ลดลง และทำให้โมเดลไว้ใจได้มากขึ้นในเชิงงานประจำวัน แต่ทั้งนี้ทั้งนั้นการตรวจซ้ำก็เป็นเรื่องสำคัญอยู่ดีครับ

4) คณิตศาสตร์ขั้นสูง โดย AIME 2025 (no tools) GPT 5.2 ได้ 100% ส่วน GPT 5.1 ได้ 94% และ FrontierMath (Tier 1–3 / Tier 4) GPT 5.2 ได้ 40.3% / 14.6% ส่วน GPT 5.1 ได้ 31.0% / 12.5%

ตรงนี้วัดการคิดเชิงนามธรรม + หลายขั้นตอน ไม่ใช่คิดเลขธรรมดา ความหมายคือ GPT-5.2 เก่งขึ้นในโจทย์ยากที่ต้องคิดต่อเนื่องยาว ๆ ซึ่งเป็นฐานสำคัญของการใช้งานให้ AI ทำงานเป็น agent ไม่หลุดกลางทางครับ

5) การคิดเชิงนามธรรม (Abstract / AGI-style reasoning) มี ARC-AGI-1 GPT 5.2 ได้ 86.2% ส่วน GPT 5.1 ได้ 72.8% และ ARC-AGI-2 GPT 5.2 ได้ 52.9% ส่วน GPT 5.1 ได้ 17.6%

อันนี้สำคัญมากเพราะ ARC-AGI คือโจทย์ที่ ไม่เคยเห็นมาก่อน ไม่พึ่งความจำ วัดการคิดล้วน ๆ ดังนั้นการกระโดดจาก 17.6% ไปเป็น 52.9% หมายถึง GPT-5.2 คิดเป็นระบบได้ดีขึ้นแบบก้าวกระโดด ไม่ใช่แค่ฉลาดขึ้นนิดเดียวครับ

และถ้าคุณทำงานที่ต้องอ่านเอกสารยาว ๆ หรือมีหลายไฟล์ประกอบ เช่น รายงาน สัญญา รีเสิร์ช ทรานสคริปต์ หรือโปรเจกต์ที่ต้องเชื่อมข้อมูลไปมา จุดนี้คืออัปเกรดที่มีมูลค่ามาก

โดย OpenAI บอกว่า GPT-5.2 Thinking ทำได้ดีขึ้นบน OpenAI MRCRv2 และเป็นโมเดลแรกที่เห็นว่าใกล้ 100% บนเวอร์ชัน 4-needle ของ MRCR (ที่ความยาวบริบทสูงสุด 256k tokens) ซึ่งสะท้อนความสามารถในการจับความสัมพันธ์ของข้อมูลที่กระจายอยู่ในเอกสารยาวได้แน่นขึ้น

และสำหรับงานที่ยาวกว่าหน้าต่างบริบทสูงสุด OpenAI ระบุว่า GPT-5.2 Thinking รองรับ Responses /compact endpoint ที่ช่วยขยาย effective context window เพื่อรองรับเวิร์กโฟลว์ที่ใช้เครื่องมือเยอะและรันนาน ซึ่งปกติจะติดเพดานเรื่องความยาวบริบทครับ

ทาง OpenAI ระบุว่า GPT-5.2 Thinking ลด error rate ลงประมาณครึ่งหนึ่ง ในงาน chart reasoning และ software interface understanding และยกตัวเลขเทียบให้ดู เช่น ScreenSpot-Pro ความแม่นยำ 86.3% เทียบกับ 64.2% ของ GPT-5.1 Thinking (ภายใต้เงื่อนไขเปิด Python tool และ reasoning effort สูงสุด)

อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง

ถ้าคุณทำงานกับแดชบอร์ดโฆษณา แผนภูมิยอดขาย ภาพหน้าจอระบบงาน หรือไดอะแกรมเทคนิค ความสามารถนี้แปลเป็นการอ่านรูปแล้วสรุป/ชี้จุดผิด/อธิบายสิ่งที่เห็นได้แม่นขึ้น ซึ่งทำให้งานวิเคราะห์ไวขึ้นแบบสัมผัสได้ครับ

อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง

ฝั่ง tool calling GPT-5.2 Thinking ทำ 98.7% บน Tau2-bench Telecom เทียบกับ 95.6% ของ GPT-5.1 Thinking และใน Tau2-bench Retail ก็สูงขึ้นเช่นกัน (82.0% เทียบกับ 77.9%) ประเด็นนี้สำคัญมากสำหรับคนที่ใช้ AI ทำเวิร์กโฟลว์หลายสเต็ป เช่น ดึงข้อมูลจากหลายระบบ วิเคราะห์ แล้วสรุปเป็นผลลัพธ์สุดท้าย เพราะสิ่งที่ทำให้เอเจนต์ใช้จริงไม่ได้ ส่วนใหญ่ไม่ใช่ความฉลาด แต่คือ พังระหว่างทาง และ GPT-5.2 ถูกออกแบบให้จบงาน end-to-end ได้เสถียรกว่า

ทาง OpenAI ยังระบุว่าใน use case ที่ต้องการความหน่วงต่ำ GPT-5.2 ทำได้ดีขึ้นมากเมื่อใช้ reasoning.effort=’none’ โดยยัง outperform รุ่นก่อนหน้าอย่างชัดเจน ซึ่งแปลว่า แม้เราจะลดการคิดหนักเพื่อให้เร็วขึ้น โมเดลก็ยังคุมคุณภาพได้ดีกว่าเดิมครับ

อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง
อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง

ใน ChatGPT OpenAI ระบุว่า GPT-5.2 Instant, Thinking และ Pro เริ่มทยอยปล่อย (เริ่มจากแผนจ่ายเงิน) และ GPT-5.1 จะยังอยู่ให้ผู้ใช้แบบจ่ายเงินใน legacy models อีกสามเดือนก่อนจะทยอยยุติใน ChatGPT

ใน API ชื่อโมเดลถูกระบุชัดขึ้น เช่น ChatGPT-5.2 Instant คือ gpt-5.2-chat-latest ส่วน ChatGPT-5.2 Thinking คือ gpt-5.2 และ ChatGPT-5.2 Pro คือ gpt-5.2-pro และเพิ่ม reasoning effort ระดับ xhigh ให้กับทั้ง Pro และ Thinking สำหรับงานที่ต้องการคุณภาพมากที่สุด

ด้านราคา GPT-5.2 อยู่ที่ $1.75/1M input tokens และ $14/1M output tokens พร้อมส่วนลด cached input 90% ส่วน gpt-5.2-pro สูงกว่ามาก (input $21 และ output $168 ต่อ 1M tokens) แต่ OpenAI ระบุว่าแม้ต้นทุนต่อโทเคนสูงขึ้น ต้นทุนในการได้คุณภาพระดับเดียวกัน อาจถูกลงจาก token efficiency ที่ดีขึ้น โดยเฉพาะงานแบบ agentic ครับ

สรุปแบบคนทำงาน GPT-5.2 ดีขึ้นตรงที่ทำงานจบ

ถ้าจะสรุปให้สั้นแบบใช้งานได้ทันที GPT-5.2 ต่างจากรุ่นก่อนใน 3 แกนหลัก แกนแรกคือ งานอาร์ติแฟกต์ อย่างสไลด์และสเปรดชีตที่ดูเป็นมืออาชีพขึ้น ไม่ใช่แค่ร่างสวย ๆ แต่เริ่มเป็นงานที่เอาไปใช้งานต่อได้ แกนที่สองคือ ความเสถียร ทั้งความมั่วที่ลดลง และความสามารถในการอ่านยาว/เชื่อมข้ามบริบทได้ดีกว่าเดิม แกนที่สามคือ ความเป็นเอเจนต์ ใช้เครื่องมือได้แน่นขึ้น ทำงานหลายขั้นตอนได้ครบขึ้น ซึ่งเป็นเงื่อนไขสำคัญของการทำเวิร์กโฟลว์ end-to-end ครับ

อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง

และนี่คือ อัปเดต GPT-5.2 เทียบรุ่นก่อน มีอะไรใหม่ และดีขึ้นตรงไหนบ้าง ตัวชี้วัดเหล่านี้ไม่ได้แค่บอกว่า GPT-5.2 ฉลาดขึ้น แต่กำลังชี้ให้เห็นว่า AI เริ่มทำงานที่เคยต้องใช้ผู้เชี่ยวชาญมนุษย์ได้จริงมากขึ้น ทั้งในเชิงคุณภาพ ความเสถียร และการคิดหลายขั้นตอนครับ ทุกวันนี้เทคโนโลยีไปไกลมากขึ้น ถ้าเราใช้อย่างถูกต้องก็จะสามารถสร้างประโยชน์ให้เรามากมายมหาศาลครับ ทั้งด้านการทำงาน และในชีวิตประจำวัน แต่หากใช้ผิดวิธีก็จะเกิดโทษได้ครับ

ผมหวังว่าทุกคนจะนำการพัฒนาของเทคโนโลยีและบทความนี้ไปใช้ให้เกิดประโยชน์ ไม่มากก็น้อยนะครับ ฝากติดตามบทความด้านการใช้ AI แบบนี้ด้วยนะครับ หรือใครอยากให้นำ AI ตัวไหนมาเล่าให้ฟัง สามารถคอมเมนต์บอกกันได้เลยครับ

สำหรับนักอ่านที่ชอบ และ อยากอ่านบทความเกี่ยวกับการตลาด, Data และ AI เพิ่มเติม สามารถติดตามได้จาก เพจการตลาดวันละตอน รวมไปถึง Twitter Instagram YouTube ของการตลาดวันละตอนได้เลยนะครับ แล้วพบกันใหม่ในบทความหน้าครับ

Source

การตลาดวันละตอน เว็บรวมความรู้การตลาดด้าน Data และ Personalization

Leave a Reply

Your email address will not be published. Required fields are marked *