หลักการประเมินผลตอบสนองของ LLMs และ Prompt ปฏิวัติการบริการลูกค้าและการสร้างเนื้อหา

07/07/2024

ในปัจจุบัน Generative AI ถูกนำมาใช้งานได้อย่างหลากหลายทั้งในงานเฉพาะทาง หรืองานที่ต้องการการตอบสนองแบบ Real-time และอื่นๆ ซึ่งสิ่งที่อยู่เบื้องหลังการตอบสนองที่รวดเร็วต่อ User นั้นคือโมเดลภาษาขนาดใหญ่ หรือที่เราเรียกกันอย่างคุ้นเคยว่า LLMs

อย่างไรก็ตามค่ะ ถึงแม้ว่า Generative AI ที่มีโมเดลภาษาขนาดใหญ่นี้อยู่เบื้องหลัง จะสามารถช่วยงานเราได้เหมือนเรามีผู้ช่วยส่วนตัว ที่ตอบคำถาม วิเคราะห์ข้อมูล สรุปเนื้อหาได้เราได้อย่างรวดเร็ว ทำให้เราลดระยะเวลาในการบริการลูกค้า (ในกรณีที่ใช้ API จาก Gen AI เพื่อสร้างแชทบอทไว้ตอบคำถามแบบอัตโนมัติ) หรือช่วยเราในสร้าง Content ที่น่าสนใจได้อย่างรวดเร็ว และแนบเนียนเหมือนเราไม่ได้ใช้บอทช่วย

แต่สิ่งที่เพื่อนๆ ที่ใช้ Generative AI เป็นประจำทุกท่านที่ใช้งานมาเป็นระยะเวลาหนึ่งจะสามารถทำได้ก็คือ เราจะจับโป๊ะได้ค่ะว่า ประโยครูปแบบประมาณนี้ เนื้อหาประมาณนี้ ถูกสร้างขึ้นมาจาก Gen AI หรือเราอาจเจอว่าน้องบอทของเรายังตอบคำถามลูกค้าแบบแข็งๆ

คำถามก็คือ แล้วเราจะทำอย่างไรล่ะถ้าเกิดปัญหานี้ขึ้นกับระบบตอบโต้อัตโนมัติกับลูกค้าของเรา และปัญหานี้เกิดขึ้นมาจากสาเหตุอะไร?

ท้ายที่สุดแล้วเราจะสามารถประเมินการตอบสนองของ Generative AI เพื่อป้องกันการเกิดปัญหานี้ได้หรือไม่,, ซึ่งคำตอบอยู่ในบทความนี้ค่ะ^^ : dependency grammar linguistic framwork

Challenges ของการตอบสนอง/Results จาก LLMs

องค์กรหรือนักการตลาดที่ใช้ Generative AI เพื่อช่วยงานต่างๆ เช่น การบริการลูกค้า การสร้าง Content และการวิเคราะห์ข้อมูล จำเป็นต้องตรวจสอบให้แน่ใจว่าลูกค้าของเรา หรือแม้แต่เราเองสามารถเชื่อถือข้อมูล/คำตอบที่ LLMS ให้ได้ เพราะคำตอบที่ไม่ถูกต้องย่อมส่งผลเสียต่อความไว้วางใจของลูกค้า ทำลายชื่อเสียงของแบรนด์ และนำไปสู่การสูญเสียลูกค้า หรือสูญเสียทางการเงินได้ในที่สุด

ซึ่งการประเมินจะช่วยเราในด้านการแสดงให้เห็นถึงความถูกต้อง และความน่าเชื่อถือของข้อมูลและแบรนด์ สร้างความไว้วางใจกับลูกค้า พนักงาน และผู้มีส่วนได้ส่วนเสีย (Stakeholder) ดังนั้นสิ่งที่เราต้องทำคือการพยายามสร้าง Feedback Loop ที่จะช่วยให้โมเดลได้รับข้อมูลฟีดแบคที่เหมาะสมเพื่อเป็น Training Data เพื่อให้ได้โมเดลที่สามารถตอบสนองได้ดียิ่งขึ้นไปในอนาคต,, เพื่อแก้ไข Challenges ของการตอบสนองของ LLMs ดังนี้ค่ะ

#ความหลากหลายหลายมิติ
โดยในบริบทของ Large Language Models นั้น multi-faceted nature หมายถึงความสามารถของโมเดลในการสร้างการตอบสนองที่มีหลายแง่มุม เช่น: ความถูกต้องตามข้อเท็จจริง: การให้ข้อมูลที่ถูกต้องและเชื่อถือได้ ความถูกต้องตามไวยากรณ์: การสร้างประโยคที่ถูกต้องตามหลักไวยากรณ์ ความน่าสนใจ: การสร้างเนื้อหาที่น่าสนใจและดึงดูดผู้ใช้ ความเกี่ยวข้อง: การตอบสนองที่สอดคล้องกับบริบทและคำถามที่ได้รับ ความคิดสร้างสรรค์: ความสามารถในการสร้างข้อความที่แปลกใหม่และไม่ซ้ำซาก

หลักการประเมินผลตอบสนองของ LLMs และ Prompt ปฏิวัติการบริการลูกค้าและการสร้างเนื้อหา — source: wikipedia

#การออกแบบที่ไม่แน่นอน
Challenge นี้หมายถึงลักษณะการทำงานของโมเดลภาษาขนาดใหญ่ที่สามารถให้ผลลัพธ์ที่แตกต่างกันแม้จะได้รับข้อมูลอินพุตเดียวกันทุกครั้ง!!
#การขาดมาตรฐานที่ชัดเจน
โดยรวมคือการที่เราไม่มีเกณฑ์ หรือมาตรฐานที่ชัดเจน และเป็นที่ยอมรับสำหรับการวัดความถูกต้อง หรือความสำเร็จของบางสิ่งบางอย่าง ซึ่งสิ่งนี้เองค่ะที่จะต้องอาศัย Feedback loop จาก User เพื่อประเมินการตอบสนองของ Generatvie AI ต่อผู้ใช้งาน
#การพึ่งพาอัตวิสัยและการพึ่งพาบริบท
คำศัพท์ประหลาดๆ นี้หมายถึงลักษณะที่การประเมินหรือการตอบสนองขึ้นอยู่กับมุมมองส่วนบุคคล และบริบทเฉพาะค่ะ เช่น การตอบสนองอย่างตลกขบขันหรือตอบเอาฮา อาจเหมาะสมในสถานการณ์หนึ่งแต่ไม่เหมาะสมในสถานการณ์อื่นเป็นต้น
#Bias และความถูกต้องของข้อเท็จจริง
Bias คือ ผลลัพธ์หรือการตอบสนองของ LLMs มีความเอนเอียงไปทางใดทางหนึ่ง เนื่องจากข้อมูลที่ใช้ในการฝึกโมเดลมีอคติหรือไม่ครอบคลุม ซึ่งอาจทำให้การตอบสนองมีความไม่เท่าเทียมและไม่เป็นธรรม ส่วนความถูกต้องทางข้อเท็จจริงหรือ Factual Accuracy หมายถึงการที่ข้อมูลหรือการตอบสนองของโมเดลเป็นจริงและแม่นยำตามความเป็นจริง ซึ่งสำคัญมากในการให้ข้อมูลที่เชื่อถือได้ของคำตอบค่ะ

#ความยากในการวัดความคิดสร้างสรรค์และความคิดริเริ่ม
เพราะโมเดลภาษาขนาดใหญ่ถูกสร้างมาให้เก่งในการสร้างรูปแบบข้อความใหม่เชิงสร้างสรรค์ แต่อย่างไรก็ตามการวัดปริมาณคุณสมบัติทั้งสองนี้ไม่ว่าจะเป็น Creativity หรือ Originality ก็ยังเป็นเรื่องที่วัดได้อยากอยู่ดีค่ะ
#AI หลอน
หรือ AI Hallucination ซึ่งหมายถึงการที่ AI ที่เราใช้งานในการสร้างระบบตอบรับอัตโนมัติ หรือใช้สร้าง Content ใหม่ๆ สร้างคำตอบที่ดูน่าเชื่อถือ แต่ไม่ถูกต้องออกมา!! ซึ่งเป็นสิ่งที่น่ากังวลมากๆ เพราะก่อให้เกิดการเข้าใจผิด และทำให้นำข้อมูลที่ไม่ถูกต้องตามข้อเท็จจริงนั้นออกไปเผยแพร่ก่อความเสียหายได้ค่ะ

ดังนั้นจาก Challenges ทั้งหมดทั้งมวลที่เกิดขึ้นจากการใช้งาน Generative AI ที่มีโมเดลภาษาขนาดใหญ่เป็นอัลกอริทึมอยู่เบื้องหลัง ทำให้การประเมินผลตอบสนองของ LLMs เพื่อปฏิวัติการบริการลูกค้า และการสร้าง Contents ที่ถูกต้องและมีคุณภาพครบถ้วนจึงมีความสำคัญมากๆ นั่นเองค่ะ,, เราจึงมีหลักเกณฑ์ในการประเมินดังต่อไปนี้

การประเมินผลตอบสนองของ LLMs สำหรับการบริการลูกค้าและการสร้างเนื้อหา

Dependency grammar linguistic framework

โดยหัวข้อหลักๆ ที่เราจะทำการประเมินผลตอบสนองของโมเดลภาษาขนาดใหญ่ ที่นิกจะพาทุกท่านไปพิจารณาคือการประเมินตามหลัก “Dependency grammar linguistic framework” หรือ “กรอบไวยากรณ์พึ่งพา” ซึ่งเป็นวิธีการวิเคราะห์โครงสร้างประโยคในภาษาศาสตร์ที่เน้นการเชื่อมโยงคำต่างๆ ในประโยคโดยใช้หลักการพิจารณาความสัมพันธ์ซึ่งเราจะเรียกว่า “ความพึ่งพา” หรือ Dependency แทนที่จะใช้โครงสร้างแบบไวยากรณ์เชิงวลี (phrase structure grammar) ค่ะ ==>> (บทความนี้เราจะหลุดออกจากคณิตศาสตร์ มาที่ภาษาศาสตร์กันบ้างนะคะ^^)

โดยในการประเมินโมเดลฯ ตามหลัก Dependency Grammar จะมีการพิจารณาโครงสร้างของรูปประโยคดังนี้ค่ะ

1. Head และผู้ตาม (Head and Dependent)

ในกรอบไวยากรณ์พึ่งพา แต่ละคำในประโยคจะมีความสัมพันธ์กับคำอื่นๆ โดยมีคำหนึ่งเป็น Head และคำที่ขึ้นอยู่กับคำหัวหน้าเรียกว่า “ผู้ตาม” (dependent)
ตัวอย่างเช่น ในประโยค “แมวนอนโซฟา” คำว่า “อ่าน” เป็น head และคำว่า “แมว” และ “โซฟา” เป็นผู้ตามของคำว่า “นอน”

2. ความสัมพันธ์พึ่งพา (Dependency Relations):

กรอบนี้จะเป็นการกำหนดความสัมพันธ์ระหว่าง head และ dependent แบบเฉพาะเจาะจงลงไปอีก เช่น ความสัมพันธ์ระหว่างกริยาและประธาน (subject), กริยาและกรรม (object) หรือระหว่างคำนามและคำคุณศัพท์เป็นต้น

3. ต้นไม้พึ่งพา (Dependency Tree):

เป็นการประเมินรูปประโยคโดยแสดงเป็นโครงสร้างต้นไม้ที่แสดงความสัมพันธ์พึ่งพาระหว่างคำแต่ละคำ โดยที่โหนด (nodes) ของต้นไม้แทนคำในประโยค และเส้นเชื่อม (edges) แสดงความสัมพันธ์พึ่งพา
ต้นไม้พึ่งพาจะมีราก (root) ที่เป็น head ของทั้งประโยค ซึ่งโดยปกติแล้วจะเป็นกริยาในประโยคหลัก

ซึ่งข้อดีของ กรอบไวยากรณ์พึ่งพา คือ โครงสร้างแบบนี้มีความเรียบง่าย กล่าวคือโครงสร้างพึ่งพามักง่ายต่อการวิเคราะห์และแสดงผล โดยมีการเน้นความสัมพันธ์ที่ช่วยให้โมเดลเข้าใจความสัมพันธ์ระหว่างคำในประโยคได้ชัดเจน รวมถึงสามารถประยุกต์ใช้ได้ดีในหลายภาษาแม้จะมีโครงสร้างประโยคที่แตกต่างกันค่ะ

Evaluation of LLMs ต่องานตอบลูกค้าและการสร้าง Content

หลังจากที่เราเข้าใจหลักการของการวิเคราะห์ความสัมพันธ์ของเนื้อหาตามกรอบ Dependency grammar linguistic แล้วเราจะใช้ framework นี้ในการประเมินคุณภาพของการตอบสนองจากโมเดลภาษาขนาดใหญ่ โดยแบ่งออกเป็น 4 หัวข้อหลักๆ ได้แก่ Coherence (ความสอดคล้อง), Grammar & Syntax (ไวยากรณ์และโครงสร้างประโยค), Vocabulary & Style (คำศัพท์และสไตล์) และ Fluency ซึ่งในแต่ละหมวดหมู่มีตัวชี้วัดที่เกี่ยวข้องดังนี้ค่ะ

#1. Coherence (ความสอดคล้อง)

Readability scores: ตามชื่อเลยค่ะ คือคะแนนการอ่านง่าย ใช้ประเมินความเข้าใจง่ายของข้อความ
Topic coherence: ความสอดคล้องของหัวข้อ ประเมินว่าข้อความยังคงรักษาหัวข้อหลักไว้ได้ตลอดหรือไม่
Discourse analysis: เป็นการวิเคราะห์โครงสร้างข้อความ ประเมินความเชื่อมโยงระหว่างประโยค
Semantic similarity: สิ่งนี้คือการพิจารณาความคล้ายคลึงทางความหมาย ซึ่งใช้ประเมินความหมายที่สอดคล้องกันระหว่างข้อความ

#2. Grammar & Syntax (ไวยากรณ์ และโครงสร้างประโยค)

Grammatical error rate: อัตราข้อผิดพลาดทางไวยากรณ์ ใช้เพื่อประเมินความถูกต้องของโครงสร้างประโยค
Syntactic complexity: ความซับซ้อนทางโครงสร้างประโยค ใช้ในการประเมินความซับซ้อนของประโยค
Part-of-speech tagging: การแท็กชนิดของคำ เอาไว้ประเมินการใช้คำว่าถูกต้องตามบทบาททางไวยากรณ์

#3. Vocabulary & Style (คำศัพท์และสไตล์)

Lexical diversity: ความหลากหลายทางคำศัพท์ ใช้เพื่อพิจารณาการใช้คำศัพท์ที่หลากหลาย
Register analysis: การวิเคราะห์ระดับภาษา เพื่อประเมินความเหมาะสมของการใช้ภาษาตามบริบทของข้อความ
Cliché detection: การตรวจหาคำหรือวลีที่ซ้ำซาก ประเมินการใช้ภาษาที่สดใหม่และไม่ซ้ำซาก (ประมาณว่าไม่ให้ถูกจับได้ว่าเป็นบอทค่ะ^^)

#4. Fluency

Perplexity: ความคาดเดาได้ของคำถัดไปในประโยค
Readability score: คะแนนการอ่านง่าย ใช้ประเมินความเข้าใจง่ายของข้อความ อ่านแล้วงงต้องอ่านซ้ำมั้ยเป็นต้น
N-gram diversity: ความหลากหลายของชุดคำ (n-gram) ซึ่งจะเป็นการประเมินการใช้ชุดคำที่ไม่ซ้ำซาก
Sentence length variation: ความหลากหลายของความยาวประโยค ใช้เพื่อวิเคราะห์การใช้ประโยคที่มีความยาวหลากหลายเพื่อความน่าสนใจ

ดังนั้นเมื่อเราเข้าใจถึงหลักการที่ใช้ในการประเมินคุณภาพของการตอบสนองหรือคำตอบของโมเดลภาษาขนาดใหญ่แล้ว สิ่งสำคัญที่สุดลำดับต่อมาก็คือ แล้วเราจะนำความเข้าใจนี้ไปใช้งานเพื่อเพิ่มประสิทธิภาพต่องานที่เราทำเช่น การใช้แชทบอท หรือ Voice bot ตอบลูกค้า หรือการสร้าง Content ได้อย่างไรนั่นเองค่ะ

การเพิ่มคุณภาพ Results ของ LLMs ต่องานตอบลูกค้าและการสร้าง Content

แน่นอนค่ะว่า สิ่งที่เราคุ้นเคยกันดีกับการใช้งานโมเดลภาษาขนาดใหญ่ในรูปแบบของคำว่า Generative AI มักจะอยู่ในลักษณะของการ Prompting หรือเขียน “คำสั่ง” เพื่อให้ Generative AI สร้างผลลัพธ์ที่เราต้องการออกมา

และอย่างที่เราเห็นค่ะ,, ว่ามีข้อแนะนำ/ หลักการการ Prompt ตลอดจนตัวอย่า Prompt ที่มีประสิทธิภาพต่องานต่างๆ ออกมาแชร์กันอย่างหลากหลาย หรือการแบ่งรูปแบบของ Prompts เป็นรูปแบบต่างๆ เช่น Zero shot, One shot, Chain of tought, etc. ซึ่งล้วนแล้วแต่ดีทั้งนั้นค่ะ^^,,

แต่ในบทความนี้นิกจะพาทุกท่านไปลองดูหลักการและตัวอย่าง Prompting ร่วมกับการใช้หลักประเมิน Dependency grammar linguistic framework ให้ Generative AI จากค่ายต่างๆ ไม่ว่าจะเป็น ChatGPT, Gemini, Alisa, etc. สามารถตอบสนองได้รูปประโยคที่มีความสอดคล้อง ถูกต้องตามไวยากรณ์ มีคำศัพท์ที่หลากหลาย และอ่านแล้วไม่เป็นบอทมากนัก เพื่อปฏิวัติการบริการลูกค้าและการสร้างเนื้อหา ดังนี้ค่ะ

#1 การ Prompts ง่ายๆ ตามหลัก Dependency Grammar: มนุษย์เข้าใจ GenAI มองความสัมพันธ์รูปประโยคออก

การใช้ Dependency grammar จะช่วยให้เราสร้าง prompts ที่ชัดเจนและสอดคล้องกัน โดยการวางโครงสร้างประโยคที่เน้นความสัมพันธ์ระหว่างคำสำคัญ เช่น คำกริยา (verbs), คำนาม (nouns), และคำคุณศัพท์ (adjectives) ซึ่งจะช่วยให้โมเดลสร้างข้อความที่มีคุณภาพสูงขึ้น โดยการใช้ prompts ที่มีโครงสร้างตามหลัก Dependency grammar ทำให้โมเดลสามารถเข้าใจและสร้างข้อความที่มีความสัมพันธ์ที่ชัดเจนระหว่างคำ และนำไปสู่การตอบสนองที่มีคุณภาพดีขึ้นในงานด้านการตลาด และการสร้างเนื้อหา ซึ่งมีตัวอย่างดังนี้ค่ะ

1.1 งานด้านการตลาด

ไทย: “คุณสมบัติของผลิตภัณฑ์ใหม่ของเราที่จะเปิดตัวในเดือนหน้า”
อังกฤษ: “The features of our new product launching next month”
Prompt: อธิบายคุณสมบัติของผลิตภัณฑ์ใหม่ของเราที่จะเปิดตัวในเดือนหน้า
Prompt: Describe the features of our new product launching next month.

ไทย: “โปรโมชั่นพิเศษสำหรับลูกค้าใหม่”
อังกฤษ: “Special promotion for new customers”
Prompt: แนะนำโปรโมชั่นพิเศษสำหรับลูกค้าใหม่
Prompt: Introduce the special promotion for new customers.

ไทย: “เรื่องราวความสำเร็จของลูกค้าที่ใช้บริการของเรา”
อังกฤษ: “Success stories of customers who used our service”
Prompt: บอกเล่าเรื่องราวความสำเร็จของลูกค้าที่ใช้บริการของเรา
Prompt: Tell the success stories of customers who used our service.

1.2 งานด้านการสร้าง Content

ไทย: “แนวโน้มการตลาดในปี 2024”
อังกฤษ: “Marketing trends in 2024”
Prompt: เขียนบทความเกี่ยวกับแนวโน้มการตลาดในปี 2024
Prompt: Write an article about marketing trends in 2024.

ไทย: “การสร้างแบรนด์ให้เป็นที่จดจำ”
อังกฤษ: “Creating a memorable brand”
Prompt: อธิบายวิธีการสร้างแบรนด์ให้เป็นที่จดจำ
Prompt: Explain how to create a memorable brand.

ไทย: “เทคนิคการใช้สื่อสังคมออนไลน์เพื่อการตลาด”
อังกฤษ: “Techniques for using social media for marketing”
Prompt: อธิบายเทคนิคการใช้สื่อสังคมออนไลน์เพื่อการตลาด
Prompt: Explain techniques for using social media for marketing.

#2 Prompt กำหนดรูปแบบคำตอบ/การตอบสนอง

ส่วนวิธีที่ 2 ก็ง่ายมากๆ ค่ะ คือให้เรา Prompt บอก Generative AI ที่เราใช้งานไปตรงๆ เลยค่ะว่า เราต้องการให้เค้า Provide คำตอบให้เราตามหลักการของกรอบไวยากรณ์พึ่งพา เพื่อให้คำตอบ หรือการตอบสนองที่ได้ออกมามีความเป็นมนุษย์ ไม่บอท และอ่านเข้าใจง่ายมากยิ่งขึ้น ด้วยวิธีง่ายๆ เพียงเติมท้าย Prompt ของเราว่า,,,,

“ให้สร้างคำตอบโดยอ้างอิงตาม Dependency grammar linguistic framework”

เป็นอันเสร็จเรียบร้อยเลยค่ะ,, ซึ่งจากที่นิกลองแล้วพบว่าคำตอบ/การตอบสนองที่ ChatGPT และ Gemini ป้อนกลับเรามามีความสละสลวย อ่านง่ายมายิ่งขึ้นอย่างชัดเจนค่ะ^^

Last but not Least…

หวังเป็นอย่างยิ่งนะคะว่าหลังจากที่เพื่อนๆ อ่านบทความนี้แล้วจะได้ไอเดียเพิ่มเติมในการใช้งาน Generative AI เพื่อให้ได้ผลลัพธ์ที่ดีมากยิ่งขึ้น ไม่เฉพาะในส่วนของการตอบสนองต่อลูกค้า และการสร้าง Contents เท่านั้น แต่หมายถึงลักษณะงานอื่นๆ ด้วยค่ะ,, ซึ่งในบทความนี้นิกพยายามนำเสนออีกรูปแบบหนึ่งของการ Prompt ซึ่งเน้นไปที่การใช้งานง่าย เข้าใจง่าย ในกรณีที่ยังไม่ได้ศึกษาละเอียดเรื่อง Prompting Engineer เพื่อให้ผู้ใช้งานทั่วไปสามารถทำให้ LLMs ให้ผลลัพธ์ได้ค่อนข้างดีเช่นเดียวกันค่ะ^^

ทั้งนี้ในบทความนี้มีการกล่าวถึง AI Hallucination ซึ่งเพื่อนๆ สามารถอ่านเนื้อหาเพิ่มเติมได้ตาม URL นี้=>>

AI Hallucination: เมื่อ AI เกิดการหลอน สาเหตุและแนวทางการแก้ไข

Panaya Sudta, PhD

Hi, I am Nick,,,,Panaya Sudta (●'◡'●) Engineer during the daytime. Researcher at night. Reader in spare time. (❁´◡`❁) วิศวกร/นักวิจัย/ Market research ค่ะ หวังเป็นอย่างยิ่งว่าจะได้แชร์มุมมองกันนะคะ