Gemini Omni เมื่อ AI ไม่ได้แค่เข้าใจ แต่เริ่มสร้างจากสิ่งที่เรามี

26/05/2026

ในช่วงไม่กี่ปีที่ผ่านมา เราเห็น AI เปลี่ยนบทบาทจากเครื่องมือช่วยตอบคำถาม มาเป็นเครื่องมือช่วยเขียน ช่วยออกแบบ ช่วยวิเคราะห์ และช่วยสร้างภาพ แต่สิ่งที่น่าสนใจคือ เส้นแบ่งระหว่าง “การคิด” กับ “การสร้าง” กำลังเริ่มบางลงเรื่อย ๆ ล่าสุด Google เปิดตัว Gemini Omni โมเดลใหม่ในตระกูล Gemini ที่ถูกวางให้เป็นก้าวสำคัญของ AI แบบ Multimodal หรือ AI ที่ทำงานกับข้อมูลได้หลายรูปแบบพร้อมกัน ไม่ว่าจะเป็นข้อความ ภาพ เสียง หรือวิดีโอ โดยโมเดลแรกที่เปิดตัวคือ Gemini Omni Flash ซึ่งเริ่มต้นจากความสามารถด้านวิดีโอก่อนครับ

สิ่งที่ทำให้ Gemini Omni น่าสนใจ ไม่ใช่แค่การบอกว่า AI สร้างวิดีโอได้ แต่คือการที่ Google กำลังพา AI ไปสู่จุดที่ผู้ใช้สามารถนำสิ่งที่มีอยู่แล้ว ไม่ว่าจะเป็นภาพ เสียง คลิปวิดีโอ หรือคำอธิบายสั้น ๆ มาใช้เป็นวัตถุดิบ แล้วให้ AI ช่วยต่อยอดออกมาเป็นวิดีโอใหม่ที่มีความต่อเนื่อง มีบริบท และเข้าใจสิ่งที่เรากำลังพยายามจะสื่อมากขึ้น

Gemini Omni จาก AI สร้างภาพ สู่ AI ที่เริ่มสร้างเรื่องราว

ก่อนหน้านี้ Google เคยพูดถึง Nano Banana ในฐานะเครื่องมือที่นำความสามารถของ Gemini มาสู่การสร้างและแก้ไขภาพ ช่วยให้ผู้ใช้สามารถฟื้นฟูภาพเก่า ออกแบบจากสเก็ตช์ และทำให้ไอเดียที่อยู่ในหัวกลายเป็นภาพได้ง่ายขึ้น แต่ Gemini Omni คือการต่อยอดจากภาพนิ่งไปสู่โลกของวิดีโอ ซึ่งซับซ้อนกว่ามาก เพราะวิดีโอไม่ได้มีแค่ภาพเดียว แต่มีเวลา การเคลื่อนไหว จังหวะ ตัวละคร ฉาก และความต่อเนื่องของเหตุการณ์เข้ามาเกี่ยวข้อง

Gemini Omni เมื่อ AI ไม่ได้แค่เข้าใจ แต่เริ่มสร้างโลก จากสิ่งที่เรามี

ในบทความของ Google มีประโยคหนึ่งที่สะท้อนทิศทางนี้ได้ดี นั่นคือ Omni เป็นจุดที่ความสามารถในการให้เหตุผลของ Gemini มาเจอกับความสามารถในการสร้างสรรค์ พูดง่าย ๆ คือ AI ไม่ได้แค่สร้างภาพหรือคลิปจากแพตเทิร์นที่เคยเห็นมาเท่านั้น แต่ต้องเริ่มเข้าใจว่าในฉากหนึ่ง ๆ อะไรควรเกิดขึ้น อะไรควรต่อเนื่องจากสิ่งเดิม และอะไรควรถูกเปลี่ยนโดยไม่ทำให้ภาพรวมหลุดออกจากบริบทเดิม

Prompt: Make the sculpture out of bubbles.

นี่คือจุดที่น่าสนใจมากสำหรับคนทำคอนเทนต์ เพราะที่ผ่านมา เวลาพูดถึง AI Video หลายคนอาจนึกถึงการพิมพ์ Prompt แล้วได้คลิปสั้น ๆ ออกมา แต่ Gemini Omni กำลังพาเราไปไกลกว่านั้น คือการใช้วิดีโอเดิมเป็นจุดเริ่มต้น แล้วคุยกับ AI เพื่อแก้ไข เปลี่ยนฉาก เพิ่มวัตถุ เปลี่ยนอารมณ์ หรือทำให้สิ่งที่เป็นไปไม่ได้ในการถ่ายทำจริงเกิดขึ้นในวิดีโอ

วิดีโอเดิม ไม่ได้เป็นแค่ไฟล์ต้นฉบับ แต่กลายเป็นวัตถุดิบของจินตนาการ

หนึ่งในความสามารถที่ Google เน้นมากคือการแก้ไขวิดีโอด้วยภาษาธรรมชาติ ผู้ใช้สามารถสั่งงานเหมือนคุยกับคนตัดต่อ เช่น ให้เปลี่ยนประติมากรรมให้กลายเป็นฟองสบู่ ให้กระจกกระเพื่อมเหมือนของเหลว หรือให้ไฟในอพาร์ตเมนต์เปิดตามจังหวะเพลง โดยแต่ละคำสั่งสามารถต่อยอดจากคำสั่งก่อนหน้าได้

Prompt: When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person’s arm turns into reflective mirror material.

นี่ทำให้การทำวิดีโอเปลี่ยนจากกระบวนการเชิงเทคนิค ไปเป็นกระบวนการเชิงความคิดมากขึ้น เดิมที ถ้าเราอยากแก้ไขวิดีโอหนึ่งชิ้น เราต้องเข้าใจเครื่องมือตัดต่อ เข้าใจเลเยอร์ เข้าใจเอฟเฟกต์ เข้าใจการ Mask วัตถุ เข้าใจ Keyframe หรือบางครั้งต้องกลับไปถ่ายใหม่ แต่แนวคิดของ Gemini Omni คือให้ผู้ใช้เริ่มจากสิ่งที่มี แล้วบอกว่าอยากให้เปลี่ยนอะไร

สิ่งที่สำคัญกว่านั้นคือ Google ระบุว่า Gemini Omni สามารถรักษาความต่อเนื่องของตัวละคร ฟิสิกส์ และฉากก่อนหน้าได้ ซึ่งถ้าทำได้ดีจริง นี่จะเป็นหนึ่งในจุดเปลี่ยนของการผลิตวิดีโอ เพราะปัญหาใหญ่ของ Video ที่เป็นเอไอ จำนวนมากในช่วงก่อนหน้านี้คือความไม่ต่อเนื่อง ตัวละครเปลี่ยนหน้า วัตถุผิดรูป ฉากกระโดด หรือฟิสิกส์ดูแปลกจนคนดูรู้สึกหลุดออกจากเรื่องราว

Gemini Omni เมื่อ AI ต้องเข้าใจฟิสิกส์ ไม่ใช่แค่สร้างภาพให้สวย

อีกประเด็นที่น่าสนใจคือ Google ไม่ได้วาง Gemini Omni เป็นแค่เครื่องมือทำวิดีโอสวย ๆ แต่พยายามชูเรื่องการเข้าใจโลกจริง โดยระบุว่า Omni มีความเข้าใจเชิงสัญชาตญาณเกี่ยวกับแรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของของไหล ซึ่งช่วยให้สร้างฉากที่ดูสมจริงมากขึ้น นี่อาจดูเป็นเรื่องเทคนิค แต่สำหรับคนทำคอนเทนต์แล้วมีผลมาก

Prompt: edit this keeping everything the same. add animated motion effects coming out of the skateboard

เพราะวิดีโอที่ดีไม่ได้มีแค่ภาพคม สีสวย หรือเอฟเฟกต์อลังการ แต่ต้องทำให้คนดู “เชื่อ” ในโลกที่กำลังเห็นอยู่ ถ้าลูกแก้วกลิ้งผิดทิศทาง น้ำไหลผิดธรรมชาติ แสงสะท้อนไม่สมเหตุสมผล หรือวัตถุเคลื่อนไหวแบบไร้น้ำหนัก คนดูอาจบอกไม่ถูกว่าผิดตรงไหน แต่จะรู้สึกได้ว่ามันไม่จริง

ในมุมนี้ Gemini Omni จึงไม่ได้แข่งกันที่ความว้าวของภาพอย่างเดียว แต่เริ่มแตะไปถึงความสามารถในการเล่าเรื่องผ่านความสมจริงของโลกจำลอง ซึ่งเป็นโจทย์ที่สำคัญมากสำหรับวิดีโอคอนเทนต์ยุคถัดไป

จาก Prompt สั้น ๆ สู่ Explainer ที่อธิบายเรื่องซับซ้อนได้

Google ยกตัวอย่างว่า Omni สามารถสร้างวิดีโออธิบายเรื่องซับซ้อนจาก Prompt สั้น ๆ ได้ เช่น วิดีโอ Claymation อธิบายการพับตัวของโปรตีน โดยทุกอย่างทำจากดินน้ำมัน เป็นสต็อปโมชัน และยังต้องถูกต้องตามหลักวิทยาศาสตร์ จุดนี้น่าสนใจมากในมุมการศึกษา การตลาด และการสื่อสารความรู้ เพราะหลายครั้งสิ่งที่ยากที่สุดไม่ใช่การมีข้อมูล แต่คือการทำให้ข้อมูลนั้น “เห็นภาพ”

Prompt: A video of a violinist playing a song.

แบรนด์ที่ต้องอธิบายสินค้าซับซ้อน ธุรกิจที่ต้องสื่อสารบริการที่จับต้องยาก หรือครีเอเตอร์ที่ต้องทำคอนเทนต์ความรู้ อาจใช้ AI แบบนี้ช่วยเปลี่ยนเรื่องนามธรรมให้กลายเป็นภาพเคลื่อนไหวที่เข้าใจง่ายขึ้น

ลองนึกภาพธุรกิจประกันที่อยากอธิบายความเสี่ยงทางการเงิน ธุรกิจสุขภาพที่อยากอธิบายกลไกในร่างกาย หรือแบรนด์เทคโนโลยีที่อยากเล่าเบื้องหลังระบบที่ซับซ้อน ถ้า AI สามารถช่วยแปลงสิ่งเหล่านี้เป็นวิดีโอได้จริง ภาระของคนทำคอนเทนต์จะเปลี่ยนจากการผลิตทุกอย่างเอง ไปสู่การออกแบบความคิดให้ชัดพอที่ AI จะสร้างต่อได้

จุดเปลี่ยนของคนทำคอนเทนต์ อาจไม่ใช่การใช้เครื่องมือเก่ง แต่คือการคิดภาพสุดท้ายให้ชัด

Gemini Omni รองรับการนำอินพุตหลายแบบมารวมกัน ไม่ว่าจะเป็นภาพ ข้อความ วิดีโอ หรือเสียง แล้วสร้างเป็นเอาต์พุตเดียวที่กลมกลืนกัน Google ยกตัวอย่างการใช้ภาพเป็นตัวละคร ใช้วิดีโอเป็นตัวอ้างอิงการเคลื่อนไหว ใช้เสียงเป็นจังหวะ และให้ AI สร้างวิดีโอใหม่ที่ซิงก์องค์ประกอบเหล่านี้เข้าด้วยกัน นี่ทำให้บทบาทของคนทำคอนเทนต์เปลี่ยนไปอย่างชัดเจน

ในอดีต คนที่ได้เปรียบอาจเป็นคนที่ใช้โปรแกรมเก่ง ถ่ายเก่ง ตัดต่อเก่ง หรือมีทีมโปรดักชันพร้อม แต่ในโลกที่ AI เริ่มช่วยสร้างและแก้ไขวิดีโอได้มากขึ้น คนที่ได้เปรียบอาจกลายเป็นคนที่รู้ว่าต้องการเล่าอะไร ต้องใช้อินพุตแบบไหนเป็นต้นทาง และต้องสั่ง AI อย่างไรให้ผลลัพธ์ออกมาตรงกับ Brand Voice หรือ Message ที่ต้องการ พูดง่าย ๆ คือทักษะเชิงเทคนิคอาจยังสำคัญ แต่ทักษะเชิงกำกับความคิดจะสำคัญขึ้นมาก

คนทำคอนเทนต์จะไม่ได้เป็นแค่คนกดเครื่องมือ แต่จะเป็นเหมือน Creative Director ที่ต้องเห็นภาพรวมของเรื่องราว เห็นอารมณ์ของแบรนด์ เห็นจุดที่ผู้ชมควรรู้สึก และแปลงสิ่งเหล่านั้นให้เป็นคำสั่งที่ AI เข้าใจได้

Digital Avatar และคำถามเรื่องความรับผิดชอบ

อีกส่วนหนึ่งที่ Google พูดถึงคือการสร้างวิดีโอด้วย Digital Avatar ของตัวเอง ผ่านฟีเจอร์ Avatars ซึ่งสร้างเวอร์ชันดิจิทัลของผู้ใช้ เพื่อให้สามารถสร้างวิดีโอที่มีภาพและเสียงคล้ายตัวเองได้ แต่ Google ก็ระบุว่าสำหรับความสามารถด้านการแก้ไขเสียงหรือคำพูด นอกเหนือจากฟีเจอร์ Avatar ยังอยู่ระหว่างการทดสอบและพิจารณาเรื่องการนำมาใช้ให้รับผิดชอบ

นี่เป็นประเด็นที่ควรจับตา เพราะเมื่อ AI สร้างวิดีโอที่ดูเหมือนคนจริง พูดเหมือนคนจริง และเคลื่อนไหวเหมือนคนจริงได้มากขึ้น คำถามเรื่องความยินยอม ความปลอดภัย การแอบอ้าง และความโปร่งใสจะยิ่งสำคัญ

Google ระบุว่าวิดีโอทั้งหมดที่สร้างด้วย Omni จะมี SynthID ซึ่งเป็นลายน้ำดิจิทัลแบบมองไม่เห็น และสามารถตรวจสอบได้ผ่าน Gemini app, Gemini ใน Chrome และ Google Search

ในเชิงเทคโนโลยี นี่คือความพยายามในการสร้างระบบตรวจสอบที่ช่วยให้คนแยกแยะได้ว่าอะไรเป็นคอนเทนต์ที่สร้างด้วย AI แต่ในเชิงสังคม เรื่องนี้อาจใหญ่กว่านั้น เพราะยิ่ง AI สร้างสื่อได้เนียนขึ้น ความไว้วางใจต่อคอนเทนต์บนอินเทอร์เน็ตก็จะกลายเป็นโจทย์ที่ทุกแพลตฟอร์ม ทุกแบรนด์ และทุกคนทำคอนเทนต์ต้องรับผิดชอบร่วมกัน

Gemini Omni เปิดให้ใครใช้บ้าง

สำหรับการเปิดให้ใช้งาน Google ระบุว่า Gemini Omni Flash เริ่มทยอยเปิดให้ผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra ใช้งานทั่วโลกผ่าน Gemini app และ Google Flow รวมถึงเริ่มเปิดให้ใช้งานฟรีบน YouTube Shorts และ YouTube Create App และจะทยอยเปิดให้นักพัฒนาและลูกค้าองค์กรใช้งานผ่าน API ในอีกไม่กี่สัปดาห์ข้างหน้า

จุดนี้สะท้อนให้เห็นว่า Google ไม่ได้มอง Gemini Omni เป็นเพียงเดโมเทคโนโลยี แต่กำลังพยายามดันเข้าไปอยู่ในเครื่องมือที่คนใช้งานจริง ทั้งฝั่งผู้ใช้ทั่วไป ครีเอเตอร์ แพลตฟอร์มวิดีโอ นักพัฒนา และองค์กร

ถ้ามองในเชิงการแข่งขันของแพลตฟอร์ม AI Video นี่คือสัญญาณว่าโลกของการสร้างวิดีโอด้วย AI กำลังเข้าสู่ช่วงที่จริงจังมากขึ้น ไม่ใช่แค่การทดลองเล่น แต่กำลังเริ่มเชื่อมกับเครื่องมือทำงานจริงมากขึ้นเรื่อย ๆ

สรุป อนาคตของวิดีโอ อาจเริ่มจากสิ่งที่เรามีอยู่แล้ว

สิ่งที่ Gemini Omni ทำให้น่าคิด ไม่ใช่แค่คำถามว่า AI จะสร้างวิดีโอได้สวยแค่ไหน แต่คือคำถามว่าในอนาคต “วัตถุดิบของการสร้างคอนเทนต์” จะเปลี่ยนไปอย่างไร จากเดิมที่การทำวิดีโอต้องเริ่มจากกล้อง ทีมงาน โลเคชัน นักแสดง ไฟล์ฟุตเทจ และซอฟต์แวร์ตัดต่อ อนาคตอาจเริ่มจากสิ่งที่เรามีอยู่แล้วมากขึ้น ไม่ว่าจะเป็นคลิปสั้น ๆ ภาพหนึ่งภาพ เสียงหนึ่งไฟล์ หรือประโยคสั้น ๆ ที่อธิบายภาพในหัว

Gemini Omni จึงไม่ใช่แค่เครื่องมือใหม่ของ Google แต่เป็นภาพสะท้อนของทิศทางใหญ่ในโลกคอนเทนต์ นั่นคือ AI กำลังขยับจากผู้ช่วยหลังบ้าน มาเป็นผู้ร่วมสร้างสรรค์ที่สามารถทำให้ไอเดียเดินทางจากความคิด ไปสู่ภาพเคลื่อนไหวได้เร็วขึ้น

แต่ในขณะเดียวกัน ยิ่งเครื่องมือสร้างสรรค์ทรงพลังขึ้นเท่าไร ความสำคัญของมนุษย์ก็ไม่ได้หายไป เพียงแต่ย้ายไปอยู่ในจุดที่ต่างออกไป จากคนที่ต้องลงมือทำทุกขั้นตอน กลายเป็นคนที่ต้องคิดให้ชัด กำกับให้เป็น เลือกให้แม่น และรับผิดชอบต่อสิ่งที่สร้างออกมา เพราะสุดท้ายแล้ว AI อาจช่วยสร้างวิดีโอได้ แต่ทิศทางของเรื่องราว ความหมายของสิ่งที่เล่า และความจริงใจต่อผู้ชม ยังเป็นสิ่งที่มนุษย์ต้องเป็นคนกำหนดอยู่ดี

*ขอบคุณภาพจาก Shutterstock AI Generator*
Prompt: A conceptual image of artificial intelligence turning human ideas into visual creations, abstract glowing AI core in the center, streams of text, images, sound waves, and video frames flowing into the core and transforming into a cinematic scene, premium futuristic design, dark blue and teal color palette, elegant negative space, calm but powerful mood, strategic tech editorial style, soft light bloom, minimal and sophisticated, no text, no logo, no watermark, 16:9 aspect ratio

ทุกวันนี้เทคโนโลยีพัฒนาขึ้นไปทุกวัน ถ้าใช้ให้ดีก็จะเกิดประโยชน์ แต่ถ้าใช้ผิดทางก็จะเกิดโทษครับ ผมหวังว่าทุกคนจะนำการพัฒนาของเทคโนโลยีและบทความนี้ไปใช้ให้เกิดประโยชน์ ไม่มากก็น้อยนะครับ ฝากติดตามบทความด้านการใช้ AI แบบนี้ด้วยนะครับ หรือใครอยากให้นำ AI ตัวไหนมาเล่าให้ฟัง สามารถคอมเมนต์บอกกันได้เลยครับ

สำหรับนักอ่านที่ชอบ และ อยากอ่านบทความเกี่ยวกับการตลาด, Data และ AI เพิ่มเติม สามารถติดตามได้จาก เพจการตลาดวันละตอน รวมไปถึง Twitter Instagram YouTube ของการตลาดวันละตอนได้เลยนะครับ แล้วพบกันใหม่ในบทความหน้าครับ

Source [1]