ในช่วงไม่กี่ปีที่ผ่านมา เราเห็น AI เปลี่ยนบทบาทจากเครื่องมือช่วยตอบคำถาม มาเป็นเครื่องมือช่วยเขียน ช่วยออกแบบ ช่วยวิเคราะห์ และช่วยสร้างภาพ แต่สิ่งที่น่าสนใจคือ เส้นแบ่งระหว่าง “การคิด” กับ “การสร้าง” กำลังเริ่มบางลงเรื่อย ๆ ล่าสุด Google เปิดตัว Gemini Omni โมเดลใหม่ในตระกูล Gemini ที่ถูกวางให้เป็นก้าวสำคัญของ AI แบบ Multimodal หรือ AI ที่ทำงานกับข้อมูลได้หลายรูปแบบพร้อมกัน ไม่ว่าจะเป็นข้อความ ภาพ เสียง หรือวิดีโอ โดยโมเดลแรกที่เปิดตัวคือ Gemini Omni Flash ซึ่งเริ่มต้นจากความสามารถด้านวิดีโอก่อนครับ
สิ่งที่ทำให้ Gemini Omni น่าสนใจ ไม่ใช่แค่การบอกว่า AI สร้างวิดีโอได้ แต่คือการที่ Google กำลังพา AI ไปสู่จุดที่ผู้ใช้สามารถนำสิ่งที่มีอยู่แล้ว ไม่ว่าจะเป็นภาพ เสียง คลิปวิดีโอ หรือคำอธิบายสั้น ๆ มาใช้เป็นวัตถุดิบ แล้วให้ AI ช่วยต่อยอดออกมาเป็นวิดีโอใหม่ที่มีความต่อเนื่อง มีบริบท และเข้าใจสิ่งที่เรากำลังพยายามจะสื่อมากขึ้น
Gemini Omni จาก AI สร้างภาพ สู่ AI ที่เริ่มสร้างเรื่องราว
หนึ่งในความสามารถที่ Google เน้นมากคือการแก้ไขวิดีโอด้วยภาษาธรรมชาติ ผู้ใช้สามารถสั่งงานเหมือนคุยกับคนตัดต่อ เช่น ให้เปลี่ยนประติมากรรมให้กลายเป็นฟองสบู่ ให้กระจกกระเพื่อมเหมือนของเหลว หรือให้ไฟในอพาร์ตเมนต์เปิดตามจังหวะเพลง โดยแต่ละคำสั่งสามารถต่อยอดจากคำสั่งก่อนหน้าได้
Prompt: When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person’s arm turns into reflective mirror material.
แบรนด์ที่ต้องอธิบายสินค้าซับซ้อน ธุรกิจที่ต้องสื่อสารบริการที่จับต้องยาก หรือครีเอเตอร์ที่ต้องทำคอนเทนต์ความรู้ อาจใช้ AI แบบนี้ช่วยเปลี่ยนเรื่องนามธรรมให้กลายเป็นภาพเคลื่อนไหวที่เข้าใจง่ายขึ้น
ลองนึกภาพธุรกิจประกันที่อยากอธิบายความเสี่ยงทางการเงิน ธุรกิจสุขภาพที่อยากอธิบายกลไกในร่างกาย หรือแบรนด์เทคโนโลยีที่อยากเล่าเบื้องหลังระบบที่ซับซ้อน ถ้า AI สามารถช่วยแปลงสิ่งเหล่านี้เป็นวิดีโอได้จริง ภาระของคนทำคอนเทนต์จะเปลี่ยนจากการผลิตทุกอย่างเอง ไปสู่การออกแบบความคิดให้ชัดพอที่ AI จะสร้างต่อได้
คนทำคอนเทนต์จะไม่ได้เป็นแค่คนกดเครื่องมือ แต่จะเป็นเหมือน Creative Director ที่ต้องเห็นภาพรวมของเรื่องราว เห็นอารมณ์ของแบรนด์ เห็นจุดที่ผู้ชมควรรู้สึก และแปลงสิ่งเหล่านั้นให้เป็นคำสั่งที่ AI เข้าใจได้
Digital Avatar และคำถามเรื่องความรับผิดชอบ
อีกส่วนหนึ่งที่ Google พูดถึงคือการสร้างวิดีโอด้วย Digital Avatar ของตัวเอง ผ่านฟีเจอร์ Avatars ซึ่งสร้างเวอร์ชันดิจิทัลของผู้ใช้ เพื่อให้สามารถสร้างวิดีโอที่มีภาพและเสียงคล้ายตัวเองได้ แต่ Google ก็ระบุว่าสำหรับความสามารถด้านการแก้ไขเสียงหรือคำพูด นอกเหนือจากฟีเจอร์ Avatar ยังอยู่ระหว่างการทดสอบและพิจารณาเรื่องการนำมาใช้ให้รับผิดชอบ
นี่เป็นประเด็นที่ควรจับตา เพราะเมื่อ AI สร้างวิดีโอที่ดูเหมือนคนจริง พูดเหมือนคนจริง และเคลื่อนไหวเหมือนคนจริงได้มากขึ้น คำถามเรื่องความยินยอม ความปลอดภัย การแอบอ้าง และความโปร่งใสจะยิ่งสำคัญ
Google ระบุว่าวิดีโอทั้งหมดที่สร้างด้วย Omni จะมี SynthID ซึ่งเป็นลายน้ำดิจิทัลแบบมองไม่เห็น และสามารถตรวจสอบได้ผ่าน Gemini app, Gemini ใน Chrome และ Google Search
ในเชิงเทคโนโลยี นี่คือความพยายามในการสร้างระบบตรวจสอบที่ช่วยให้คนแยกแยะได้ว่าอะไรเป็นคอนเทนต์ที่สร้างด้วย AI แต่ในเชิงสังคม เรื่องนี้อาจใหญ่กว่านั้น เพราะยิ่ง AI สร้างสื่อได้เนียนขึ้น ความไว้วางใจต่อคอนเทนต์บนอินเทอร์เน็ตก็จะกลายเป็นโจทย์ที่ทุกแพลตฟอร์ม ทุกแบรนด์ และทุกคนทำคอนเทนต์ต้องรับผิดชอบร่วมกัน
Gemini Omni เปิดให้ใครใช้บ้าง
สำหรับการเปิดให้ใช้งาน Google ระบุว่า Gemini Omni Flash เริ่มทยอยเปิดให้ผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra ใช้งานทั่วโลกผ่าน Gemini app และ Google Flow รวมถึงเริ่มเปิดให้ใช้งานฟรีบน YouTube Shorts และ YouTube Create App และจะทยอยเปิดให้นักพัฒนาและลูกค้าองค์กรใช้งานผ่าน API ในอีกไม่กี่สัปดาห์ข้างหน้า
จุดนี้สะท้อนให้เห็นว่า Google ไม่ได้มอง Gemini Omni เป็นเพียงเดโมเทคโนโลยี แต่กำลังพยายามดันเข้าไปอยู่ในเครื่องมือที่คนใช้งานจริง ทั้งฝั่งผู้ใช้ทั่วไป ครีเอเตอร์ แพลตฟอร์มวิดีโอ นักพัฒนา และองค์กร
ถ้ามองในเชิงการแข่งขันของแพลตฟอร์ม AI Video นี่คือสัญญาณว่าโลกของการสร้างวิดีโอด้วย AI กำลังเข้าสู่ช่วงที่จริงจังมากขึ้น ไม่ใช่แค่การทดลองเล่น แต่กำลังเริ่มเชื่อมกับเครื่องมือทำงานจริงมากขึ้นเรื่อย ๆ
Gemini Omni จึงไม่ใช่แค่เครื่องมือใหม่ของ Google แต่เป็นภาพสะท้อนของทิศทางใหญ่ในโลกคอนเทนต์ นั่นคือ AI กำลังขยับจากผู้ช่วยหลังบ้าน มาเป็นผู้ร่วมสร้างสรรค์ที่สามารถทำให้ไอเดียเดินทางจากความคิด ไปสู่ภาพเคลื่อนไหวได้เร็วขึ้น
ขอบคุณภาพจาก Shutterstock AI Generator Prompt: A conceptual image of artificial intelligence turning human ideas into visual creations, abstract glowing AI core in the center, streams of text, images, sound waves, and video frames flowing into the core and transforming into a cinematic scene, premium futuristic design, dark blue and teal color palette, elegant negative space, calm but powerful mood, strategic tech editorial style, soft light bloom, minimal and sophisticated, no text, no logo, no watermark, 16:9 aspect ratio
ทุกวันนี้เทคโนโลยีพัฒนาขึ้นไปทุกวัน ถ้าใช้ให้ดีก็จะเกิดประโยชน์ แต่ถ้าใช้ผิดทางก็จะเกิดโทษครับ ผมหวังว่าทุกคนจะนำการพัฒนาของเทคโนโลยีและบทความนี้ไปใช้ให้เกิดประโยชน์ ไม่มากก็น้อยนะครับ ฝากติดตามบทความด้านการใช้ AI แบบนี้ด้วยนะครับ หรือใครอยากให้นำ AI ตัวไหนมาเล่าให้ฟัง สามารถคอมเมนต์บอกกันได้เลยครับ
สำหรับนักอ่านที่ชอบ และ อยากอ่านบทความเกี่ยวกับการตลาด, Data และ AI เพิ่มเติม สามารถติดตามได้จาก เพจการตลาดวันละตอน รวมไปถึง Twitter Instagram YouTube ของการตลาดวันละตอนได้เลยนะครับ แล้วพบกันใหม่ในบทความหน้าครับ