Google โชว์ AI สร้างวิดีโอตามคำสั่ง ลงมาสู้สงครามปัญญาประดิษฐ์ระหว่าง Meta, DALL-E, และ Midjourney

Google เพิ่งโชว์ระบบ AI Imagen ที่สามารถสร้างวิดีโอขึ้นมาตามคำสั่งของเราได้ นับเป็นการส่งเทคโนโลยีลงมาชนกับ Meta ที่เพิ่งเปิดตัว AI สร้างวิดีโอในลักษณะเดียวกันเมื่อไม่นานมานี้ ซึ่งกูเกิลเคลมว่าสามารถผลิตวิดีโอออกมาได้หลากหลายสไตล์มาก ๆ และมีความละเอียดในการควบคุมตามคำสั่งสูง ส่วนหน้าตาผลงานเป็นแบบไหนเราลองมาดูกัน

ระบบ Text-to-Video หรือตัวสร้างวิดีโอตามคำอธิบายนั้นก็มีมานานสักพักแล้ว แต่ Imagen Video ของ Google นั้นมีความฉลาดมากขึ้นกว่าเดิม สามารถสร้างภาพและวิดีโอตามคำอธิบายยาก ๆ ที่ตัวอื่นเจอแล้วมักมีปัญหากันได้ดีกว่า

Imagen Video ถือเป็น AI ประมวลผลแบบ diffusion เฉกเช่นเดียวกันกับตัวปัญญาประดิษฐ์อื่น ๆ อย่าง DALL-E 2 และ Stable Diffusion ซึ่งใช้ระบบทำลาย และสร้างภาพขึ้นมาใหม่จากข้อมูลภาพตัวอย่างที่ให้มันไป

นักวิจัย Imagen ได้ระบุขั้นตอนการทำงานของมันเอาไว้ว่า ตอนแรกตัว AI จะนำคำอธิบายที่เป็นตัวหนังสือ เข้าไปประมวลผล แล้วสร้างภาพออกมาทั้งหมด 16 เฟรม แล้วจับมารวมกันเป็นวิดีโอ 3 FPS ที่มีความละเอียด 24 x 48 พิกเซล จากนั้นเจ้า AI ก็จะเอาวิดีโอที่ได้มาขยายความกว้างขึ้น พร้อมวิเคราะห์สร้างเฟรมขึ้นมามากขึ้นรวมแล้วเป็น 128 เฟรม ซึ่งก็จะรวมออกมาเป็นผลงานวิดีโอความละเอียด 720p (1280×768) 24 FPS

แต่กว่าจะทำวิดีโอออกมาแบบนี้ได้ Imagen Video ต้องผ่านการสอนด้วยฐานข้อมูลวิดีโอ-ตัวหนังสือกว่า 14 ล้านชุดข้อมูล ภาพ-ตัวหนังสืออีกราว 60 ล้านชุดข้อมูล และใช้รวมไปถึงฐานข้อมูลสาธารณะ LAION-400M ด้วย

Imagen มีความเจ๋งอยู่ตรงที่สามารถเรนเดอร์ตัวหนังสือได้ด้วย ต่างกับ Dall-E ที่ยังเรนเดอร์ออกมาเป็นตัวเละ ๆ ภาพเบลอ ๆ อยู่ แถมยังสามารถเข้าใจโครงสร้าง 3 มิติ ทำให้สามารถเรนเดอร์ภาพวัตถุจากมุมอื่น ๆ ได้ด้วย

แต่ตอนนี้ก็ยังไม่ได้เก่งไปหมดทุกเรื่อง ยังมีปัญหาเดียวกันกับ Make-A-Video ของ Meta คือการสร้างวัตถุเหนือธรรมชาติ ขอบเบลอเลือนหายอยู่บ้าง นอกจากนี้ยังไม่มีระบบตรวจจับเนื้อหาที่ไม่เหมาะสม ทำให้สามารถใส่ข้อมูลล่อแหลมเข้าไปประมวลผลออกมาเป็นภาพและวิดีโอได้ ตอนนี้ Google จึงขอแก้ไขปัญหาส่วนนี้ก่อน ค่อยนำออกมาให้คนทั่วไปใช้งานกันได้ครับ