เมื่อคืนที่ผ่านมานี้ Google ได้เปิดตัว Gemini ซึ่งเป็นโมเดลปัญญาประดิษฐ์ LLM ที่ถูกออกแบบมาเป็น multimodal ซึ่งมีความสามารถที่ต้องพูดเลยว่าค่อนข้างเก่งกาจ ฉลาดจนอึ้งเลยจริง ๆ เพราะสามารถเข้าใจอินพุตทุกประเภทอย่างลึกซึ้งและเป็นเหตุเป็นผลในเวลาเดียวกันได้ และในบทความนี้ก็คือ Hands-on ความสามารถของ Gemini ค่ะ
ในการทดสอบนี้ Google ได้อัดวิดีโอผลการทดสอบด้วยการใช้ภาพและทำการถาม-ตอบ กับ Gemini เกี่ยวกับสิ่งที่มันเห็น และนี่คือผลการทดสอบและสิ่งที่เป็นความสามารถที่โดดเด่นของ Gemini
ทดสอบวาดรูปให้ Gemini ทาย
ผู้ทดสอบได้นำกระดาษเล็ก ๆ มาวางไว้และค่อย ๆ วาดรูปทรงลงไป โดยที่ไม่ได้วาดเป็นรูปเป็นร่างในซะทีเดียว จากนั้นก็ให้ Gemini ทายว่ามันคืออะไร ซึ่งเจ้า Gemini สามารถค่อย ๆ อธิบายรูปทรงได้อย่างละเอียดและถูกต้อง ในความตั้งใจของผู้ทดสอบต้องการจะวาดเป็ด แต่เมื่อยังไม่ได้วาดน้ำลงไป Gemini ทายว่าเป็น “นก” ซึ่งก็ถือว่าใกล้เคียงเลย และเมื่อวาดรูปน้ำลงไปก็ได้คำตอบที่ถูกต้องทันทีว่ามันคือเป็ดนั่นเอง


และเมื่อระบายสีน้ำเงินลงไปที่ตัวเป็ด Gemini ก็ท้วงได้ทันทีว่านี่ไม่ใช่สีตามธรรมชาตินะ พร้อมทั้งอธิบายว่าปกติแล้วเป็ดมีสีอะไรบ้าง และเพื่อเพิ่มความยาก ผู้ทดสอบก็ถามอีกทีว่า แน่ใจหรอ? พร้อมทั้งยกเป็ดสีฟ้าขึ้นมาให้เห็นทำเอา AI ตกใจเป็นอย่างมาก พาร์ทนี้คือตลกสุด ๆ จากนั้นก็มีการทายวัสดุว่าเป็ดตัวนี้ทำมาจากอะไร ผลลัพธ์ที่ได้คือทายถูกว่าเป็นเป็ดยางสำหรับลอยในอ่างอาบน้ำจ้า

ยังไม่จบเพียงเท่านี้ เพราะนอกจากจะทายวัสดุได้แล้ว ยังสามารถบอกชื่อเรียกของเป็ดยางในภาษาอื่น ๆ ตลอดจนสอนออกเสียงตามด้วย

ทดสอบให้ Gemini สร้างเกมให้เล่น
ความสามารถถัดไปคือได้มีการให้ Gemini สร้างเกมให้เราเล่น โดยพื้นฐานตามสิ่งที่ AI เห็นเลย ซึ่งผู้ทดสอบได้ยกแผนที่ขึ้นมาและให้ลองสร้างเกมโดยใช้ Emoji เกมที่ได้ก็คือ “เกมทายประเทศ” ที่น่าทึ่งคือ แม้แผนที่จะเป็นภาพที่ถูกเตรียมขึ้นมาเอง Gemini สามารถคิดคำถามและเฉลยคำตอบได้ด้วยตัวเอง


ทดสอบ Visual Puzzle
ในพาร์ทนี้การทดสอบจะมีความยากขึ้นมาอีกหน่อยคือการทายสิ่งที่เห็น สิ่งแรกที่จำมาทดสอบเลยก็คือ การทายสิ่งของที่อยู่ใต้แก้ว 3 ใบ ซึ่งผู้ทดสอบได้เอาก้อนกระดาษใส่ไว้ขางใต้แก้วดังกล่าวจากนั้นสลับหมุนไปมาให้สับสน จริง ๆ แล้วขนาดคนทั่วไปยังทายผิดทายถูกเลยนะ แต่ Gemini ทายถูกตั้งแต่ครั้งแรก

ถัดมาได้ทำการทดสอบท่าทางว่าเรากำลังทำอะไรอยู่ ผู้ทดสอบได้ทำท่าแบมือ ชูสองนิ้ว และกำมือ ซึ่ง AI ก็สามารถตอบได้ทันทีว่ากำลังเล่นค้อน กระดาษ กรรไกร หรือที่รู้จักกันในเกมเป่ายิ้งฉุบ

จากนั้นได้ขยับความยากขึ้นมาอีกหน่อยด้วยการให้ทายการทำมือรูปทรงต่าง ๆ ที่มักนิยมทำเป็นรูปสัตว์ ผู้ทดสอบได้ทำทั้งรูปผีเสื้อ, สุนัข ก็สามารถทายได้หมด แต่ก็ยังเจอจุดพลาดเมื่อเจอมายากลเหรียญหายเข้าไป


การสร้างความเชื่อมโยง
อันนี้ถือว่าเป็นอีกหนึ่งการทดสอบที่ทำเอาทึ่งอยู่เหมือนกัน คือการให้ Gemini สร้างความเชื่อมโยงระหว่างของสองสิ่งที่ดูเหมือนจะไม่ได้มีความเกี่ยวเนื่องกันซะทีเดียว ตัวอย่าง ของทีทดสอบคือเหรียญและคุกกี้ Gemini ก็ได้เชื่อมโยงว่าของสองสิ่งนี้เป็นวงกลมและแบน เป็นต้น

ทดสอบใช้ AI เจนภาพตามที่เห็นวัตถุ
นอกจากนี้ Gemini ยังช่วยสร้างไอเดียตามสิ่งที่เห็นได้ อย่างที่ผู้ทดสอบได้นำไหมพรมสีเขียวและสีม่วงมาวางไว้และปล่อยให้ AI เสนอไอเดียให้หน่อยว่าจะทำไรได้บ้าง ผลที่ได้คือ Gemini แนะนำให้ถักเป็นแก้วมังกร, เค้กสีเขียวหัวใจสีชมพู (เหมือนเค้กมัทฉะอยู่นะ) หรือถ้ายังไม่ถูกใจจะให้ออกไอเดียเป็นรูปสัตว์ก็ทำได้เหมือนกันนะ

ทดสอบตรรกะและความเป็นเหตุเป็นผล
เมื่อลองวาดเส้นทางว่าในทางนี้เมื่อเลี้ยวซ้ายจะเจอเป็ด เลี้ยวขวาจะเจอหมี แล้วเป็นสีฟ้าตัวนี้ควรไปทางไหน Gemini ก็ตอบได้อย่างมั่นใจพร้อมให้เหตุผลด้วยว่าทำไมถึงเลือกไปหาเป็ดด้วยกัน

ในการทดสอบที่ยากขึ้นมาชนิดที่ว่าแค่เห็นก็ปวดหัวแล้ว ก็คือแบบทดสอบลากเส้นวาดภาพตามจุดที่วางไว้ เมื่อวางกระดาษที่มีเพียงขีดไม่กี่ขีดและจุดที่มีตัวเลขลงไป Gemini ก็รู้ได้ทันทีว่าภาพนี้คือน้องปู

หรือจะเป็นการทดสอบความรู้ทางด้านฟิลิกส์หรือวิทยาศาสตร์ก็ทำได้ดีเช่นเดียวกัน ทั้ง การเรียงลำดับระหว่างดวงอาทิตย์ โลกและดาวเสาร์, การทายดีไซน์ของรถยนต์จากภาพวาดว่าดีไซน์ไหนจะวิ่งได้ไวกว่ากัน หรือ รถไฟเหาะแบบไหนจะเล่นได้สนุกกว่ากันแล้วคนที่นั่งตรงนั้นน่าจะพูดว่าอะไร


การแปลในสิ่งที่เห็น
ในพาร์ทนี้ผู้ทดสอบได้ลองวาดรูปเครื่องดนตรีลงไป เริ่มต้นจากกีตาร์ จากนั้น Gemini ก็แสดงเพลงที่มาจากเสียงกีต้าร์ขึ้นมา และเมื่อเติมรายละเอียดอื่น ๆ ลงไปอย่างพวกแอมป์กีต้าร์, กลอง หรือใส่ต้นมะพร้าว Gemini สามารถคาดเดาและสร้างเสียงออกมาได้ตรงตามสถานการณ์เลย

ทดสอบความเข้าใจในวัฒนธรรม
การทดสอบสุดท้ายที่จะบอกว่า Gemini สามารถเข้าใจอินพุตที่ซับซ้อนได้อย่างลึกซึ้งจริง ๆ ก็คือการทายท่าทางหรือสิ่งที่เห็น หลังจากผู้ทดสอบได้เปิดคลิปชายที่กำลังแสดงท่าหงายหลังอยู่ ซึ่งดูเผิน ๆ ก็แอบตอบยากว่ามาจากหนังเรื่องอะไร แต่ Gemini สามารถตอบได้ว่ามาจาก The Matrix หรือสามารถทายได้ว่าคลิปที่เปิดอยู่จะมีเหตุการณ์เป็นยังไงบ้าง

ทั้งหมดนี้เป็นส่วนหนึ่งของความสามารถของ Gemini ที่ถูกนำมาโชว์ให้ได้ทึ่งกัน บอกเลยว่าบางอย่างค่อนข้างยากจริง ๆ และไม่คิดว่า AI จะทำได้ขนาดนี้ เห็นแล้วก็แอบขนลุกอยู่เหมือนกันนะเนี่ย
ที่มา : Google
Comment