Google เปิดตัว Gemini 2.0: โมเดล AI รุ่นใหม่สำหรับยุค AI Agent

Google ได้เปิดตัว Gemini 2.0 ซึ่งเป็นโมเดล AI ขั้นสูงที่สุดเท่าที่เคยมีมาของ Google โดย Gemini 2.0 พัฒนาต่อยอดจากความสามารถหลายโหมดของ Gemini 1.0 โดยการโต้ตอบกลับมาด้วยภาพและเสียง การใช้เครื่องมือ และโมเดล AI Agent ที่สามารถโต้ตอบกับเราได้มากกว่าเดิม ซึ่ง Gemini 2.0 ได้เพิ่มประสิทธิภาพการค้นหาผ่าน Gemini และอื่น ๆ พร้อมฟีเจอร์ต่าง ๆ เช่น การวิจัยเชิงลึกสำหรับการสำรวจหัวข้อที่ซับซ้อน เป็นต้น

โดย Gemini 2.0 ขับเคลื่อนด้วย Trillium TPU ที่ปรับแต่งเอง และได้ลงทุนด้านนวัตกรรม AI กว่า 10 ปี อีกด้วย โดยได้เปิดตัวโมเดลแรกในตระกูลในชื่อ ‘Gemini 2.0 Flash’ ที่กำลังอยู่ในขั้นตอนการทดลอง โดยโมเดลนี้เป็นโมเดลหลักของบริษัทที่มีค่าความหน่วงต่ำ และประสิทธิภาพการทำงานที่เพิ่มขึ้นกว่าเดิม โดยแบ่งหัวข้อที่น่าสนใจเอาไว้ดังนี้

Gemini 2.0 Flash

Gemini 2.0 Flash มาพร้อมประสิทธิภาพ ความเร็ว และความสามารถที่เหนือกว่า Gemini 1.5 Pro เวอร์ชั่นก่อนหน้า พร้อมทั้งรองรับการรับเข้า และส่งออกข้อมูลแบบมัลติโหมด การสร้างภาพ และการผสานรวมเครื่องมือ

เป้าหมายของ Google คือการนำโมเดลไปใช้งานให้รวดเร็วและปลอดภัย โดยได้เริ่มปล่อยเวอร์ชันทดลองของ Gemini 2.0 กับนักพัฒนาเพื่อรวบรวม feedback มาพัฒนาผลิตภัณฑ์ต่อไป โดย Gemini 2.0 Flash พร้อมให้นักพัฒนาใช้งานแล้วผ่าน Google AI Studio และ Vertex AI โดยจะพร้อมให้ใช้งานทั่วไปในเดือนมกราคม และ Multimodal Live API จะ ช่วยให้สามารถสตรีมเสียงและวิดีโอแบบเรียลไทม์ได้

Google เปิดตัว Gemini 2.0: โมเดล AI รุ่นใหม่สำหรับยุค AI Agent

ผู้ใช้ Gemini จะสามารถเข้าถึง Gemini 2.0 Flash ได้ผ่านแอป Gemini ในช่วงต้นปีหน้า และ Gemini 2.0 จะขยายไปยังผลิตภัณฑ์ Google อื่น ๆ เพิ่มเติมต่อไปในอนาคต

Project Astra: ให้ AI ทำหน้าที่เป็นผู้ช่วย และเป็นไกด์ให้เรา

Project Astra เปิดตัวตั้งแต่งาน Google I/O ที่ผ่านมา และได้มีการเริ่มทดสอบ และได้เปิดทดสอบกับกลุ่มผู้ใช้งาน และรับ Feedback เรื่องการที่ AI จะสามารถเป็นผู้ช่วยในชีวิตประจำวันได้นั้น ควรจะเป็นอย่างไร และได้พัฒนาเรื่องความปลอดภัย และจริยธรรมที่ดีขึ้นกว่าเดิม และในเวอร์ชันล่าสุดที่สร้างโดย Gemini 2.0 จะมีจุดเด่นมากขึ้นดังนี้ :

การสนทนาที่ดีขึ้น: ตอนนี้ Project Astra สามารถสนทนาได้หลายภาษา และหลายภาษาผสมกันได้ โดยเข้าใจสำเนียงและคำที่ไม่ค่อยคุ้นเคยได้ดีขึ้น
การใช้งานเครื่องมือใหม่: ด้วย Gemini 2.0 ทำให้ Project Astra สามารถใช้ Google Search, Lens และ Maps ได้ ทำให้มีประโยชน์มากขึ้นในฐานะผู้ช่วยในชีวิตประจำวันของผู้ใช้
หน่วยความจำที่ดีขึ้น: Google ได้ปรับปรุงความสามารถของ Project Astra ในการจดจำสิ่งต่าง ๆ ในขณะที่ให้คุณควบคุมได้เช่นกัน โดยปัจจุบันมีหน่วยความจำในเซสชันนานถึง 10 นาที และสามารถจดจำการสนทนากับ Project Astra ในอดีตได้มากขึ้น เพื่อที่จะได้โต้ตอบกันได้ดีขึ้น และตรงกับความสนใจเรามากขึ้นได้
ความหน่วงที่ได้รับการปรับปรุง : ด้วยความสามารถในการสตรีมใหม่และความเข้าใจเสียงดั้งเดิม ทำให้ AI Agent สามารถเข้าใจภาษาได้ด้วยความหน่วงที่ใกล้เคียงกับการสนทนาของมนุษย์จริง ๆ

นอกจากนี้ Google ก็กำลังนำความสามารถประเภทนี้ มาใช้กับผลิตภัณฑ์ของ Google เช่น แอปฯ Gemini ซึ่งผู้ช่วย AI ของ Google และอุปกรณ์รูปแบบอื่น ๆ เช่น Lens และกำลังเริ่มขยายการทดสอบให้ครอบคลุมกลุ่มคนที่หลากหลายมากขึ้น รวมถึงกลุ่มเล็ก ๆ ที่จะเริ่มทดสอบ Project Astra บน Google Lens เวอร์ชั่นต้นแบบในเร็ว ๆ นี้อีกด้วย

Project Mariner: ผู้ช่วยที่ทำให้เราทำงานที่ซับซ้อนขึ้นได้

Project Mariner เป็นต้นงานวิจัยแบบที่สร้างขึ้นด้วย Gemini 2.0 โดยจะทำหน้าที่เป็นตัวแทนที่จะช่วยสำรวจข้อมูลบนเบราว์เซอร์ของเรา เพื่อให้เข้าใจเนื้อหาของเบราว์เซอร์ รวมถึงข้อความ รูปภาพ โค้ด และแบบฟอร์ม จากนั้นจะใช้ข้อมูลเหล่านั้นผ่านทางส่วนขยาย Chrome เวอร์ชันทดลอง เพื่อช่วยทำงานให้กับผู้ใช้

Project Mariner สามารถทำคะแนนได้ 83.5% ในเกณฑ์มาตรฐาน WebVoyager ซึ่งถือเป็นมาตรฐานใหม่สำหรับประสิทธิภาพการทำงานบนเว็บของตัวแทนเดี่ยว และแม้ว่าจะยังอยู่ในช่วงเริ่มต้น และยังไม่สมบูรณ์แบบ แต่ Project Mariner ก็แสดงให้เห็นถึงความเป็นไปได้ทางเทคนิคที่เพิ่มขึ้นกว่าเดิม

การพัฒนา Project Mariner นั้นยังคงเน้นย้ำถึงความปลอดภัยและความรับผิดชอบ โดยมีฟีเจอร์ต่าง ๆ เช่น การขอการยืนยันของผู้ใช้ ในการดำเนินการที่ละเอียดอ่อนและการอนุญาตที่จำกัด โดยมีผู้ทดสอบ ที่กำลังประเมิน Project Mariner บน Chrome extension เวอร์ชั่นทดลอง และได้เริ่มระบบการทำงานร่วมกับ Ecosystem ของเว็บแล้ว

Jules: ผู้ช่วยสำหรับนักพัฒนา

ต่อไป Google ได้มีการสำรวจว่าเอเจนต์ AI สามารถช่วยเหลือผู้พัฒนาด้วย Jules ได้อย่างไร โดยเป็น Agent ที่ขับเคลื่อนด้วย AI ทดลอง ที่ผสานรวมเข้ากับเวิร์กโฟลว์ GitHub โดยตรง โดยสามารถแก้ไขปัญหา พัฒนาแผน และดำเนินการได้ภายใต้การดูแลของผู้พัฒนา ซึ่งเป็นส่วนหนึ่งของเป้าหมายระยะยาวของ Google ในการสร้าง AI Agent ที่มีประโยชน์ในทุกการใช้งาน รวมถึงการเขียนโค้ดด้วย

ผู้ช่วยในด้านเกมและโดเมนอื่น ๆ

Google DeepMind เป็นระบบ AI ที่มีประวัติอันยาวนาน ในการใช้เกมเพื่อช่วยให้โมเดล AI สามารถทำตามกฎ วางแผน และตรรกะได้ดีขึ้น ตัวอย่างเช่น เมื่อสัปดาห์ที่แล้ว บริษัทได้เปิดตัว Genie 2 ซึ่งเป็นโมเดล AI ที่สามารถสร้างโลก 3 มิติที่เล่นได้หลากหลายรูปแบบจากภาพเดียว โดยอาศัยหลักการนี้ ทำให้สามารถสร้างเอเจนต์โดยใช้ Gemini 2.0 ที่สามารถช่วยนำทางในโลกเสมือนจริงของวิดีโอเกมได้ AI Agent นี้ สามารถหาเหตุผลเกี่ยวกับเกมโดยอาศัยการกระทำบนหน้าจอเพียงอย่างเดียว และเสนอแนะได้ว่าจะต้องทำอะไรต่อไปในการสนทนาแบบเรียลไทม์

Google ยังกำลังร่วมมือกับนักพัฒนาเกม เช่น Supercell เพื่อศึกษาวิธีการทำงานของ AI Agent เหล่านี้ โดยทดสอบความสามารถในการตีความกฎและความท้าทายในเกมที่หลากหลาย ตั้งแต่เกมแนววางแผนอย่าง ‘Clash of Clans’ ไปจนถึงเกมจำลองการทำฟาร์มอย่าง ‘Hay Day’

นอกเหนือจากการทำหน้าที่เป็นเพื่อนเล่นเกมเสมือนจริงแล้ว Agent เหล่านี้ยังสามารถใช้ Google Search เพื่อเชื่อมต่อกับความรู้ด้านเกมบนเว็บไซต์ได้ด้วย และยังกำลังทดลองใช้ Agent ที่สามารถช่วยในโลกกายภาพได้ ด้วยการนำความสามารถในการใช้เหตุผลเชิงพื้นที่ของ Gemini 2.0 มาใช้กับหุ่นยนต์ แม้ว่าจะยังอยู่ในช่วงเริ่มต้น แต่ก็มีความน่าตื่นเต้นเกี่ยวกับศักยภาพของตัวแทนที่สามารถทำงานในสภาพแวดล้อมทางกายภาพได้ด้วย

การสร้างความรับผิดชอบในยุค AI Agent

Gemini 2.0 Flash และต้นแบบการวิจัยต่าง ๆ จะช่วยให้สามารถทดสอบและสร้างความสามารถใหม่ ๆ ซึ่งจะทำให้ฟีเจอร์ต่าง ๆ ของ Google มีประโยชน์มากขึ้น

ในขณะที่ Google กำลังพัฒนาเทคโนโลยีใหม่เหล่านี้ แต่ก็ยังตระหนักถึงความรับผิดชอบที่ตามมา และคำถามมากมายเกี่ยวกับ AI Agent ด้านความปลอดภัยและความมั่นคง Google เลยค่อยเป็นค่อยไปในการพัฒนา โดยวิจัยต้นแบบหลาย ๆ แบบ, เทรน AI ด้านความปลอดภัยซ้ำ ๆ ทำงานร่วมกับ Tester ที่เชื่อถือได้ และผู้เชี่ยวชาญภายนอก และประเมินความเสี่ยง, ความปลอดภัยและการรับรองอย่างครอบคลุม

Google ยังเชื่อมั่นอย่างยิ่งว่าวิธีเดียวที่จะสร้าง AI ได้ คือการมีความรับผิดชอบตั้งแต่เริ่ม และต้องให้ความสำคัญในการทำให้ความปลอดภัยและความรับผิดชอบเป็นองค์ประกอบสำคัญในกระบวนการพัฒนาโมเดลของ Google ต่อไป

ที่มา blog.google