Google ประกาศเปิดตัวฟีเจอร์ใหม่บน Gemini 3 Flash อย่าง Agentic Vision ฟีเจอร์ที่เข้ามาช่วยให้ AI ดังกล่าวเก่งขึ้นในด้านการวิเคราะห์รูปภาพ ด้วยการเปลี่ยนจากแค่การมองรูปผ่าน ๆ แล้วตอบ เป็นการสั่งให้ Gemini 3 Flash เริ่มคิดก่อนจะตอบด้วยขั้นต่อไปนี้ 

  • Think – วิเคราะห์คำถามของผู้ใช้และภาพที่แนบมา พร้อมวางแผนการคิดอย่างเป็นขั้นตอน 
  • Act – เริ่มสั่งเขียนโค้ด Python เพื่อวิเคราะห์ภาพจริงจัง ด้วยการซูมดูแต่ละจุด การสร้างกรอบเพื่อนับจำนวนของวัตถุในภาพ รวมถึงใส่คำอธิบายภาพต่าง ๆ 
  • Observe – ตรวจเช็กภาพที่วิเคราะห์อีกครั้ง ก่อนให้คำตอบสุดท้ายกับผู้ใช้ 
Gemini 3 Flash Agentic Vision

ซึ่งนอกจากฟีเจอร์วิเคราะห์รูปทั่วไปแล้ว Agentic Vision ยังสามารถแกะข้อมูลจากภาพตารางสุดซับซ้อนเป็นแผนภูมิได้ง่าย ๆ โดย Google เผยว่าการนำฟีเจอร์นี้มาใช้ช่วยให้ประสิทธิภาพการประมวลผลภาพดีขึ้นถึง 5-10% ในปัจจุบัน Agentic Vision เริ่มทยอยเปิดใช้งานใน Gemini แล้ว รวมถึงในส่วนของนักพัฒนาก็สามารถใช้งานฟีเจอร์นี้ได้ผ่าน Gemini API ใน Google AI Studio และ Vertex AI อีกด้วย 

Gemini 3 Flash วิเคราะห์ภาพดีขึ้น

ที่มา : Google Blog, 9to5Google