Google ประกาศเปิดตัวฟีเจอร์ใหม่บน Gemini 3 Flash อย่าง Agentic Vision ฟีเจอร์ที่เข้ามาช่วยให้ AI ดังกล่าวเก่งขึ้นในด้านการวิเคราะห์รูปภาพ ด้วยการเปลี่ยนจากแค่การมองรูปผ่าน ๆ แล้วตอบ เป็นการสั่งให้ Gemini 3 Flash เริ่มคิดก่อนจะตอบด้วยขั้นต่อไปนี้
- Think – วิเคราะห์คำถามของผู้ใช้และภาพที่แนบมา พร้อมวางแผนการคิดอย่างเป็นขั้นตอน
- Act – เริ่มสั่งเขียนโค้ด Python เพื่อวิเคราะห์ภาพจริงจัง ด้วยการซูมดูแต่ละจุด การสร้างกรอบเพื่อนับจำนวนของวัตถุในภาพ รวมถึงใส่คำอธิบายภาพต่าง ๆ
- Observe – ตรวจเช็กภาพที่วิเคราะห์อีกครั้ง ก่อนให้คำตอบสุดท้ายกับผู้ใช้

ซึ่งนอกจากฟีเจอร์วิเคราะห์รูปทั่วไปแล้ว Agentic Vision ยังสามารถแกะข้อมูลจากภาพตารางสุดซับซ้อนเป็นแผนภูมิได้ง่าย ๆ โดย Google เผยว่าการนำฟีเจอร์นี้มาใช้ช่วยให้ประสิทธิภาพการประมวลผลภาพดีขึ้นถึง 5-10% ในปัจจุบัน Agentic Vision เริ่มทยอยเปิดใช้งานใน Gemini แล้ว รวมถึงในส่วนของนักพัฒนาก็สามารถใช้งานฟีเจอร์นี้ได้ผ่าน Gemini API ใน Google AI Studio และ Vertex AI อีกด้วย

ที่มา : Google Blog, 9to5Google

Comment