AI News

AI Agent ที่ทำได้มากกว่าคุย: Google เปิดตัว Gemini 2.5 Pro Computer Use

เจาะลึก AI Agent ที่สามารถมองเห็นและโต้ตอบกับเว็บไซต์ได้เหมือนมนุษย์ เพื่อปฏิบัติการแทนผู้ใช้ได้อย่างไร้รอยต่อ

Tiger

Admin

2 นาที

8 ตุลาคม 2568

AI Agent Google DeepMind

AI Agent ที่ทำได้มากกว่าคุย: Google เปิดตัว Gemini 2.5 Pro Computer Use

หาก AI สามารถทำงานแทนเราบนเว็บไซต์ได้ทุกอย่าง ตั้งแต่กรอกฟอร์มจนถึงการคลิกปุ่มซับซ้อน โลกของการทำงานจะเปลี่ยนแปลงไปอย่างไร? นี่คือคำถามที่กำลังเป็นจริงในวงการเทคโนโลยีครับ เพราะล่าสุด Google DeepMind ได้เปิดตัว Gemini 2.5 Pro Computer Use ซึ่งเป็น AI Agent ที่ได้รับการปรับแต่งจาก Gemini 2.5 Pro ให้สามารถปฏิบัติการบนเว็บไซต์แทนผู้ใช้ได้จริง ๆ

AI Agent ทำงานอย่างไร้รอยต่อ?

ที่ผ่านมา เราคุ้นเคยกับการใช้ Large Language Models (LLMs) ในการสร้างสรรค์หรือตอบคำถาม แต่เมื่อต้องเผชิญกับภารกิจที่ซับซ้อนบน User Interface (UI) เช่น การคลิก การพิมพ์ การเลื่อนหน้าจอ หรือการกรอกข้อมูลในช่องต่าง ๆ AI ทั่วไปก็ยังทำได้ไม่ดีพอ

Gemini 2.5 Pro Computer Use ได้ก้าวข้ามข้อจำกัดนั้นไปแล้ว โมเดลนี้ใช้ Virtual Browser เพื่อให้ AI สามารถมองเห็นและโต้ตอบกับหน้าจอเว็บไซต์ได้เหมือนมนุษย์ แค่พิมพ์คำสั่งเดียว (Single Text Prompt) Agent ตัวนี้ก็สามารถดำเนินการ

ท่องเว็บ เพื่อค้นหาข้อมูลที่ซับซ้อน
กรอกฟอร์ม และเลือกเมนู Dropdowns อย่างแม่นยำ
คลิกปุ่มต่าง ๆ และเลื่อนหน้าจอ (Scrolling)
นำทางเข้าสู่หน้าจอที่ต้องมีการล็อกอิน

Google ระบุว่า นี่คือก้าวสำคัญถัดไปในการสร้าง General-Purpose Agents ที่จะเข้ามามีบทบาทในโลกธุรกิจอย่างจริงจัง

เจาะลึกกลไก: AI Agent คิด และ ทำ ได้อย่างไร?

สิ่งที่คนรุ่นใหม่ควรทำความเข้าใจคือ หลักการทำงานของ Agent ตัวนี้ ไม่ใช่การทำงานแบบสุ่ม แต่ทำงานตาม Interaction Loop ที่เป็นระบบ ด้วยแกนหลักของเทคโนโลยี AI Agent ดังนี้
1. รับข้อมูลรอบด้าน: Agent จะได้รับโจทย์จากผู้ใช้, ภาพหน้าจอ (Screenshot) ของอินเทอร์เฟซ, และประวัติการกระทำที่เคยทำมา
2. วิเคราะห์และวางแผน: โมเดลจะวิเคราะห์ข้อมูลภาพและข้อความทั้งหมด และสร้างคำสั่งการกระทำบน UI ที่เหมาะสมที่สุดออกมา เช่น click_at (คลิกที่พิกัด) type_text_at (พิมพ์ข้อความ) หรือ scroll_document (เลื่อนหน้าจอ)
3. ลงมือทำและ Feedback: เมื่อคำสั่งถูกดำเนินการ สถานะของอินเทอร์เฟซจะอัปเดต และภาพหน้าจอใหม่ก็จะถูกส่งกลับไปให้โมเดลประมวลผลต่อทันที วนลูปไปเรื่อย ๆ จนกว่าภารกิจจะสำเร็จ

การทำงานแบบนี้ทำให้ Agent สามารถควบคุมและนำทางอินเทอร์เฟซได้อย่างมีประสิทธิภาพสูง ตัวอย่างเช่น ทีม Google Payments ใช้ Agent นี้ในการกู้คืนงานทดสอบที่ล้มเหลว (Failed Test Executions) ได้ถึง 60% ซึ่งแสดงให้เห็นถึงความสามารถในการทำงานซ้ำ ๆ ที่ต้องการความแม่นยำ

ผลลัพธ์ที่เหนือกว่าคู่แข่ง

ผลการทดสอบชี้ชัดว่า Gemini 2.5 Computer Use มีประสิทธิภาพสูงกว่าคู่แข่งในหลายมาตรฐาน ไม่ว่าจะเป็น
- Online-Mind2Web: Gemini 2.5 Computer Use นำที่ 65.7% ชนะ Claude Sonnet 4 ที่ 61.0%
- WebVoyager: ทำได้ถึง 79.9% ในขณะที่คู่แข่งทำได้เพียง 69.4% และ 61.0%

Agent ตัวนี้ยังทำงานด้วยความหน่วงที่ต่ำกว่า (Lower Latency) ซึ่งเป็นปัจจัยสำคัญในการนำไปใช้ในงานจริง

โอกาสและทักษะแห่งอนาคตที่เปิดกว้าง

การมาถึงของ AI Agent ที่สามารถลงมือปฏิบัติการได้จริงเช่นนี้ คือสัญญาณสำคัญที่บอกว่าทักษะที่จำเป็นในอนาคตกำลังเปลี่ยนไป
1. การเข้าใจหลักการควบคุม UI ด้วย AI: การเรียนรู้หลักการทำงานแบบ Interaction Loop และการให้ AI อ่านภาพหน้าจอ คือทักษะขั้นสูง ที่จะทำให้น้อง ๆ สามารถสร้าง Agent ที่ทำงานได้จริง
2. การคิดเชิงตรรกะสำหรับการสร้าง Agent: การที่เราสามารถกำหนดขั้นตอนและเป้าหมายที่ชัดเจนให้กับ Agent (Task Prompt) คือการใช้ทักษะ Logical Thinking ขั้นสูง
3. ความสำคัญของการทำ Automation: โลกธุรกิจจะต้องการบุคลากรที่สามารถออกแบบระบบที่ใช้ Agent เหล่านี้เพื่อทำงานซ้ำ ๆ และซับซ้อนแทนคน ซึ่งเป็นการเพิ่มประสิทธิภาพการทำงานในภาพรวม

โลกของ AI กำลังก้าวข้ามจากการสนทนาไปสู่การปฏิบัติการอย่างแท้จริง การมาของ Gemini 2.5 Pro Computer Use คือข้อพิสูจน์ว่า AI Agent จะเข้ามาเป็นส่วนหนึ่งในชีวิตประจำวันและการทำงานของเราอย่างหลีกเลี่ยงไม่ได้

ทักษะที่จะมีค่าที่สุดไม่ใช่แค่การใช้เครื่องมือเป็น แต่คือการเข้าใจกลไกเบื้องหลัง การออกแบบตรรกะการทำงาน (Logic) และการควบคุม Agent เหล่านี้ให้สามารถแก้ปัญหาที่ซับซ้อนได้จริงครับ

ที่มา: https://venturebeat.com/ai/googles-ai-can-now-surf-the-web-for-you-click-on-buttons-and-fill-out-forms