Back to News
AI News

AI Agent ที่ทำได้มากกว่าคุย: Google เปิดตัว Gemini 2.5 Pro Computer Use

เจาะลึก AI Agent ที่สามารถมองเห็นและโต้ตอบกับเว็บไซต์ได้เหมือนมนุษย์ เพื่อปฏิบัติการแทนผู้ใช้ได้อย่างไร้รอยต่อ

Tiger's avatar
Tiger
Admin
2 min
October 8, 2025
AI Agent Google DeepMind

หาก AI สามารถทำงานแทนเราบนเว็บไซต์ได้ทุกอย่าง ตั้งแต่กรอกฟอร์มจนถึงการคลิกปุ่มซับซ้อน โลกของการทำงานจะเปลี่ยนแปลงไปอย่างไร? นี่คือคำถามที่กำลังเป็นจริงในวงการเทคโนโลยีครับ เพราะล่าสุด Google DeepMind ได้เปิดตัว Gemini 2.5 Pro Computer Use ซึ่งเป็น AI Agent ที่ได้รับการปรับแต่งจาก Gemini 2.5 Pro ให้สามารถปฏิบัติการบนเว็บไซต์แทนผู้ใช้ได้จริง ๆ


AI Agent ทำงานอย่างไร้รอยต่อ?

ที่ผ่านมา เราคุ้นเคยกับการใช้ Large Language Models (LLMs) ในการสร้างสรรค์หรือตอบคำถาม แต่เมื่อต้องเผชิญกับภารกิจที่ซับซ้อนบน User Interface (UI) เช่น การคลิก การพิมพ์ การเลื่อนหน้าจอ หรือการกรอกข้อมูลในช่องต่าง ๆ AI ทั่วไปก็ยังทำได้ไม่ดีพอ

Gemini 2.5 Pro Computer Use ได้ก้าวข้ามข้อจำกัดนั้นไปแล้ว โมเดลนี้ใช้ Virtual Browser เพื่อให้ AI สามารถมองเห็นและโต้ตอบกับหน้าจอเว็บไซต์ได้เหมือนมนุษย์ แค่พิมพ์คำสั่งเดียว (Single Text Prompt) Agent ตัวนี้ก็สามารถดำเนินการ

  1. ท่องเว็บ เพื่อค้นหาข้อมูลที่ซับซ้อน
  2. กรอกฟอร์ม และเลือกเมนู Dropdowns อย่างแม่นยำ
  3. คลิกปุ่มต่าง ๆ และเลื่อนหน้าจอ (Scrolling)
  4. นำทางเข้าสู่หน้าจอที่ต้องมีการล็อกอิน

Google ระบุว่า นี่คือก้าวสำคัญถัดไปในการสร้าง General-Purpose Agents ที่จะเข้ามามีบทบาทในโลกธุรกิจอย่างจริงจัง


เจาะลึกกลไก: AI Agent คิด และ ทำ ได้อย่างไร?

สิ่งที่คนรุ่นใหม่ควรทำความเข้าใจคือ หลักการทำงานของ Agent ตัวนี้ ไม่ใช่การทำงานแบบสุ่ม แต่ทำงานตาม Interaction Loop ที่เป็นระบบ ด้วยแกนหลักของเทคโนโลยี AI Agent ดังนี้
1. รับข้อมูลรอบด้าน: Agent จะได้รับโจทย์จากผู้ใช้, ภาพหน้าจอ (Screenshot) ของอินเทอร์เฟซ, และประวัติการกระทำที่เคยทำมา
2. วิเคราะห์และวางแผน: โมเดลจะวิเคราะห์ข้อมูลภาพและข้อความทั้งหมด และสร้างคำสั่งการกระทำบน UI ที่เหมาะสมที่สุดออกมา เช่น click_at (คลิกที่พิกัด) type_text_at (พิมพ์ข้อความ) หรือ scroll_document (เลื่อนหน้าจอ)
3. ลงมือทำและ Feedback: เมื่อคำสั่งถูกดำเนินการ สถานะของอินเทอร์เฟซจะอัปเดต และภาพหน้าจอใหม่ก็จะถูกส่งกลับไปให้โมเดลประมวลผลต่อทันที วนลูปไปเรื่อย ๆ จนกว่าภารกิจจะสำเร็จ

การทำงานแบบนี้ทำให้ Agent สามารถควบคุมและนำทางอินเทอร์เฟซได้อย่างมีประสิทธิภาพสูง ตัวอย่างเช่น ทีม Google Payments ใช้ Agent นี้ในการกู้คืนงานทดสอบที่ล้มเหลว (Failed Test Executions) ได้ถึง 60% ซึ่งแสดงให้เห็นถึงความสามารถในการทำงานซ้ำ ๆ ที่ต้องการความแม่นยำ


ผลลัพธ์ที่เหนือกว่าคู่แข่ง

ผลการทดสอบชี้ชัดว่า Gemini 2.5 Computer Use มีประสิทธิภาพสูงกว่าคู่แข่งในหลายมาตรฐาน ไม่ว่าจะเป็น
- Online-Mind2Web: Gemini 2.5 Computer Use นำที่ 65.7% ชนะ Claude Sonnet 4 ที่ 61.0%
- WebVoyager: ทำได้ถึง 79.9% ในขณะที่คู่แข่งทำได้เพียง 69.4% และ 61.0%

Agent ตัวนี้ยังทำงานด้วยความหน่วงที่ต่ำกว่า (Lower Latency) ซึ่งเป็นปัจจัยสำคัญในการนำไปใช้ในงานจริง


โอกาสและทักษะแห่งอนาคตที่เปิดกว้าง

การมาถึงของ AI Agent ที่สามารถลงมือปฏิบัติการได้จริงเช่นนี้ คือสัญญาณสำคัญที่บอกว่าทักษะที่จำเป็นในอนาคตกำลังเปลี่ยนไป
1. การเข้าใจหลักการควบคุม UI ด้วย AI: การเรียนรู้หลักการทำงานแบบ Interaction Loop และการให้ AI อ่านภาพหน้าจอ คือทักษะขั้นสูง ที่จะทำให้น้อง ๆ สามารถสร้าง Agent ที่ทำงานได้จริง
2. การคิดเชิงตรรกะสำหรับการสร้าง Agent: การที่เราสามารถกำหนดขั้นตอนและเป้าหมายที่ชัดเจนให้กับ Agent (Task Prompt) คือการใช้ทักษะ Logical Thinking ขั้นสูง
3. ความสำคัญของการทำ Automation: โลกธุรกิจจะต้องการบุคลากรที่สามารถออกแบบระบบที่ใช้ Agent เหล่านี้เพื่อทำงานซ้ำ ๆ และซับซ้อนแทนคน ซึ่งเป็นการเพิ่มประสิทธิภาพการทำงานในภาพรวม


โลกของ AI กำลังก้าวข้ามจากการสนทนาไปสู่การปฏิบัติการอย่างแท้จริง การมาของ Gemini 2.5 Pro Computer Use คือข้อพิสูจน์ว่า AI Agent จะเข้ามาเป็นส่วนหนึ่งในชีวิตประจำวันและการทำงานของเราอย่างหลีกเลี่ยงไม่ได้

ทักษะที่จะมีค่าที่สุดไม่ใช่แค่การใช้เครื่องมือเป็น แต่คือการเข้าใจกลไกเบื้องหลัง การออกแบบตรรกะการทำงาน (Logic) และการควบคุม Agent เหล่านี้ให้สามารถแก้ปัญหาที่ซับซ้อนได้จริงครับ

ที่มา: https://venturebeat.com/ai/googles-ai-can-now-surf-the-web-for-you-click-on-buttons-and-fill-out-forms