AI Agent ที่ทำได้มากกว่าคุย: Google เปิดตัว Gemini 2.5 Pro Computer Use
เจาะลึก AI Agent ที่สามารถมองเห็นและโต้ตอบกับเว็บไซต์ได้เหมือนมนุษย์ เพื่อปฏิบัติการแทนผู้ใช้ได้อย่างไร้รอยต่อ
หาก AI สามารถทำงานแทนเราบนเว็บไซต์ได้ทุกอย่าง ตั้งแต่กรอกฟอร์มจนถึงการคลิกปุ่มซับซ้อน โลกของการทำงานจะเปลี่ยนแปลงไปอย่างไร? นี่คือคำถามที่กำลังเป็นจริงในวงการเทคโนโลยีครับ เพราะล่าสุด Google DeepMind ได้เปิดตัว Gemini 2.5 Pro Computer Use ซึ่งเป็น AI Agent ที่ได้รับการปรับแต่งจาก Gemini 2.5 Pro ให้สามารถปฏิบัติการบนเว็บไซต์แทนผู้ใช้ได้จริง ๆ
AI Agent ทำงานอย่างไร้รอยต่อ?
ที่ผ่านมา เราคุ้นเคยกับการใช้ Large Language Models (LLMs) ในการสร้างสรรค์หรือตอบคำถาม แต่เมื่อต้องเผชิญกับภารกิจที่ซับซ้อนบน User Interface (UI) เช่น การคลิก การพิมพ์ การเลื่อนหน้าจอ หรือการกรอกข้อมูลในช่องต่าง ๆ AI ทั่วไปก็ยังทำได้ไม่ดีพอ
Gemini 2.5 Pro Computer Use ได้ก้าวข้ามข้อจำกัดนั้นไปแล้ว โมเดลนี้ใช้ Virtual Browser เพื่อให้ AI สามารถมองเห็นและโต้ตอบกับหน้าจอเว็บไซต์ได้เหมือนมนุษย์ แค่พิมพ์คำสั่งเดียว (Single Text Prompt) Agent ตัวนี้ก็สามารถดำเนินการ
- ท่องเว็บ เพื่อค้นหาข้อมูลที่ซับซ้อน
- กรอกฟอร์ม และเลือกเมนู Dropdowns อย่างแม่นยำ
- คลิกปุ่มต่าง ๆ และเลื่อนหน้าจอ (Scrolling)
- นำทางเข้าสู่หน้าจอที่ต้องมีการล็อกอิน
Google ระบุว่า นี่คือก้าวสำคัญถัดไปในการสร้าง General-Purpose Agents ที่จะเข้ามามีบทบาทในโลกธุรกิจอย่างจริงจัง
เจาะลึกกลไก: AI Agent คิด และ ทำ ได้อย่างไร?
สิ่งที่คนรุ่นใหม่ควรทำความเข้าใจคือ หลักการทำงานของ Agent ตัวนี้ ไม่ใช่การทำงานแบบสุ่ม แต่ทำงานตาม Interaction Loop ที่เป็นระบบ ด้วยแกนหลักของเทคโนโลยี AI Agent ดังนี้
1. รับข้อมูลรอบด้าน: Agent จะได้รับโจทย์จากผู้ใช้, ภาพหน้าจอ (Screenshot) ของอินเทอร์เฟซ, และประวัติการกระทำที่เคยทำมา
2. วิเคราะห์และวางแผน: โมเดลจะวิเคราะห์ข้อมูลภาพและข้อความทั้งหมด และสร้างคำสั่งการกระทำบน UI ที่เหมาะสมที่สุดออกมา เช่น click_at (คลิกที่พิกัด) type_text_at (พิมพ์ข้อความ) หรือ scroll_document (เลื่อนหน้าจอ)
3. ลงมือทำและ Feedback: เมื่อคำสั่งถูกดำเนินการ สถานะของอินเทอร์เฟซจะอัปเดต และภาพหน้าจอใหม่ก็จะถูกส่งกลับไปให้โมเดลประมวลผลต่อทันที วนลูปไปเรื่อย ๆ จนกว่าภารกิจจะสำเร็จ
การทำงานแบบนี้ทำให้ Agent สามารถควบคุมและนำทางอินเทอร์เฟซได้อย่างมีประสิทธิภาพสูง ตัวอย่างเช่น ทีม Google Payments ใช้ Agent นี้ในการกู้คืนงานทดสอบที่ล้มเหลว (Failed Test Executions) ได้ถึง 60% ซึ่งแสดงให้เห็นถึงความสามารถในการทำงานซ้ำ ๆ ที่ต้องการความแม่นยำ
ผลลัพธ์ที่เหนือกว่าคู่แข่ง
ผลการทดสอบชี้ชัดว่า Gemini 2.5 Computer Use มีประสิทธิภาพสูงกว่าคู่แข่งในหลายมาตรฐาน ไม่ว่าจะเป็น
- Online-Mind2Web: Gemini 2.5 Computer Use นำที่ 65.7% ชนะ Claude Sonnet 4 ที่ 61.0%
- WebVoyager: ทำได้ถึง 79.9% ในขณะที่คู่แข่งทำได้เพียง 69.4% และ 61.0%
Agent ตัวนี้ยังทำงานด้วยความหน่วงที่ต่ำกว่า (Lower Latency) ซึ่งเป็นปัจจัยสำคัญในการนำไปใช้ในงานจริง
โอกาสและทักษะแห่งอนาคตที่เปิดกว้าง
การมาถึงของ AI Agent ที่สามารถลงมือปฏิบัติการได้จริงเช่นนี้ คือสัญญาณสำคัญที่บอกว่าทักษะที่จำเป็นในอนาคตกำลังเปลี่ยนไป
1. การเข้าใจหลักการควบคุม UI ด้วย AI: การเรียนรู้หลักการทำงานแบบ Interaction Loop และการให้ AI อ่านภาพหน้าจอ คือทักษะขั้นสูง ที่จะทำให้น้อง ๆ สามารถสร้าง Agent ที่ทำงานได้จริง
2. การคิดเชิงตรรกะสำหรับการสร้าง Agent: การที่เราสามารถกำหนดขั้นตอนและเป้าหมายที่ชัดเจนให้กับ Agent (Task Prompt) คือการใช้ทักษะ Logical Thinking ขั้นสูง
3. ความสำคัญของการทำ Automation: โลกธุรกิจจะต้องการบุคลากรที่สามารถออกแบบระบบที่ใช้ Agent เหล่านี้เพื่อทำงานซ้ำ ๆ และซับซ้อนแทนคน ซึ่งเป็นการเพิ่มประสิทธิภาพการทำงานในภาพรวม
โลกของ AI กำลังก้าวข้ามจากการสนทนาไปสู่การปฏิบัติการอย่างแท้จริง การมาของ Gemini 2.5 Pro Computer Use คือข้อพิสูจน์ว่า AI Agent จะเข้ามาเป็นส่วนหนึ่งในชีวิตประจำวันและการทำงานของเราอย่างหลีกเลี่ยงไม่ได้
ทักษะที่จะมีค่าที่สุดไม่ใช่แค่การใช้เครื่องมือเป็น แต่คือการเข้าใจกลไกเบื้องหลัง การออกแบบตรรกะการทำงาน (Logic) และการควบคุม Agent เหล่านี้ให้สามารถแก้ปัญหาที่ซับซ้อนได้จริงครับ