Back to News
AI

Amazon เปิดตัว SWE-PolyBench: ปฏิวัติมาตรฐานการวัดความฉลาดของ AI Coding Assistants

AWS แนะนำชุดทดสอบ SWE-PolyBench เพื่อประเมิน AI Coding Assistants ในหลายภาษาและสถานการณ์จริง

Tiger's avatar
Tiger
Admin
1 min
April 24, 2025
AI Amazon SWE-PolyBench

วันนี้มีข่าวเด็ดในวงการ AI มาอัปเดต ซึ่งเป็นเรื่องใกล้ตัวสำหรับใครที่สนใจการเขียนโค้ดและ AI มาก ๆ เลยครับ

ทำความรู้จักกับ SWE-PolyBench

เมื่อไม่นานมานี้ Amazon Web Services ได้เปิดตัว SWE-PolyBench ซึ่งเป็นชุดทดสอบมาตรฐานใหม่ที่ครอบคลุมและออกแบบมาเพื่อประเมินความสามารถของ AI Coding Assistants ในการเขียนโค้ดในหลากหลายภาษาและสถานการณ์จริง โดยชุดทดสอบนี้ถูกพัฒนาขึ้นเพื่อแก้ไขข้อจำกัดของเกณฑ์ประเมินที่มีอยู่เดิม และช่วยให้นักวิจัยรวมถึงนักพัฒนาสามารถวัดประสิทธิภาพของ AI ในการจัดการกับโค้ดเบสที่มีความซับซ้อนได้ดียิ่งขึ้น

Anoop Deoras, Director of Applied Sciences for Generative AI Applications and Developer Experiences จาก AWS กล่าวว่า:
'ตอนนี้พวกเขามีเกณฑ์มาตรฐานที่สามารถใช้ประเมินได้ว่า Coding Agents สามารถแก้ไขปัญหาการเขียนโปรแกรมที่ซับซ้อนได้หรือไม่'

ในโลกของการทำงานจริง การเขียนโค้ดไม่ได้มีแค่การแก้ Bug เล็ก ๆ ในไฟล์เดียวจบ แต่ยังรวมถึงการแก้ไขในหลาย ๆ ไฟล์เพื่อสร้างฟีเจอร์ใหม่ ๆ หรือปรับปรุงระบบด้วย


ทำไม SWE-PolyBench ถึงสำคัญ?

อย่างที่เรารู้กันว่าเครื่องมือ AI ช่วยเขียนโค้ดได้รับความนิยมมากขึ้นเรื่อย ๆ แต่การวัดประสิทธิภาพของมัน โดยเฉพาะในภาษาโปรแกรมที่หลากหลายและโจทย์ที่ซับซ้อน ยังเป็นเรื่องที่ท้าทาย ซึ่ง SWE-PolyBench เข้ามาตอบโจทย์ตรงนี้ โดยมีการทดสอบกว่า 2,000 โจทย์ ที่คัดเลือกมาจากปัญหาจริงบน GitHub ครอบคลุม 4 ภาษาหลัก คือ Java (165 tasks), JavaScript (1,017 tasks), TypeScript (729 tasks) และ Python (199 tasks)

นอกจากนี้ SWE-PolyBench ยังมีชุดทดสอบย่อยที่เรียกว่า SWE-PolyBench500 ซึ่งมีโจทย์ 500 ข้อ เพื่อให้สามารถทำการทดลองและประเมินผลได้รวดเร็วขึ้น


SWE-PolyBench จึงเป็นเครื่องมือสำคัญที่จะช่วยให้ผู้พัฒนาในองค์กรต่าง ๆ สามารถประเมินความสามารถของ AI Coding Assistants ได้อย่างแม่นยำ และเลือกใช้เครื่องมือที่ตอบโจทย์การทำงานจริงได้ดีที่สุด เพราะการพัฒนาซอฟต์แวร์ในโลกจริงนั้นต้องการอะไรที่มากกว่าการแก้ Bug ง่าย ๆ ใน Python

Amazon ได้เปิดให้ทุกคนสามารถเข้าถึง SWE-PolyBench ได้ฟรี โดยสามารถดาวน์โหลด Dataset ได้จาก Hugging Face และ Evaluation Harness ได้จาก GitHub เพื่อส่งเสริมการพัฒนา AI Coding Assistants ให้มีประสิทธิภาพยิ่งขึ้นในอนาคตครับ

ที่มา: https://venturebeat.com/ai/amazon-swe-polybench-just-exposed-the-dirty-secret-about-your-ai-coding-assistant/