Amazon เปิดตัว SWE-PolyBench: ปฏิวัติมาตรฐานการวัดความฉลาดของ AI Coding Assistants
AWS แนะนำชุดทดสอบ SWE-PolyBench เพื่อประเมิน AI Coding Assistants ในหลายภาษาและสถานการณ์จริง
วันนี้มีข่าวเด็ดในวงการ AI มาอัปเดต ซึ่งเป็นเรื่องใกล้ตัวสำหรับใครที่สนใจการเขียนโค้ดและ AI มาก ๆ เลยครับ
ทำความรู้จักกับ SWE-PolyBench
เมื่อไม่นานมานี้ Amazon Web Services ได้เปิดตัว SWE-PolyBench ซึ่งเป็นชุดทดสอบมาตรฐานใหม่ที่ครอบคลุมและออกแบบมาเพื่อประเมินความสามารถของ AI Coding Assistants ในการเขียนโค้ดในหลากหลายภาษาและสถานการณ์จริง โดยชุดทดสอบนี้ถูกพัฒนาขึ้นเพื่อแก้ไขข้อจำกัดของเกณฑ์ประเมินที่มีอยู่เดิม และช่วยให้นักวิจัยรวมถึงนักพัฒนาสามารถวัดประสิทธิภาพของ AI ในการจัดการกับโค้ดเบสที่มีความซับซ้อนได้ดียิ่งขึ้น
Anoop Deoras, Director of Applied Sciences for Generative AI Applications and Developer Experiences จาก AWS กล่าวว่า:
'ตอนนี้พวกเขามีเกณฑ์มาตรฐานที่สามารถใช้ประเมินได้ว่า Coding Agents สามารถแก้ไขปัญหาการเขียนโปรแกรมที่ซับซ้อนได้หรือไม่'
ในโลกของการทำงานจริง การเขียนโค้ดไม่ได้มีแค่การแก้ Bug เล็ก ๆ ในไฟล์เดียวจบ แต่ยังรวมถึงการแก้ไขในหลาย ๆ ไฟล์เพื่อสร้างฟีเจอร์ใหม่ ๆ หรือปรับปรุงระบบด้วย
ทำไม SWE-PolyBench ถึงสำคัญ?
อย่างที่เรารู้กันว่าเครื่องมือ AI ช่วยเขียนโค้ดได้รับความนิยมมากขึ้นเรื่อย ๆ แต่การวัดประสิทธิภาพของมัน โดยเฉพาะในภาษาโปรแกรมที่หลากหลายและโจทย์ที่ซับซ้อน ยังเป็นเรื่องที่ท้าทาย ซึ่ง SWE-PolyBench เข้ามาตอบโจทย์ตรงนี้ โดยมีการทดสอบกว่า 2,000 โจทย์ ที่คัดเลือกมาจากปัญหาจริงบน GitHub ครอบคลุม 4 ภาษาหลัก คือ Java (165 tasks), JavaScript (1,017 tasks), TypeScript (729 tasks) และ Python (199 tasks)
นอกจากนี้ SWE-PolyBench ยังมีชุดทดสอบย่อยที่เรียกว่า SWE-PolyBench500 ซึ่งมีโจทย์ 500 ข้อ เพื่อให้สามารถทำการทดลองและประเมินผลได้รวดเร็วขึ้น
SWE-PolyBench จึงเป็นเครื่องมือสำคัญที่จะช่วยให้ผู้พัฒนาในองค์กรต่าง ๆ สามารถประเมินความสามารถของ AI Coding Assistants ได้อย่างแม่นยำ และเลือกใช้เครื่องมือที่ตอบโจทย์การทำงานจริงได้ดีที่สุด เพราะการพัฒนาซอฟต์แวร์ในโลกจริงนั้นต้องการอะไรที่มากกว่าการแก้ Bug ง่าย ๆ ใน Python
Amazon ได้เปิดให้ทุกคนสามารถเข้าถึง SWE-PolyBench ได้ฟรี โดยสามารถดาวน์โหลด Dataset ได้จาก Hugging Face และ Evaluation Harness ได้จาก GitHub เพื่อส่งเสริมการพัฒนา AI Coding Assistants ให้มีประสิทธิภาพยิ่งขึ้นในอนาคตครับ