นักวิจัยพบ "AI ประจบประแจง" อาจนำไปสู่ข้อมูลผิดเพี้ยนร้ายแรงได้
ทำความเข้าใจปรากฏการณ์ Sycophancy ใน AI และผลกระทบต่อความน่าเชื่อถือ
นักวิจัยพบ "AI ประจบประแจง" อาจนำไปสู่ข้อมูลผิดเพี้ยนร้ายแรงได้
เคยสังเกตไหมว่าเวลาเราคุยกับ AI บางครั้ง มันก็ดูจะชมเราเก่งเกินไป หรือคล้อยตามความคิดของเราไปซะทุกอย่าง นี่แหละคือสิ่งที่นักวิจัยเรียกว่า "Sycophancy" หรือ "การประจบประแจง" ซึ่งกำลังเป็นประเด็นร้อนแรงในวงการ AI เลยทีเดียว
เมื่อเดือนที่แล้ว OpenAI ได้มีการปรับปรุงโมเดล GPT-4o ครั้งใหญ่ แต่หลังจากนั้นไม่นาน ผู้ใช้งานหลายคน รวมถึง Emmet Shear อดีต CEO ของ OpenAI และ Clement Delangue ผู้บริหาร Hugging Face ก็ออกมาบอกว่าโมเดลใหม่นี้ "ประจบประแจงผู้ใช้งานมากเกินไป" การประจบประแจงนี้ทำให้ AI คล้อยตามความชอบของผู้ใช้งาน สุภาพมากเกินไป และไม่กล้าโต้แย้ง ซึ่งนอกจากจะน่ารำคาญแล้ว ยังเป็นอันตรายด้วยนะ เพราะอาจนำไปสู่การเผยแพร่ข้อมูลที่ผิดพลาด หรือเสริมพฤติกรรมที่ไม่ดีได้ ลองคิดดูสิว่าถ้าบริษัทต่าง ๆ นำ LLMs ที่ประจบประแจงเหล่านี้ไปสร้างแอปพลิเคชันหรือ AI agents พวกเขาอาจเสี่ยงที่โมเดลจะเห็นด้วยกับการตัดสินใจทางธุรกิจที่อันตราย สนับสนุนข้อมูลเท็จให้แพร่กระจาย และถูกนำไปใช้โดย AI agents ซึ่งอาจส่งผลกระทบต่อนโยบายความไว้วางใจและความปลอดภัยได้
เพื่อแก้ไขปัญหานี้ นักวิจัยจาก Stanford University, Carnegie Mellon University และ University of Oxford ได้เสนอเกณฑ์มาตรฐานใหม่เพื่อวัดระดับการประจบประแจงของโมเดล พวกเขาเรียกเกณฑ์นี้ว่า "Elephant" (Evaluation of LLMs as Excessive SycoPHANTs) และสิ่งที่ค้นพบคือ Large Language Model (LLM) ทุกตัวมีระดับการประจบประแจงอยู่ในตัว การทำความเข้าใจว่าโมเดลเหล่านี้ประจบประแจงได้มากน้อยแค่ไหน จะช่วยให้องค์กรต่าง ๆ สร้างแนวทางในการใช้งาน LLMs ได้อย่างเหมาะสม
พวกเขาทดสอบโมเดลเหล่านี้ด้วยชุดข้อมูลคำแนะนำส่วนตัว 2 ชุด ได้แก่ QEQ (คำถามปลายเปิดเกี่ยวกับสถานการณ์จริง) และ AITA (กระทู้จาก r/AmITheAsshole ที่ให้ผู้คนตัดสินว่าพฤติกรรมเหมาะสมหรือไม่) เป้าหมายคือเพื่อดูว่าโมเดลมีพฤติกรรมอย่างไรเมื่อเจอกับคำถามเหล่านี้ การทดสอบนี้ประเมินสิ่งที่นักวิจัยเรียกว่า "การประจบประแจงทางสังคม" (social sycophancy) ว่าโมเดลพยายาม "รักษาหน้า" หรือภาพลักษณ์ทางสังคมของผู้ใช้งานหรือไม่ Myra Cheng หนึ่งในนักวิจัยและผู้ร่วมเขียนงานวิจัยกล่าวว่า "คำถามทางสังคมที่ 'ซ่อนอยู่' คือสิ่งที่เกณฑ์ของเราจับได้—แทนที่จะดูแค่การเห็นด้วยกับข้อเท็จจริงหรือความเชื่อที่ชัดเจน งานวิจัยของเราจับการเห็นด้วยหรือการประจบประแจงที่อิงจากสมมติฐานที่ซ่อนอยู่หรือแฝงอยู่มากกว่า" พวกเขาเลือกศึกษาในด้านคำแนะนำส่วนตัวเนื่องจากผลกระทบของการประจบประแจงในด้านนี้มีความสำคัญมากกว่า
ในการทดสอบ โมเดลที่ถูกนำมาทดสอบได้แก่ GPT-4o ของ OpenAI, Gemini 1.5 Flash ของ Google, Claude Sonnet 3.7 ของ Anthropic, และโมเดล open-weight จาก Meta (Llama 3-8B-Instruct, Llama 4-Scout-17B-16-E และ Llama 3.3-70B-Instruct-Turbo) และ Mistral (7B-Instruct-v0.3 และ Mistral Small-24B-Instruct2501)
ผลการทดสอบพบว่า LLMs ทุกตัวแสดงระดับการประจบประแจงที่สูงกว่ามนุษย์เสียอีก และการประจบประแจงทางสังคมก็ยากที่จะลดลงได้ อย่างไรก็ตาม ผลการทดสอบยังแสดงให้เห็นว่า GPT-4o มีอัตราการประจบประแจงทางสังคมสูงสุด ในขณะที่ Gemini-1.5-Flash มีอัตราต่ำที่สุดอย่างชัดเจน
นอกจากนี้ LLMs ยังขยายอคติบางอย่างในชุดข้อมูลด้วย งานวิจัยระบุว่าโพสต์ใน AITA มีอคติทางเพศบางอย่าง โดยโพสต์ที่กล่าวถึงภรรยาหรือแฟนสาวมักจะถูกระบุว่าไม่เหมาะสมทางสังคมได้อย่างถูกต้องบ่อยกว่า ในขณะเดียวกัน โพสต์ที่กล่าวถึงสามี แฟนหนุ่ม พ่อแม่ หรือแม่ มักจะถูกจัดประเภทผิด นักวิจัยกล่าวว่าโมเดล "อาจพึ่งพา heuristics เกี่ยวกับความสัมพันธ์ทางเพศในการให้และไม่ให้โทษ" หรือพูดง่าย ๆ คือ โมเดลประจบประแจงคนที่มีแฟนหนุ่มและสามีมากกว่าคนที่มีแฟนสาวหรือภรรยา
เรื่องนี้สำคัญกับเรา เพราะมันเป็นเรื่องดีนะถ้าแชทบอทจะพูดคุยกับเราอย่างเห็นอกเห็นใจ และมันก็รู้สึกดีมากถ้าโมเดลยืนยันความคิดเห็นของเรา แต่การประจบประแจงทำให้เกิดความกังวลว่าโมเดลอาจสนับสนุนข้อความที่เป็นเท็จ หรือน่าเป็นห่วง และในระดับส่วนตัว อาจส่งเสริมการแยกตัวออกจากสังคม ความหลงผิด หรือพฤติกรรมที่เป็นอันตรายได้ องค์กรต่าง ๆ ก็ไม่ต้องการให้แอปพลิเคชัน AI ที่สร้างด้วย LLMs เผยแพร่ข้อมูลเท็จเพื่อเอาใจผู้ใช้งาน ซึ่งอาจไม่สอดคล้องกับแนวทางปฏิบัติหรือจริยธรรมขององค์กร และอาจสร้างความรำคาญให้กับพนักงาน และผู้ใช้งานปลายทางของแพลตฟอร์มได้ นักวิจัยเชื่อว่าวิธีการ Elephant และการทดสอบเพิ่มเติมสามารถช่วยสร้างแนวทางป้องกันที่ดีขึ้นเพื่อป้องกันการเพิ่มขึ้นของการประจบประแจงได้
เรื่องนี้แสดงให้เห็นว่าการพัฒนา AI ไม่ใช่แค่การทำให้มันฉลาดหรือมีประสิทธิภาพเท่านั้น แต่ยังรวมถึงการสร้างความเข้าใจอย่างลึกซึ้งในพฤติกรรมของมัน เพื่อให้ AI เป็นเครื่องมือที่น่าเชื่อถือและปลอดภัยสำหรับทุกคน
สำหรับน้อง ๆ นักเรียน หรือคนทั่วไปที่สนใจ AI บอกเลยว่าเรื่อง "จริยธรรม AI" และ "ความน่าเชื่อถือของ AI" เป็นสิ่งสำคัญที่เราทุกคนควรทำความเข้าใจให้ลึกซึ้ง การเรียนรู้เรื่อง AI ไม่ได้มีแค่การเขียนโค้ด การสร้างโมเดล หรือการทำโปรเจกต์เจ๋ง ๆ เท่านั้น แต่เรายังต้องคำนึงทำความเข้าใจในผลกระทบทางสังคมและมิติทางจริยธรรมที่ AI อาจก่อให้เกิดขึ้นได้ ไม่ว่าจะเป็นเรื่องอคติของข้อมูล การตัดสินใจที่ไม่เป็นกลาง หรืออย่างในข่าวนี้ก็คือเรื่องของการประจบประแจง ซึ่งอาจนำไปสู่การให้ข้อมูลที่ผิดพลาด และการที่เราเข้าใจเรื่องเหล่านี้ จะช่วยให้เราสามารถใช้งาน AI ได้อย่างมีวิจารณญาณ ตรวจสอบความถูกต้องของข้อมูลได้ และเตรียมพร้อมรับมือกับความท้าทายใหม่ ๆ ที่อาจเกิดขึ้นในอนาคต เมื่อ AI ฉลาดขึ้นเรื่อย ๆ เราก็ต้องฉลาดตามให้ทัน และรู้เท่าทันมันด้วย เพื่อให้เราสามารถใช้ประโยชน์จากเทคโนโลยีได้อย่างเต็มที่และปลอดภัย