DeepSeek ผู้ท้าชิงใหม่ที่ทำให้ OpenAI ต้องเหลียวหลัง
เจาะลึกเทคนิคเบื้องหลังความสำเร็จของ DeepSeek สตาร์ทอัพจีนที่มาแรงแซงทุกโค้ง กับแนวคิดการสร้าง LLM ที่ใช้พลังงานน้อยลงแต่ประสิทธิภาพสุดล้ำ
มีบริษัทจีนชื่อ DeepSeek โผล่มาท้าทายยักษ์ใหญ่อเมริกันแล้วล่ะครับ ไม่ใช่ว่าโมเดลภาษาของ DeepSeek เก่งกว่าเจ้าตลาดนะ แต่เค้าเล่นใหญ่เรื่องประสิทธิภาพการใช้พลังงานและฮาร์ดแวร์
OpenAI ก็ออกมาบอกว่า DeepSeek อาจจะแอบเอาโมเดลเค้าไปใช้ฝึกรึเปล่า แต่ก็ไม่มีหลักฐานชัดเจน งานนี้ก็ต้องตามสืบกันต่อไป แต่ที่แน่ ๆ DeepSeek เค้าก็เปิดผลงานให้คนอื่นเอาไปลองทำตามได้แล้ว แถมมีคนคอนเฟิร์มว่าทำได้จริงในสเกลเล็ก ๆ
แล้วถามว่า DeepSeek ทำได้ยังไง ทำไมถึงประหยัดต้นทุนได้เยอะแยะ?
เคล็ดลับอยู่ที่ "แรงบันดาลใจ" ครับ เนื่องจาก DeepSeek เมีเทคนิคเจ๋ง ๆ หลายอย่างที่ทำให้ประหยัดเมมโมรี่ GPU ไปเยอะมาก ไม่ว่าจะเป็น
1. เทคนิค Optimize ตัว KV-cache ที่ใช้ใน attention layer ของ LLM
อธิบายง่าย ๆ ก็คือ LLM จะมีสิ่งที่เรียกว่า transformer block ซึ่งในนั้นจะมี attention layer กับ feed-forward network อยู่ ไอ้ตัว feed-forward network เนี่ย จะคอยสร้างความสัมพันธ์ของข้อมูล แต่บางทีมันก็จับแพทเทิร์นไม่ค่อยเก่ง ส่วน attention layer จะมาช่วยแก้ปัญหานี้
เวลา LLM ประมวลผลภาษา มันจะแบ่งคำออกเป็น token แล้วก็ assign ให้แต่ละคำเป็น vector ในหลาย ๆ มิติ ซึ่ง vector เนี่ย ก็เหมือนเป็นตัวแทนความหมายของคำ ๆ นั้น ทีนี้ attention model จะ assign vector เพิ่มให้แต่ละคำอีก 2 ตัว คือ key กับ query
Query เจะบอกว่าคำ ๆ นี้สามารถถูกแก้ไขความหมายได้ด้วยอะไร ส่วน Key จะบอกว่าคำ ๆ นี้จะไปแก้ไขความหมายของคำอื่นยังไง พอเอา Key กับ Query มาคูณกัน ก็จะได้ค่าออกมา ซึ่งค่านี้จะบอกว่าคำ ๆ นี้มีความสัมพันธ์กับอีกคำมากน้อยแค่ไหน แล้ว LLM ก็จะเอาค่าความสัมพันธ์นี้มาปรับความหมายของคำ ๆ นั้น
เวลา LLM สร้าง Text ก็จะสร้างทีละคำ ๆ ไป ซึ่งพอมันสร้างคำใหม่ จะต้องอิงจากคำก่อนหน้าด้วย มันก็เลยต้องเก็บค่า Key กับ Value ของคำก่อนหน้าไว้ใน GPU memory ไอ้ตัวที่เก็บเนี่ยแหละ เค้าเรียกว่า KV cache
DeepSeek เค้าค้นพบว่า Key กับ Value ของคำ ๆ นึงมันมีความเกี่ยวข้องกัน เค้าเลยใช้วิธีบีบอัดมันรวมกันเป็น vector เดียว แล้วค่อยไป decompress ตอนประมวลผล ซึ่งวิธีนี้จะช่วยประหยัด GPU memory ได้เยอะเลย ถึงแม้ว่า performance จะดรอปลงไปนิดหน่อยก็ตาม
2. เทคนิค Mixture-of-experts (MoE)
ปกติเวลา neural network จะประมวลผล ต้องประมวลผลทั้ง network เลย ซึ่งจริง ๆ แล้วมันก็มีหลายส่วนที่เราไม่ได้ใช้ เค้าเลยคิดค้นสิ่งที่เรียกว่า Mixture-of-experts (MoE) ขึ้นมา
MoE คือการแบ่ง neural network ออกเป็น expert หลาย ๆ ตัว เวลาจะประมวลผลอะไร มันจะดูว่า query ของเราเกี่ยวข้องกับ expert ตัวไหน แล้วมันก็จะไป activate แค่ expert ตัวนั้น ทำให้ประหยัด computation ไปได้เยอะ
3. เทคนิค Reinforcement learning (RL)
LLM จะถูกสอนให้คิดแบบ Chain-of-thought คือให้คิดก่อน แล้วค่อยตอบ ซึ่งการจะสอนแบบนี้ได้ มันต้องมี training data ที่มีทั้งความคิดและคำตอบ ซึ่งมีราคาแพง
DeepSeek เค้าเลยใช้วิธีให้ LLM generate ความคิดออกมาใส่ tag กับ แล้วก็ generate คำตอบใส่ tag กับ แล้วเค้าก็ให้รางวัลหรือบทลงโทษ LLM โดยดูจาก format ของ tag กับความถูกต้องของคำตอบ ซึ่งวิธีนี้ประหยัดกว่าเยอะ
DeepSeek เป็นเหมือน underdog ที่มาสร้างปรากฏการณ์ในวงการ LLM จริง ๆ ผลงานวิจัยเค้ามีประโยชน์มาก ๆ แล้วก็เป็นแรงบันดาลใจให้ startup อื่น ๆ ด้วย แต่อย่าเพิ่งคิดว่า OpenAI จะตกกระป๋องไปเลยนะ วงการวิจัยมันก็เป็นแบบนี้แหละ มีคนคิดค้นอะไรใหม่ ๆ มาเรื่อย ๆ แล้วคนอื่น ๆ ก็เอาไปต่อยอด และการที่ DeepSeek โผล่มา ทำให้เห็นว่า OpenAI จะผูกขาดวงการ LLM ไปตลอดไม่ได้หรอก เทคโนโลยีมันอยู่ในมือคนหลายกลุ่มแล้ว ซึ่งไม่มีใครหยุดยั้งได้ ถึงมันจะน่าปวดหัวสำหรับนักลงทุนของ OpenAI แต่ก็เป็นเรื่องดีสำหรับพวกเราทุกคนครับ
ที่มา: https://venturebeat.com/ai/deepseeks-success-shows-why-motivation-is-key-to-ai-innovation/