Zamba2-7B โมเดล LLM ใหม่ชูจุดเด่นทำงานเร็ว ใช้ข้อมูลฝึกน้อย กินแรมต่ำ - kengcom เว็บไซต์ที่รวบรวม ข่าววงการไอที และ เทคโนโลยี 2017

Zyphra บริษัทปัญญาประดิษฐ์ LLM แบบโอเพนอร์สเปิดตัว Zamba2-7B โมเดล LLM โอเพนซอร์สแบบ Apache 2.0 โดยชูประเด็นประสิทธิภาพการทำงานว่าตอบได้เร็ว ใช้แรมขณะรันโมเดลต่ำ

ความแตกต่างสำคัญของ Zamba2 คือมันไม่ได้ใช้บล็อค Transformer เหมือน LLM ตัวอื่นๆ แต่ออกแบบบล็อค Mamba ของตัวเอง และในเวอร์ชั่นนี้ก็ใช้บล็อค Mamba2 ที่พัฒนาเพิ่มเติม โดยทั่วไปแล้ว Mamba ได้เปรียบ Transformer เมื่อใช้กับโมเดลขนาดเล็กและขนาดกลาง

ข้อมูลที่ใช้ฝึก Zamba2 นั้นใช้ชุดข้อมูลเปิด Zyda ร่วมกับชุดข้อมูลอื่น รวมเป็น 3 ล้านล้านโทเค็น แต่มีชุดข้อมูลคุณภาพสูงพิเศษแสนล้านโทเค็นเพื่อฝึกช่วงแรกให้โมเดลเก่งขึ้นอย่างรวดเร็ว กระบวนการฝึกรวมใช้เวลา 50 วัน ใช้ชิป H100 จำนวน 128 ตัว ถือว่าใช้งบประมาณในการฝึกระดับปานกลาง

โมเดลเปิดให้ดาวน์โหลดบน HuggingFace

ที่มา - Zyphra

Topics:

LLM

Artificial Intelligence

[source: https://www.blognone.com/node/142564]