OpenAI เปิดตัว o1 โมเดลแรกที่มีความสามารถในการ "ใช้เหตุผล"

openai-o1-model-reasoning-strawberry-chatgpt-Social

OpenAI กำลังเปิดตัวโมเดลใหม่ที่เรียกว่า o1 ซึ่งเป็นโมเดลแรกในชุดโมเดล “การใช้เหตุผล” ที่วางแผนไว้ ซึ่งได้รับการฝึกฝนให้ตอบคำถามที่ซับซ้อนกว่าได้เร็วกว่าที่มนุษย์จะทำได้ โมเดลดังกล่าวจะเปิดตัวพร้อมกับ o1-mini ซึ่งเป็นเวอร์ชันที่เล็กกว่าและราคาถูกกว่า และใช่แล้ว หากคุณคุ้นเคยกับข่าวลือเกี่ยวกับ AI อยู่แล้ว นี่คือโมเดล Strawberry ที่ได้รับการพูดถึงอย่างมาก

สำหรับ OpenAI o1 ถือเป็นก้าวสำคัญในการบรรลุเป้าหมายที่มากขึ้นของปัญญาประดิษฐ์ที่คล้ายกับมนุษย์ ในทางปฏิบัติแล้ว o1 ทำได้ดีกว่าโมเดลก่อนหน้านี้ในเรื่องการเขียนโค้ดและแก้ปัญหาหลายขั้นตอน แต่ก็มีราคาแพงกว่าและใช้งานได้ช้ากว่า GPT-4o OpenAI เรียก o1 รุ่นนี้ว่า “รุ่น Preview” เพื่อเน้นย้ำว่า o1 ยังอยู่ในช่วงเริ่มต้น ผู้ใช้ ChatGPT Plus และ Team จะสามารถเข้าถึงทั้ง o1-preview และ o1-mini ได้ตั้งแต่วันนี้เป็นต้นไป ส่วนผู้ใช้ Enterprise และ Edu จะสามารถเข้าถึงได้ในช่วงต้นสัปดาห์หน้า OpenAI ระบุว่ามีแผนที่จะนำการเข้าถึง o1-mini ไปสู่ผู้ใช้ ChatGPT ฟรีทั้งหมด แต่ยังไม่ได้กำหนดวันที่เผยแพร่ การเข้าถึง o1 ของนักพัฒนานั้นมีราคาแพงมาก ใน API นั้น o1-preview มีราคา 15 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านรายการ หรือกลุ่มข้อความที่แยกวิเคราะห์โดยโมเดล และ 60 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านรายการ เมื่อเปรียบเทียบกันแล้ว GPT-4o มีราคา 5 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านรายการ และ 15 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านรายการ

Jerry Tworek หัวหน้าฝ่ายวิจัยของ OpenAI บอกว่าการ Train o1 นั้นแตกต่างไปจากรุ่นก่อนๆ อย่างสิ้นเชิง แม้ว่าบริษัทจะไม่ได้ให้รายละเอียดที่ชัดเจนก็ตาม เขากล่าวว่า o1 “ได้รับการ Train โดยใช้ขั้นตอนวิธีการเพิ่มประสิทธิภาพใหม่ทั้งหมดและชุดข้อมูลการ Train ใหม่ที่ปรับแต่งมาโดยเฉพาะสำหรับขั้นตอนดังกล่าว”

OpenAI สอนโมเดล GPT ก่อนหน้านี้ให้เลียนแบบรูปแบบจากข้อมูลการ Train ด้วย o1 ส่วน o1 จะ Train โมเดลให้แก้ปัญหาด้วยตัวเองโดยใช้เทคนิคที่เรียกว่า Reinforcement learning ซึ่งจะสอนระบบผ่านการให้รางวัลและบทลงโทษ จากนั้นจึงใช้ “Chain of Thought” เพื่อประมวลผลแบบสอบถาม ซึ่งคล้ายกับวิธีที่มนุษย์ประมวลผลปัญหาโดยดำเนินการทีละขั้นตอน จากวิธีการฝึกใหม่นี้ OpenAI กล่าวว่าโมเดลนี้น่าจะแม่นยำยิ่งขึ้น สิ่งสำคัญที่ทำให้โมเดลใหม่นี้แตกต่างจาก GPT-4o คือความสามารถในการแก้ปัญหาที่ซับซ้อน เช่น การเขียนโค้ดและคณิตศาสตร์ ซึ่งดีกว่ารุ่นก่อนๆ มาก โดยสามารถทำข้อสอบคัดเลือกโอลิมปิก (International Mathematics Olympiad หรือ IMO) ได้ผ่านแล้วสามารถได้ Percentile ที่ 89 ซึ่ง GPT-4o ตอบถูกได้แค่ 13% เท่านั้นในการแข่งขัน

ในขณะเดียวกัน o1 ยังไม่มีความสามารถเท่ากับ GPT-4o ในหลายๆ ด้าน ไม่สามารถทำผลงานได้ดีเท่า เช่น ความรู้เชิงข้อเท็จจริงเกี่ยวกับโลก นอกจากนี้ยังไม่สามารถเรียกดูเว็บหรือประมวลผลไฟล์และรูปภาพได้ อย่างไรก็ตาม บริษัทเชื่อว่าโมเดลนี้เป็นตัวแทนของความสามารถประเภทใหม่เอี่ยม มันถูกตั้งชื่อว่า o1 เพื่อบ่งชี้ว่า “รีเซ็ตตัวนับกลับเป็น 1”