เมื่อ 4chan ค้นพบเทคนิค AI เปลี่ยนโลก ตัดหน้างานวิจัย Google ไปหนึ่งปีเต็ม
ก่อนที่ Google จะตีพิมพ์เปเปอร์พลิกโลกเรื่องการให้เหตุผลของ AI กลุ่มเกมเมอร์นิรนามบน 4chan ได้ค้นพบเทคนิคนี้ไปก่อนแล้ว นี่คือเรื่องราวสุดว้าวเบื้องหลังการค้นพบ Chain-of-Thought
iReadCustomer Team
ผู้เขียน
ในวงการเทคโนโลยีระดับโลก เรามักถูกปลูกฝังให้เชื่อว่านวัตกรรมที่พลิกโฉมวงการมักจะออกมาจากห้องแล็บที่สว่างไสวของบริษัทระดับ Trillion-dollar หรือจากกลุ่มนักวิจัยระดับปริญญาเอกที่ใช้ซูเปอร์คอมพิวเตอร์มูลค่ามหาศาล แต่ในประวัติศาสตร์ของปัญญาประดิษฐ์ยุคใหม่ (Generative AI) หนึ่งในการค้นพบที่สำคัญที่สุดกลับไม่ได้มาจากซิลิคอนแวลลีย์ แต่มาจากกลุ่มเกมเมอร์นิรนามในเว็บบอร์ดที่ได้ชื่อว่าวุ่นวายที่สุดในอินเทอร์เน็ตอย่าง 4chan นี่คือเรื่องราวของเทคนิค **<strong>Chain-of-Thought reasoning</strong>** (การให้เหตุผลแบบเป็นลำดับขั้น) ซึ่งเป็นกลไกสำคัญที่ทำให้ AI ในปัจจุบันสามารถแก้โจทย์คณิตศาสตร์ เขียนโค้ดสถาปัตยกรรมซอฟต์แวร์ และทำงานแบบ AI Agents ได้ และเชื่อหรือไม่ว่า เทคนิคนี้ถูกคิดค้นและใช้งานจริงโดยกลุ่มวัยรุ่นที่แค่พยายามจะเล่นเกมสวมบทบาท (Text-based RPG) กับ AI ให้สนุกขึ้น... เกือบหนึ่งปีเต็มก่อนที่ Google จะออกมาประกาศว่าเป็นผู้ค้นพบ ## ปัญหาโลกแตกของ AI ยุคแรก: พูดเก่ง แต่ไร้ตรรกะ ย้อนกลับไปในช่วงปี 2021 ถึงต้นปี 2022 โลกเพิ่งเริ่มตื่นเต้นกับ **<em>large language models</em>** (LLMs) อย่าง GPT-3 ของ OpenAI แม้ว่ามันจะสามารถเขียนกลอนหรือแต่งนิยายได้เนียนจนน่าขนลุก แต่มันมีจุดอ่อนที่ร้ายแรงมากอยู่อย่างหนึ่ง: มันไม่มีตรรกะ ถ้าคุณถามคำถามที่ซับซ้อน หรือให้มันแก้โจทย์คณิตศาสตร์ที่มีหลายขั้นตอน โมเดลในยุคนั้นจะตอบผิดแบบไม่น่าให้อภัย สาเหตุที่เป็นแบบนั้นเพราะ LLM ถูกออกแบบมาให้ทำหน้าที่เพียงอย่างเดียวคือ การเดาคำถัดไป (Next-Token Prediction) มันเหมือนกับคนที่พูดจาฉะฉานแต่ไม่เคยคิดล่วงหน้าก่อนพูด เมื่อถูกถาม มันจะพ่นคำตอบออกมาทันทีโดยไม่มีการ "คิด" ในบริบทของธุรกิจ ข้อจำกัดนี้ทำให้ AI ดูเหมือนของเล่นมากกว่าเครื่องมือที่เชื่อถือได้ คุณไม่สามารถฝากให้ AI วิเคราะห์งบการเงิน หรือประเมินความเสี่ยงของ Supply Chain ได้ เพราะถ้ามันพลาดกลางทาง มันจะแต่งเรื่องหลอกคุณทันที (Hallucination) ## ชุมชนเกมเมอร์ 4chan และความหงุดหงิดที่นำไปสู่นวัตกรรม ในขณะที่นักวิจัยทั่วโลกกำลังพยายามหาวิธีเทรนโมเดลด้วยข้อมูลที่ใหญ่ขึ้นเพื่อแก้ปัญหานี้ กลุ่มผู้ใช้บนบอร์ด `/vg/` (Video Games) ของ 4chan กำลังเจอปัญหาเดียวกันในบริบทที่ต่างออกไปอย่างสิ้นเชิง ผู้ใช้กลุ่มนี้กำลังเล่นเกมสวมบทบาทผ่านข้อความ โดยใช้แพลตฟอร์มอย่าง AI Dungeon หรือ NovelAI (ซึ่งใช้โมเดลภาษาแบบ Open-source หรือ API ของ GPT) เพื่อสร้างโลกแฟนตาซี ปัญหาคือ เมื่อเกมดำเนินไปและมีตัวแปรเยอะขึ้น—เช่น ตัวละคร A มีกุญแจ, ตัวละคร B บาดเจ็บ, และกำลังอยู่ในห้องมืด—AI มักจะลืมกฎเหล่านี้ มันอาจจะให้ตัวละคร B วิ่งปร๋อ หรือให้ตัวละคร A เปิดประตูด้วยเวทมนตร์ทั้งที่มีกุญแจ เกมเมอร์เหล่านี้ไม่ได้มีพื้นฐานเป็นนักวิทยาศาสตร์ข้อมูล พวกเขาไม่มีอำนาจเข้าไปปรับแก้ค่าน้ำหนัก (Weights) ของโมเดล สิ่งเดียวที่พวกเขามีคือ **<em>prompt engineering</em>** (การวิศวกรรมคำสั่ง) ### การกำเนิดของ "Inner Monologue" เพื่อแก้ปัญหา AI ลืมกฎและตรรกะ ผู้ใช้ 4chan คนหนึ่งได้ทดลองปรับโครงสร้างคำสั่งใหม่ แทนที่จะให้ AI พิมพ์แอ็กชันหรือผลลัพธ์ของเกมออกมาตรงๆ เขาบังคับให้ AI ต้องเขียน "ความคิดในหัว" ออกมาก่อน พวกเขาบังคับให้ AI สร้างบล็อกข้อความภายใต้แท็ก `<thought>` หรือใช้วิธีการเขียนแบบ Greentext (รูปแบบการเล่าเรื่องแบบ bullet point ใน 4chan) ก่อนที่จะให้ AI สร้างแท็ก `<action>` ตัวอย่างเช่น แทนที่ AI จะตอบว่า: *"อัศวินโจมตีมังกรและหนีออกจากถ้ำ"* พวกเขาบังคับโครงสร้างให้เป็น: *`<thought> มังกรพ่นไฟปิดทางออกหลัก อัศวินมีเกราะกันไฟแต่บาดเจ็บที่ขา อัศวินมีระเบิดควันในช่องเก็บของ วิธีรอดคือการใช้ระเบิดควันแล้วหนีทางช่องระบายอากาศ </thought>`* *`<action> อัศวินปาระเบิดควันลงพื้นแล้วพยุงร่างกะเผลกหนีไปทางช่องระบายอากาศ </action>`* **ผลลัพธ์ที่ได้นั้นสร้างความตกตะลึง** ทันทีที่ AI ถูกบังคับให้ "พิมพ์ความคิด" ออกมาก่อนที่จะตัดสินใจ ผลลัพธ์และการรักษาตรรกะของเหตุการณ์ (Context continuity) ดีขึ้นแบบก้าวกระโดด AI เลิกทำอะไรโง่ๆ เลิกลืมกฎฟิสิกส์ในเกม และสามารถแก้สถานการณ์ที่ซับซ้อนได้อย่างสมเหตุสมผล เกมเมอร์กลุ่มนี้เรียกเทคนิคนี้กันเองในกลุ่มว่าการสร้าง "Inner Monologue" (เสียงในหัว) โดยที่พวกเขาไม่รู้ตัวเลยว่า พวกเขากำลังเจาะลึกเข้าไปในกลไกที่สำคัญที่สุดของ **large language models** ## ศาสตร์เบื้องหลัง: ทำไมการ "บ่นพึมพำ" ถึงทำให้ AI ฉลาดขึ้น? ทำไมการให้ AI พิมพ์ความคิดออกมาก่อนถึงเปลี่ยนผลลัพธ์จากหน้ามือเป็นหลังมือ? คำอธิบายทางเทคนิคเกี่ยวข้องกับวิธีที่ LLM ประมวลผลโทเคน (Tokens) ดังที่กล่าวไป LLM จะคำนวณความน่าจะเป็นของคำถัดไปจากคำก่อนหน้าทั้งหมด หากคุณถามคำถามยากๆ แล้วบังคับให้มันตอบเลย AI จะมี "พื้นที่การคำนวณ" (Compute space) แค่ 1 โทเคนในการหาคำตอบที่ถูกต้อง ซึ่งบ่อยครั้งมันคำนวณไม่ทัน แต่เมื่อคุณบังคับให้ AI อธิบายขั้นตอนการคิด มันเท่ากับการซื้อเวลาและพื้นที่ให้ AI การพิมพ์แต่ละคำใน `<thought>` คือการเพิ่มข้อมูลที่มีบริบทถูกต้องเข้าไปใน Context Window ซึ่งคำที่ถูกสร้างขึ้นในขั้นตอนการคิดนี้ จะกลายเป็นบริบทตั้งต้นที่แข็งแรงมากสำหรับการคาดเดาโทเคนที่เป็นคำตอบสุดท้าย เปรียบเทียบง่ายๆ: มันเหมือนกับการขอให้เด็กป.5 แก้สมการเลขในใจ (โอกาสผิดสูงมาก) เทียบกับการยื่นกระดาษทดให้เด็กคนนั้นเขียนทีละบรรทัด (โอกาสถูกเกือบ 100%) ## เมื่อโลกวิชาการและ Google ตามมาทัน หลายเดือนหลังจากที่ชาว 4chan ใช้เทคนิค Inner Monologue เพื่อเล่นเกมจนเชี่ยวชาญ ในช่วงกลางปี 2022 โลกวิชาการฝั่ง AI ก็เกิดแรงสั่นสะเทือน นักวิจัยจาก Google (นำโดย Jason Wei และทีม) ได้ตีพิมพ์เปเปอร์ชื่อ **"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"** (การใช้คำสั่งแบบลูกโซ่ความคิดกระตุ้นให้เกิดการให้เหตุผลในโมเดลภาษาขนาดใหญ่) ในงานวิจัยชิ้นนี้ Google ได้พิสูจน์ทางวิทยาศาสตร์ว่า การให้โมเดลภาษาเขียนอธิบายขั้นตอนการคิด (Step-by-step reasoning) ก่อนให้คำตอบ ทำให้ความแม่นยำในการแก้โจทย์คณิตศาสตร์ (GSM8K benchmark) พุ่งทะยานจาก 17.7% เป็น 78% งานวิจัยชิ้นนี้ได้รับการยกย่องให้เป็นหนึ่งใน **Google AI breakthrough** ที่สำคัญที่สุดของปี ตามมาด้วยเปเปอร์ระดับตำนานจากมหาวิทยาลัยโตเกียวและ Google ที่ค้นพบเทคนิค Zero-shot Chain-of-Thought โดยการเติมคำวิเศษณ์ง่ายๆ อย่าง *"Let's think step by step"* (มาคิดทีละขั้นตอนกันเถอะ) ลงไปใน Prompt ซึ่งกลายเป็นคาถาเวทมนตร์ที่คนใช้ ChatGPT ทั่วโลกต้องรู้จัก โลกเทคโนโลยีต่างแซ่ซ้องสรรเสริญการค้นพบเหล่านี้... ในขณะที่บนหน้าจอสีดำตัวอักษรสีเขียวของ 4chan เกมเมอร์หลายคนได้แต่แคปหน้าจอเปเปอร์ของ Google มาโพสต์พร้อมกับข้อความสไตล์ประชดประชันว่า *"พวกเราทำแบบนี้มาเป็นปีแล้วว่ะ"* ## บทเรียนสำหรับธุรกิจ: นวัตกรรมเกิดที่ "ริมขอบ" เรื่องราวของ **Chain-of-Thought reasoning** ไม่ใช่แค่มุกตลกในวงการเนิร์ด แต่เป็น Case Study ที่ทรงพลังมากสำหรับองค์กรระดับ Enterprise และ Startup ที่กำลังพัฒนา **AI agent capabilities** 1. **ผู้ใช้แบบ Edge-Case คือขุมทรัพย์:** บริษัทยักษ์ใหญ่เทรน AI ด้วยชุดข้อมูลที่เป็นทางการ (เช่น Wikipedia, ข่าว, เปเปอร์วิชาการ) แต่กลุ่มคนที่ผลักดันโมเดลไปจนถึงขีดจำกัดสูงสุดกลับเป็นผู้ใช้ทั่วไปที่นำไปใช้ในสถานการณ์สุดขั้ว การพยายามทำให้ AI รับบทบาทเป็นตัวละครที่ซับซ้อนในสถานการณ์ที่คาดเดาไม่ได้ นำไปสู่การค้นพบโครงสร้าง Prompt ที่เสถียรที่สุด องค์กรที่ฉลาดจะต้องจับตาดูว่าชุมชนผู้ใช้ "แฮ็ก" ผลิตภัณฑ์ของตนอย่างไร ไม่ใช่มองแค่รายงานจากฝ่าย QA 2. **จากกระดาษทด สู่ AI Agents ระดับองค์กร:** ปัจจุบัน เทคนิค Chain-of-Thought ไม่ได้เป็นแค่เคล็ดลับในการเขียน Prompt อีกต่อไป แต่มันกลายเป็นสถาปัตยกรรมพื้นฐานของ AI Agents ที่บริษัทอย่าง iRead และองค์กรเทคโนโลยีชั้นนำทั่วโลกใช้ เมื่อคุณใช้งาน AI เพื่อดึงข้อมูลเชิงลึกจากฐานข้อมูล (Data pipelines) หรือให้ AI ทำงานอัตโนมัติแบบหลายขั้นตอน AI จะต้องสร้าง Chain-of-Thought ภายใน (Invisible reasoning) เสมอ เพื่อลดความผิดพลาดและตรวจสอบย้อนหลังได้ (Auditability) 3. **การแก้ปัญหาไม่ต้องพึ่งเงินล้านเสมอไป:** เราเรียนรู้ว่าการจะทำให้ AI ฉลาดขึ้น ไม่จำเป็นต้องใช้เงินหลายร้อยล้านดอลลาร์เพื่อสร้างโมเดลใหม่เสมอไป บางครั้งการเปลี่ยนกรอบความคิด—เช่นการให้โมเดลแสดงวิธีทำแทนที่จะเอาแค่คำตอบ—ก็สามารถปลดล็อกศักยภาพระดับ Enterprise-grade ได้ทันที ## บทสรุป เรื่องราวของ 4chan กับการค้นพบเทคนิค Chain-of-Thought เป็นเครื่องเตือนใจว่ายุคของปัญญาประดิษฐ์นั้นเป็นประชาธิปไตยมากกว่าที่เราคิด นวัตกรรมไม่ได้ถูกผูกขาดโดยคนใส่เสื้อกาวน์ในห้องแล็บที่ซิลิคอนแวลลีย์เพียงอย่างเดียว แต่เกิดขึ้นได้ในทุกที่ที่มนุษย์พยายามสื่อสารและทำความเข้าใจกับเทคโนโลยีใหม่ๆ ครั้งหน้าหากคุณพิมพ์คำสั่งว่า "Let's think step by step" ลงใน ChatGPT เพื่อให้มันช่วยวิเคราะห์แคมเปญการตลาดหรือแผนธุรกิจ ให้ระลึกไว้ว่า คุณกำลังใช้คาถาวิเศษที่ถูกค้นพบครั้งแรกโดยกลุ่มวัยรุ่นที่พยายามหาทางหนีตายจากมังกรในเกมออนไลน์ และนั่นแหละ คือความสวยงามที่แท้จริงของโลกเทคโนโลยี
ในวงการเทคโนโลยีระดับโลก เรามักถูกปลูกฝังให้เชื่อว่านวัตกรรมที่พลิกโฉมวงการมักจะออกมาจากห้องแล็บที่สว่างไสวของบริษัทระดับ Trillion-dollar หรือจากกลุ่มนักวิจัยระดับปริญญาเอกที่ใช้ซูเปอร์คอมพิวเตอร์มูลค่ามหาศาล แต่ในประวัติศาสตร์ของปัญญาประดิษฐ์ยุคใหม่ (Generative AI) หนึ่งในการค้นพบที่สำคัญที่สุดกลับไม่ได้มาจากซิลิคอนแวลลีย์ แต่มาจากกลุ่มเกมเมอร์นิรนามในเว็บบอร์ดที่ได้ชื่อว่าวุ่นวายที่สุดในอินเทอร์เน็ตอย่าง 4chan
นี่คือเรื่องราวของเทคนิค Chain-of-Thought reasoning (การให้เหตุผลแบบเป็นลำดับขั้น) ซึ่งเป็นกลไกสำคัญที่ทำให้ AI ในปัจจุบันสามารถแก้โจทย์คณิตศาสตร์ เขียนโค้ดสถาปัตยกรรมซอฟต์แวร์ และทำงานแบบ AI Agents ได้ และเชื่อหรือไม่ว่า เทคนิคนี้ถูกคิดค้นและใช้งานจริงโดยกลุ่มวัยรุ่นที่แค่พยายามจะเล่นเกมสวมบทบาท (Text-based RPG) กับ AI ให้สนุกขึ้น... เกือบหนึ่งปีเต็มก่อนที่ Google จะออกมาประกาศว่าเป็นผู้ค้นพบ
ปัญหาโลกแตกของ AI ยุคแรก: พูดเก่ง แต่ไร้ตรรกะ
ย้อนกลับไปในช่วงปี 2021 ถึงต้นปี 2022 โลกเพิ่งเริ่มตื่นเต้นกับ large language models (LLMs) อย่าง GPT-3 ของ OpenAI แม้ว่ามันจะสามารถเขียนกลอนหรือแต่งนิยายได้เนียนจนน่าขนลุก แต่มันมีจุดอ่อนที่ร้ายแรงมากอยู่อย่างหนึ่ง: มันไม่มีตรรกะ
ถ้าคุณถามคำถามที่ซับซ้อน หรือให้มันแก้โจทย์คณิตศาสตร์ที่มีหลายขั้นตอน โมเดลในยุคนั้นจะตอบผิดแบบไม่น่าให้อภัย สาเหตุที่เป็นแบบนั้นเพราะ LLM ถูกออกแบบมาให้ทำหน้าที่เพียงอย่างเดียวคือ การเดาคำถัดไป (Next-Token Prediction) มันเหมือนกับคนที่พูดจาฉะฉานแต่ไม่เคยคิดล่วงหน้าก่อนพูด เมื่อถูกถาม มันจะพ่นคำตอบออกมาทันทีโดยไม่มีการ "คิด"
ในบริบทของธุรกิจ ข้อจำกัดนี้ทำให้ AI ดูเหมือนของเล่นมากกว่าเครื่องมือที่เชื่อถือได้ คุณไม่สามารถฝากให้ AI วิเคราะห์งบการเงิน หรือประเมินความเสี่ยงของ Supply Chain ได้ เพราะถ้ามันพลาดกลางทาง มันจะแต่งเรื่องหลอกคุณทันที (Hallucination)
ชุมชนเกมเมอร์ 4chan และความหงุดหงิดที่นำไปสู่นวัตกรรม
ในขณะที่นักวิจัยทั่วโลกกำลังพยายามหาวิธีเทรนโมเดลด้วยข้อมูลที่ใหญ่ขึ้นเพื่อแก้ปัญหานี้ กลุ่มผู้ใช้บนบอร์ด /vg/ (Video Games) ของ 4chan กำลังเจอปัญหาเดียวกันในบริบทที่ต่างออกไปอย่างสิ้นเชิง
ผู้ใช้กลุ่มนี้กำลังเล่นเกมสวมบทบาทผ่านข้อความ โดยใช้แพลตฟอร์มอย่าง AI Dungeon หรือ NovelAI (ซึ่งใช้โมเดลภาษาแบบ Open-source หรือ API ของ GPT) เพื่อสร้างโลกแฟนตาซี ปัญหาคือ เมื่อเกมดำเนินไปและมีตัวแปรเยอะขึ้น—เช่น ตัวละคร A มีกุญแจ, ตัวละคร B บาดเจ็บ, และกำลังอยู่ในห้องมืด—AI มักจะลืมกฎเหล่านี้ มันอาจจะให้ตัวละคร B วิ่งปร๋อ หรือให้ตัวละคร A เปิดประตูด้วยเวทมนตร์ทั้งที่มีกุญแจ
เกมเมอร์เหล่านี้ไม่ได้มีพื้นฐานเป็นนักวิทยาศาสตร์ข้อมูล พวกเขาไม่มีอำนาจเข้าไปปรับแก้ค่าน้ำหนัก (Weights) ของโมเดล สิ่งเดียวที่พวกเขามีคือ prompt engineering (การวิศวกรรมคำสั่ง)
การกำเนิดของ "Inner Monologue"
เพื่อแก้ปัญหา AI ลืมกฎและตรรกะ ผู้ใช้ 4chan คนหนึ่งได้ทดลองปรับโครงสร้างคำสั่งใหม่ แทนที่จะให้ AI พิมพ์แอ็กชันหรือผลลัพธ์ของเกมออกมาตรงๆ เขาบังคับให้ AI ต้องเขียน "ความคิดในหัว" ออกมาก่อน
พวกเขาบังคับให้ AI สร้างบล็อกข้อความภายใต้แท็ก <thought> หรือใช้วิธีการเขียนแบบ Greentext (รูปแบบการเล่าเรื่องแบบ bullet point ใน 4chan) ก่อนที่จะให้ AI สร้างแท็ก <action>
ตัวอย่างเช่น แทนที่ AI จะตอบว่า: "อัศวินโจมตีมังกรและหนีออกจากถ้ำ"
พวกเขาบังคับโครงสร้างให้เป็น:
<thought> มังกรพ่นไฟปิดทางออกหลัก อัศวินมีเกราะกันไฟแต่บาดเจ็บที่ขา อัศวินมีระเบิดควันในช่องเก็บของ วิธีรอดคือการใช้ระเบิดควันแล้วหนีทางช่องระบายอากาศ </thought>
<action> อัศวินปาระเบิดควันลงพื้นแล้วพยุงร่างกะเผลกหนีไปทางช่องระบายอากาศ </action>
ผลลัพธ์ที่ได้นั้นสร้างความตกตะลึง ทันทีที่ AI ถูกบังคับให้ "พิมพ์ความคิด" ออกมาก่อนที่จะตัดสินใจ ผลลัพธ์และการรักษาตรรกะของเหตุการณ์ (Context continuity) ดีขึ้นแบบก้าวกระโดด AI เลิกทำอะไรโง่ๆ เลิกลืมกฎฟิสิกส์ในเกม และสามารถแก้สถานการณ์ที่ซับซ้อนได้อย่างสมเหตุสมผล
เกมเมอร์กลุ่มนี้เรียกเทคนิคนี้กันเองในกลุ่มว่าการสร้าง "Inner Monologue" (เสียงในหัว) โดยที่พวกเขาไม่รู้ตัวเลยว่า พวกเขากำลังเจาะลึกเข้าไปในกลไกที่สำคัญที่สุดของ large language models
ศาสตร์เบื้องหลัง: ทำไมการ "บ่นพึมพำ" ถึงทำให้ AI ฉลาดขึ้น?
ทำไมการให้ AI พิมพ์ความคิดออกมาก่อนถึงเปลี่ยนผลลัพธ์จากหน้ามือเป็นหลังมือ? คำอธิบายทางเทคนิคเกี่ยวข้องกับวิธีที่ LLM ประมวลผลโทเคน (Tokens)
ดังที่กล่าวไป LLM จะคำนวณความน่าจะเป็นของคำถัดไปจากคำก่อนหน้าทั้งหมด หากคุณถามคำถามยากๆ แล้วบังคับให้มันตอบเลย AI จะมี "พื้นที่การคำนวณ" (Compute space) แค่ 1 โทเคนในการหาคำตอบที่ถูกต้อง ซึ่งบ่อยครั้งมันคำนวณไม่ทัน
แต่เมื่อคุณบังคับให้ AI อธิบายขั้นตอนการคิด มันเท่ากับการซื้อเวลาและพื้นที่ให้ AI การพิมพ์แต่ละคำใน <thought> คือการเพิ่มข้อมูลที่มีบริบทถูกต้องเข้าไปใน Context Window ซึ่งคำที่ถูกสร้างขึ้นในขั้นตอนการคิดนี้ จะกลายเป็นบริบทตั้งต้นที่แข็งแรงมากสำหรับการคาดเดาโทเคนที่เป็นคำตอบสุดท้าย
เปรียบเทียบง่ายๆ: มันเหมือนกับการขอให้เด็กป.5 แก้สมการเลขในใจ (โอกาสผิดสูงมาก) เทียบกับการยื่นกระดาษทดให้เด็กคนนั้นเขียนทีละบรรทัด (โอกาสถูกเกือบ 100%)
เมื่อโลกวิชาการและ Google ตามมาทัน
หลายเดือนหลังจากที่ชาว 4chan ใช้เทคนิค Inner Monologue เพื่อเล่นเกมจนเชี่ยวชาญ ในช่วงกลางปี 2022 โลกวิชาการฝั่ง AI ก็เกิดแรงสั่นสะเทือน
นักวิจัยจาก Google (นำโดย Jason Wei และทีม) ได้ตีพิมพ์เปเปอร์ชื่อ "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (การใช้คำสั่งแบบลูกโซ่ความคิดกระตุ้นให้เกิดการให้เหตุผลในโมเดลภาษาขนาดใหญ่)
ในงานวิจัยชิ้นนี้ Google ได้พิสูจน์ทางวิทยาศาสตร์ว่า การให้โมเดลภาษาเขียนอธิบายขั้นตอนการคิด (Step-by-step reasoning) ก่อนให้คำตอบ ทำให้ความแม่นยำในการแก้โจทย์คณิตศาสตร์ (GSM8K benchmark) พุ่งทะยานจาก 17.7% เป็น 78% งานวิจัยชิ้นนี้ได้รับการยกย่องให้เป็นหนึ่งใน Google AI breakthrough ที่สำคัญที่สุดของปี
ตามมาด้วยเปเปอร์ระดับตำนานจากมหาวิทยาลัยโตเกียวและ Google ที่ค้นพบเทคนิค Zero-shot Chain-of-Thought โดยการเติมคำวิเศษณ์ง่ายๆ อย่าง "Let's think step by step" (มาคิดทีละขั้นตอนกันเถอะ) ลงไปใน Prompt ซึ่งกลายเป็นคาถาเวทมนตร์ที่คนใช้ ChatGPT ทั่วโลกต้องรู้จัก
โลกเทคโนโลยีต่างแซ่ซ้องสรรเสริญการค้นพบเหล่านี้... ในขณะที่บนหน้าจอสีดำตัวอักษรสีเขียวของ 4chan เกมเมอร์หลายคนได้แต่แคปหน้าจอเปเปอร์ของ Google มาโพสต์พร้อมกับข้อความสไตล์ประชดประชันว่า "พวกเราทำแบบนี้มาเป็นปีแล้วว่ะ"
บทเรียนสำหรับธุรกิจ: นวัตกรรมเกิดที่ "ริมขอบ"
เรื่องราวของ Chain-of-Thought reasoning ไม่ใช่แค่มุกตลกในวงการเนิร์ด แต่เป็น Case Study ที่ทรงพลังมากสำหรับองค์กรระดับ Enterprise และ Startup ที่กำลังพัฒนา AI agent capabilities
-
ผู้ใช้แบบ Edge-Case คือขุมทรัพย์: บริษัทยักษ์ใหญ่เทรน AI ด้วยชุดข้อมูลที่เป็นทางการ (เช่น Wikipedia, ข่าว, เปเปอร์วิชาการ) แต่กลุ่มคนที่ผลักดันโมเดลไปจนถึงขีดจำกัดสูงสุดกลับเป็นผู้ใช้ทั่วไปที่นำไปใช้ในสถานการณ์สุดขั้ว การพยายามทำให้ AI รับบทบาทเป็นตัวละครที่ซับซ้อนในสถานการณ์ที่คาดเดาไม่ได้ นำไปสู่การค้นพบโครงสร้าง Prompt ที่เสถียรที่สุด องค์กรที่ฉลาดจะต้องจับตาดูว่าชุมชนผู้ใช้ "แฮ็ก" ผลิตภัณฑ์ของตนอย่างไร ไม่ใช่มองแค่รายงานจากฝ่าย QA
-
จากกระดาษทด สู่ AI Agents ระดับองค์กร: ปัจจุบัน เทคนิค Chain-of-Thought ไม่ได้เป็นแค่เคล็ดลับในการเขียน Prompt อีกต่อไป แต่มันกลายเป็นสถาปัตยกรรมพื้นฐานของ AI Agents ที่บริษัทอย่าง iRead และองค์กรเทคโนโลยีชั้นนำทั่วโลกใช้ เมื่อคุณใช้งาน AI เพื่อดึงข้อมูลเชิงลึกจากฐานข้อมูล (Data pipelines) หรือให้ AI ทำงานอัตโนมัติแบบหลายขั้นตอน AI จะต้องสร้าง Chain-of-Thought ภายใน (Invisible reasoning) เสมอ เพื่อลดความผิดพลาดและตรวจสอบย้อนหลังได้ (Auditability)
-
การแก้ปัญหาไม่ต้องพึ่งเงินล้านเสมอไป: เราเรียนรู้ว่าการจะทำให้ AI ฉลาดขึ้น ไม่จำเป็นต้องใช้เงินหลายร้อยล้านดอลลาร์เพื่อสร้างโมเดลใหม่เสมอไป บางครั้งการเปลี่ยนกรอบความคิด—เช่นการให้โมเดลแสดงวิธีทำแทนที่จะเอาแค่คำตอบ—ก็สามารถปลดล็อกศักยภาพระดับ Enterprise-grade ได้ทันที
บทสรุป
เรื่องราวของ 4chan กับการค้นพบเทคนิค Chain-of-Thought เป็นเครื่องเตือนใจว่ายุคของปัญญาประดิษฐ์นั้นเป็นประชาธิปไตยมากกว่าที่เราคิด นวัตกรรมไม่ได้ถูกผูกขาดโดยคนใส่เสื้อกาวน์ในห้องแล็บที่ซิลิคอนแวลลีย์เพียงอย่างเดียว แต่เกิดขึ้นได้ในทุกที่ที่มนุษย์พยายามสื่อสารและทำความเข้าใจกับเทคโนโลยีใหม่ๆ
ครั้งหน้าหากคุณพิมพ์คำสั่งว่า "Let's think step by step" ลงใน ChatGPT เพื่อให้มันช่วยวิเคราะห์แคมเปญการตลาดหรือแผนธุรกิจ ให้ระลึกไว้ว่า คุณกำลังใช้คาถาวิเศษที่ถูกค้นพบครั้งแรกโดยกลุ่มวัยรุ่นที่พยายามหาทางหนีตายจากมังกรในเกมออนไลน์
และนั่นแหละ คือความสวยงามที่แท้จริงของโลกเทคโนโลยี