Yann LeCun: ผู้บุกเบิกการเรียนรู้เชิงลึกและ AI แบบ Self‑Supervised

Q: ทำไม Yann LeCun ยังคงสำคัญต่อ AI สมัยใหม่ แม้ว่าฉันจะไม่อ่านงานวิจัย?

เขาช่วยยืนยันว่า representation ที่เรียนรู้จากข้อมูล (ฟีเจอร์ที่ระบบค้นพบเอง) มักทำงานได้ดีกว่ากฎที่มนุษย์ออกแบบเมื่อเจอกับข้อมูลจริงที่มีเสียงรบกวน เช่น รูปภาพ แนวคิดนี้—การฝึกแบบ end-to-end, ประสิทธิภาพในโลกจริง และฟีเจอร์ที่นำกลับมาใช้ใหม่ได้—กลายเป็นแม่แบบของระบบ AI สมัยใหม่

Q: ความแตกต่างระหว่าง deep learning กับ self-supervised learning คืออะไร?

การเรียนรู้เชิงลึก (Deep learning) คือแนวทางกว้าง: ใช้เครือข่ายนิวรัลหลายชั้นเพื่อเรียนรู้รูปแบบจากข้อมูล การเรียนรู้แบบ self-supervised (SSL) คือกลยุทธ์การฝึกที่โมเดลสร้างสัญญาณการเรียนรู้จากข้อมูลเอง (เช่น ทำนายส่วนที่หายไป) SSL มักลดความจำเป็นในการติดป้ายด้วยมนุษย์และให้ representation ที่นำกลับมาใช้ได้

Q: แนวคิดการออกแบบหลักของ CNNs มีอะไรบ้าง?

สามแนวคิดหลัก: - การเชื่อมต่อท้องถิ่น (Local connectivity): แต่ละฟิลเตอร์มองแค่แผ่นเล็ก ๆ ไม่ใช่ทั้งภาพ - น้ำหนักที่ใช้ร่วมกัน (Shared weights): ฟิลเตอร์ชุดเดียวกันถูกใช้ทั่วภาพ เพื่อลดจำนวนพารามิเตอร์ - การ pooling/ลดขนาด: สรุปการตอบสนองใกล้เคียงเพื่อเก็บสัญญาณที่สำคัญ ลดขนาด และเพิ่มความทนทานต่อการเลื่อนเล็กน้อย

Q: การเรียนรู้ตัวแทน (representation learning) คืออะไร และทำไมมันจึงเป็นแกนหลักของอิทธิพลของ LeCun?

คือแนวคิดที่ว่าโมเดลควรเรียนรู้ ฟีเจอร์ภายใน ที่มีประโยชน์กว่าสิ่งที่ให้คำตอบสุดท้ายเพียงอย่างเดียว ฟีเจอร์ที่แข็งแกร่งช่วยให้งานย่อยต่าง ๆ ทำได้ง่ายขึ้น รองรับการนำไปใช้ซ้ำ (transfer learning) และมักทนทานกว่าฟีเจอร์ที่มนุษย์ออกแบบ

Q: ฉันจะเลือกใช้ supervised, self-supervised หรือ unsupervised อย่างไร?

ใช้ supervised เมื่อคุณมีป้ายกำกับมากและเป็นมาตรฐานชัดเจนสำหรับงานที่นิ่ง ใช้ self-supervised (pretrain + fine-tune) เมื่อคุณมีข้อมูลดิบมากแต่มีป้ายกำกับน้อย หรือโดเมนอาจเปลี่ยนบ่อย ใช้ unsupervised เมื่อเป้าหมายเป็นการสำรวจ (เช่น การแบ่งกลุ่ม/ค้นหาความผิดปกติ) แล้วยืนยันผลด้วยเมตริก downstream

Q: งาน self-supervised ทั่วไปมีอะไรบ้าง และนำไปใช้จริงอย่างไร?

งาน common ของ SSL ได้แก่: - การมาส์ก/ทำนายส่วนที่หายไป (ช่วงข้อความ แพตช์ภาพ) - ทำนายก้าวถัดไป (โทเคน/เฟรมถัดไป) - การเรียนรู้แบบ contrastive (มุมมองต่าง ๆ ของสิ่งเดียวกันควรจับคู่กัน) หลังการ pretrain มัก fine-tune บนชุดป้ายกำกับขนาดเล็กสำหรับงานเป้าหมาย

Q: บทเรียนที่นำไปใช้ได้จริงจากงานของ LeCun สำหรับทีมที่สร้าง AI วันนี้คืออะไร?

ข้อสรุปปฏิบัติสำหรับทีม: - เริ่มจากนิยามว่า “ดี” หมายถึงอะไรและวัดอย่างไร (เมตริกหลักที่ผูกกับผลลัพธ์ผู้ใช้และต้นทุนของความผิดพลาด) - สร้างชุดทดสอบความเครียด (edge cases, การเปลี่ยนสภาพ) และมี baseline ที่ชัดเจน - ลงทุนกับคุณภาพและความครอบคลุมของข้อมูลตั้งแต่ต้น - พิจารณาใช้ CNNs เมื่อคุณต้องการประสิทธิภาพและการปรับใช้อย่างคาดการณ์ได้; ใช้ SSL เมื่อการติดป้ายเป็นคอขวด จัดการแผนการประเมินและกลยุทธ์ข้อมูลเป็นงานวิศวกรรมชั้นยอด ไม่ใช่เรื่องรอง

เข้าสู่ระบบ เริ่มต้นใช้งาน

Yann LeCun: ผู้บุกเบิกการเรียนรู้เชิงลึกและ AI แบบ Self‑Supervised | Koder.ai

ทำไม Yann LeCun ยังคงกำหนดรูปแบบการสร้าง AI วันนี้

Yann LeCun เป็นหนึ่งในนักวิจัยที่แนวคิดของเขากลายเป็น “ค่าเริ่มต้น” ของ AI สมัยใหม่แบบเงียบ ๆ หากคุณเคยใช้การปลดล็อกสไตล์ Face ID, การติดแท็กภาพอัตโนมัติ, หรือระบบที่รู้จักสิ่งในภาพ นั่นคือผลจากการตัดสินใจเชิงออกแบบที่ LeCun ช่วยพิสูจน์ว่าใช้งานได้ในระดับใหญ่

ทำไมเขาถึงสำคัญ (แม้คุณจะไม่อ่านงานวิจัย)

อิทธิพลของ LeCun ไม่ได้จำกัดอยู่แค่การประดิษฐ์ชิ้นเดียว เขาช่วยผลักดันมุมมองเชิงวิศวกรรมแบบปฏิบัติ: สร้างระบบที่เรียนรู้ representation ที่มีประโยชน์จากข้อมูลจริง ทำงานได้อย่างมีประสิทธิภาพ และปรับปรุงได้จากประสบการณ์ การผสมกันนี้—ความชัดเจนทางวิทยาศาสตร์พร้อมความมุ่งมั่นในประสิทธิภาพโลกจริง—ปรากฏในทุกอย่างตั้งแต่ผลิตภัณฑ์การมองเห็นจนถึงท่อการเทรนโมเดลยุคปัจจุบัน

การเรียนรู้เชิงลึก vs การเรียนรู้แบบ self-supervised แบบเข้าใจง่าย

การเรียนรู้เชิงลึก คือแนวทางกว้าง: ใช้เครือข่ายนิวรัลหลายชั้นเพื่อเรียนรู้รูปแบบจากข้อมูลแทนการเขียนกฎด้วยมือ

การเรียนรู้แบบ self-supervised คือกลยุทธ์การฝึก: ระบบสร้างงานฝึกจากข้อมูลเอง (เช่น ทำนายชิ้นส่วนที่หายไป) ทำให้เรียนรู้จากข้อมูลไม่ได้ติดป้ายจำนวนมากได้ LeCun เป็นผู้สนับสนุนหลักของการเรียนรู้แบบ self-supervision เพราะมันสอดคล้องกับการเรียนรู้ของมนุษย์และสัตว์—ผ่านการสังเกต ไม่ใช่การสอนตลอดเวลา

บทความนี้จะครอบคลุมอะไร

นี่เป็นส่วนหนึ่งชีวประวัติ ส่วนหนึ่งทัวร์ของแนวคิดหลัก: การทำงานเครือข่ายประสาทตั้งแต่ต้นนำไปสู่เครือข่ายคอนโวลูชันได้อย่างไร, ทำไมการเรียนรู้ตัวแทนจึงกลายเป็นแกนกลาง, และทำไมการเรียนรู้แบบ self-supervised ถึงเป็นเส้นทางสำคัญสู่ AI ที่มีความสามารถมากขึ้น เราจะสรุปด้วยข้อคิดเชิงปฏิบัติสำหรับทีมที่สร้างระบบ AI วันนี้

หมายเหตุสั้น ๆ เกี่ยวกับฉายา “พระบิดาแห่ง deep learning”: นี่เป็นคำย่อยอดนิยม (มักใช้กับ LeCun, Geoffrey Hinton และ Yoshua Bengio) ไม่ใช่ตำแหน่งทางการ สิ่งที่สำคัญคือผลงานแนวคิดที่กลายเป็นรากฐาน

งานช่วงต้นและทางสู่เครือข่ายนิวรัล

เส้นทางอาชีพช่วงต้นของ Yann LeCun เข้าใจได้ง่ายที่สุดว่าเป็นการเดิมพันสม่ำเสมอต่อความคิดหนึ่ง: คอมพิวเตอร์ควร เรียนรู้ ฟีเจอร์ที่ถูกต้องจากข้อมูลดิบ แทนที่จะให้มนุษย์ออกแบบด้วยมือ

ไทม์ไลน์สั้น ๆ (ไม่ลงรายละเอียดเชิงวิชาการ)

ในช่วง กลาง–ปลายทศวรรษ 1980 LeCun มุ่งแก้ปัญหาเชิงปฏิบัติที่ดื้อรั้น: จะทำอย่างไรให้เครื่องจดจำรูปแบบในข้อมูลโลกจริงที่ยุ่งเหยิงอย่างภาพได้

ภายใน ปลายทศวรรษ 1980 ถึงต้นทศวรรษ 1990 เขาผลักดันวิธีเครือข่ายนิวรัลที่สามารถเทรนแบบ end-to-end—หมายความว่าให้ตัวอย่างเข้าไป แล้วระบบจะปรับตัวเองเพื่อให้ดีขึ้น

ช่วงนี้วางรากสำหรับงานที่เขาเป็นที่รู้จักภายหลัง (เช่น CNNs และ LeNet) แต่เรื่องสำคัญคือแนวทาง: เลิกโต้แย้งเรื่องกฎ เริ่มเรียนรู้จากข้อมูล

อะไรที่ทำให้แนวทางของเขาต่างจาก AI ก่อนหน้า

AI ก่อนหน้าพยายามเข้ารหัสความฉลาดเป็นกฎชัดเจน: “ถ้า X แปลว่า Y” ซึ่งใช้ได้ในสถานการณ์ที่ควบคุมอย่างเคร่งครัด แต่ล้มเหลวเมื่อต้องเจอโลกที่มีเสียงรบกวน—ลายมือหลากหลาย แสงที่เปลี่ยนในภาพ มุมมองที่เล็กน้อยเปลี่ยนแปลง

แนวทางของ LeCun มุ่งสู่ การเรียนรู้เชิงสถิติ: เทรนโมเดลด้วยตัวอย่างจำนวนมาก ให้มันค้นพบรูปแบบที่มนุษย์อาจบรรยายไม่ได้ แทนที่จะสร้างรายการกฎยาว ๆ ว่า “7” เป็นอย่างไร ให้แสดงตัวอย่างตัวเลขเจ็ดพันตัว แล้วให้ระบบเรียนรู้ representation ที่แยก “7” ออกจาก “1”, “2” และอื่น ๆ

หัวข้อที่วนซ้ำ: การเรียนรู้ตัวแทน

แม้แต่ช่วงแรก ๆ เป้าหมายไม่ใช่แค่ “ได้คำตอบที่ถูก” แต่มันคือการเรียนรู้ representation ภายในที่มีประโยชน์—ฟีเจอร์กะทัดรัดที่นำกลับมาใช้ได้ซึ่งทำให้การตัดสินใจในอนาคตง่ายขึ้น หัวข้อนี้ปรากฏในงานถัดไปทั้งหมด: โมเดลวิชันที่ดีขึ้น การเทรนที่สเกลได้ และในที่สุดการผลักดันสู่การเรียนรู้แบบ self-supervised

เครือข่ายประสาทคอนโวลูชัน (CNNs) อธิบายแบบง่าย

CNNs เป็นประเภทของเครือข่ายนิวรัลที่ออกแบบมาให้ “มองเห็น” รูปแบบในข้อมูลที่มีลักษณะเป็นกริด เช่น ภาพ (หรือเฟรมในวิดีโอ) กลเม็ดหลักคือการคอนโวลูชัน

คอนโวลูชัน ในเชิงสัญชาติญาณ

คิดว่าคอนโวลูชันเป็นตัวตรวจจับรูปแบบขนาดเล็กที่ เลื่อนไป ทั่วภาพ ในแต่ละตำแหน่งมันถามว่า: "ฉันเห็นอะไรอย่างเช่นขอบ มุม แถบ หรือพื้นผิวตรงนี้ไหม?" ตัวตรวจจับเดียวกันถูกนำกลับมาใช้ซ้ำทั่วทั้งภาพ จึงจับรูปแบบได้ไม่ว่าสิ่งนั้นจะอยู่ที่ใด

สามแนวคิดใหญ่

การเชื่อมต่อท้องถิ่น: แต่ละตัวตรวจจับมองแค่แผ่นเล็ก ๆ (ไม่ใช่ทั้งภาพ) ทำให้การเรียนรู้ง่ายขึ้นเพราะพิกเซลใกล้เคียงมักสัมพันธ์กัน

น้ำหนักที่ใช้ร่วมกัน: ตัวตรวจจับที่เลื่อนไปใช้ค่าตัวเลขเดียวกัน (น้ำหนัก) ในทุกตำแหน่ง ซึ่งลดจำนวนพารามิเตอร์อย่างมากและช่วยให้โมเดลจดจำฟีเจอร์เดียวกันในตำแหน่งต่าง ๆ ได้

Pooling (หรือลดขนาด): หลังจากตรวจจับฟีเจอร์แล้ว เครือข่ายมักสรุปการตอบสนองใกล้เคียง (เช่น เอาค่าสูงสุดหรือค่าเฉลี่ย) Pooling เก็บสัญญาณที่แข็งแรง ลดขนาด และเพิ่มความยืดหยุ่นเล็กน้อยเพื่อให้การเปลี่ยนแปลงตำแหน่งเล็ก ๆ ไม่ทำให้การจดจำพัง

ทำไม CNNs จึงเหมาะกับภาพ

ภาพมีโครงสร้าง: พิกเซลที่ใกล้กันสร้างรูปร่างที่มีความหมาย วัตถุเดียวกันสามารถปรากฏที่ใดก็ได้ และรูปแบบมักเกิดซ้ำ CNNs ฝังสมมติฐานเหล่านี้ไว้ในสถาปัตยกรรม จึงเรียนรู้ฟีเจอร์ภาพที่มีประโยชน์ด้วยข้อมูลและการคำนวณน้อยกว่าเครือข่ายเชื่อมต่อเต็มรูปแบบ

ความเข้าใจผิดทั่วไป

CNN ไม่ใช่แค่วิธีสร้างตัวจำแนกขนาดใหญ่ มันคือ ท่อสร้างฟีเจอร์: ชั้นต้น ๆ หาเส้นขอบ ชั้นกลางรวมเป็นส่วน และชั้นปลายประกอบเป็นวัตถุ

และ CNNs เองก็ไม่ได้ "เข้าใจ" ฉากโดยเนื้อแท้ มันเรียนรู้เงื่อนไขทางสถิติจากข้อมูลฝึก นั่นคือเหตุผลว่าทำไมคุณภาพข้อมูลและการประเมินสำคัญเท่ากับโมเดล

LeNet และเหตุผลเพื่อการเรียนรู้เชิงลึกเชิงปฏิบัติ

LeNet เป็นตัวอย่างต้น ๆ ที่ชัดเจนว่าการเรียนรู้เชิงลึกมีประโยชน์ ไม่ใช่แค่ความน่าสนใจ พัฒนาในทศวรรษ 1990 โดย Yann LeCun และเพื่อนร่วมงาน ออกแบบมาสำหรับการรู้จำอักขระลายมือ โดยเฉพาะตัวเลข เช่น ที่พบในเช็ค แบบฟอร์ม และเอกสารสแกนอื่น ๆ

LeNet ถูกสร้างมาเพื่อทำอะไร

ในภาพรวม LeNet รับภาพเข้า (เช่น คร็อปเกรย์สเกลขนาดเล็กที่มีตัวเลข) แล้วให้การจำแนก (0–9) ฟังดูธรรมดาตอนนี้ แต่สำคัญเพราะมันรวมทั้งท่อ: การสกัดฟีเจอร์ และ การจำแนก ถูกเรียนรู้เป็นระบบเดียว

แทนที่จะพึ่งพากฎที่ออกแบบด้วยมือ—เช่น "ตรวจจับขอบ วัดวง แล้วใช้ต้นไม้ตัดสินใจ"—LeNet เรียนรู้ฟีเจอร์ภาพภายในจากตัวอย่างที่ติดป้าย

ทำไมมันมีอิทธิพล

อิทธิพลของ LeNet ไม่ได้มาจากเดโมที่ฉูดฉาด แต่มาจากการแสดงให้เห็นว่าการเรียนรู้แบบ end-to-end สามารถทำงานกับงานวิสัยทัศน์จริง ๆ ได้:

โมเดลเดียวเรียนรู้หลายชั้นของฟีเจอร์โดยอัตโนมัติ
การเทรนทำโดยการเพิ่มประสิทธิภาพทั้งเครือข่ายพร้อมกัน ไม่ใช่แยกชิ้น
ประสิทธิภาพดีพอที่จะนำไปใช้ในบริบทที่จำกัดแต่มีปริมาณสูง เช่น การประมวลผลเอกสาร

แนวคิด "เรียนรู้ฟีเจอร์และตัวจำแนกไปด้วยกัน" นี้เป็นเส้นทางสำคัญสู่ความสำเร็จของ deep learning ในภายหลัง

มันทำนายแนวทางการทำงานสมัยใหม่อย่างไร

นิสัยหลายอย่างที่รู้สึกปกติใน deep learning ตอนนี้เห็นได้จากปรัชญาพื้นฐานของ LeNet:

เริ่มจากอินพุตค่อนข้างดิบ (พิกเซล) แทนที่จะวัดที่มนุษย์ออกแบบแล้ว
ใช้วิธีการเทรนทั่วไป (การเพิ่มประสิทธิภาพด้วยเกรเดียนต์) แทนตรรกะเฉพาะกิจ
ประเมินกับการแจกแจงข้อมูลจริงและวนรอบปรับปรุง

แม้ว่าโมเดลสมัยใหม่จะใช้ข้อมูลมากกว่า คำนวณมากกว่า และมีสถาปัตยกรรมลึกกว่า LeNet ก็ช่วยทำให้แนวคิดว่าเครือข่ายนิวรัลเป็นเครื่องมือวิศวกรรมที่ใช้ได้จริงเป็นเรื่องปกติ โดยเฉพาะกับปัญหาการรับรู้

หมายเหตุทางประวัติศาสตร์อย่างระมัดระวัง

ควรรักษาคำกล่าวให้ถ่อม: LeNet ไม่ใช่ "เครือข่ายเชิงลึกแรกสุด" และไม่ได้ก่อให้เกิดบูมของ deep learning เพียงลำพัง แต่เป็นเหตุการณ์สำคัญที่แสดงว่าการเรียนรู้ representation สามารถชนะระบบที่ออกแบบด้วยมือในปัญหาจริงก่อนที่ deep learning จะกลายเป็นกระแสหลัก

การเรียนรู้ตัวแทน: แนวคิดแกนกลางเบื้องหลังความก้าวหน้า

การเรียนรู้ตัวแทนคือแนวคิดที่ว่าโมเดลไม่ควรเรียนรู้แค่คำตอบสุดท้าย (เช่น "แมว" กับ "สุนัข") แต่มันควรเรียนรู้ ฟีเจอร์ภายในที่มีประโยชน์ ซึ่งทำให้งานหลายอย่างทำได้ง่ายขึ้น

อุปมาง่าย ๆ ในชีวิตประจำวัน

คิดถึงการจัดตู้เสื้อผ้าที่ยุ่ง คุณอาจติดป้ายแต่ละชิ้นทีละชิ้น ("เสื้อสีฟ้า","โค้ทฤดูหนาว","รองเท้าวิ่ง") หรือคุณอาจสร้างหมวดหมู่จัดระบบ—ตามฤดู ตามชนิด ตามขนาด—แล้วใช้หมวดหมู่นั้นค้นหาได้เร็วขึ้น

representation ที่ดีเปรียบเหมือนหมวดหมู่เหล่านั้น: วิธีอธิบายโลกอย่างกะทัดรัดที่ทำให้งานต่อไปง่ายขึ้น

ทำไมฟีเจอร์ที่เรียนรู้ได้มักชนะที่มนุษย์ออกแบบ

ก่อน deep learning ทีมมักออกแบบฟีเจอร์ด้วยมือ: ตัวจับขอบ ตัวบอกพื้นผิว การวัดที่ปรับจูนแล้ว วิธีนี้ได้ผลแต่มีข้อจำกัดสองประการใหญ่:

มันฝังสมมติฐานของมนุษย์ว่าความสำคัญคืออะไร
มักล้มเมื่อข้อมูลเปลี่ยน (แสง มุม สไตล์ ภาษา อุปกรณ์ใหม่)

การมีแกนกลางของ LeCun—แพร่หลายผ่านคอนโวลูชัน—คือการแสดงให้เห็นว่าการเรียนรู้ฟีเจอร์จากข้อมูลสามารถชนะการออกแบบด้วยมือ โดยเฉพาะเมื่องานมีความยุ่งและหลากหลาย แทนที่จะบอกระบบว่าต้องมองหาอะไร คุณปล่อยให้มันค้นพบรูปแบบที่พยากรณ์ผลได้จริง

Representations ช่วยให้ transfer learning ทำได้

เมื่อโมเดลเรียนรู้ representation ที่แข็งแกร่งแล้ว คุณสามารถนำมันไปใช้ต่อได้ เครือข่ายที่ถูกเทรนให้เข้าใจโครงสร้างภาพทั่วไป (ขอบ → รูปทรง → ส่วน → วัตถุ) สามารถปรับไปยังงานใหม่ด้วยข้อมูลน้อยลง: การตรวจหาข้อบกพร่อง, การคัดกรองภาพทางการแพทย์, การจับคู่อีคอมเมิร์ซ และอื่น ๆ

นั่นคือเวทมนตร์เชิงปฏิบัติของ representation: คุณไม่ต้องเริ่มจากศูนย์ทุกครั้ง แต่คุณสร้าง "ความเข้าใจ" ที่นำกลับมาใช้ใหม่ได้จากอินพุต

ข้อคิดเชิงปฏิบัติ: ข้อมูล + วัตถุประสงค์ + การประเมิน

ถ้าคุณกำลังสร้าง AI ในทีม การเรียนรู้ตัวแทนเสนอลำดับความสำคัญง่าย ๆ:

ข้อมูล: ครอบคลุมความเปลี่ยนแปลงในโลกจริง
วัตถุประสงค์: เลือกเป้าหมายการฝึกที่ให้รางวัลกับฟีเจอร์ทั่วไป ไม่ใช่ทางลัด
การประเมิน: ทดสอบการทั่วไป (ผู้ใช้ใหม่ เงื่อนไขใหม่) ไม่ใช่แค่เบนช์มาร์กเดียว

ทำสามข้อให้ถูก แล้ว representation ที่ดีขึ้น—และผลการทำงานที่ดีกว่า—มักตามมา

การเรียนรู้แบบ Self-Supervised: คืออะไรและทำไมสำคัญ

จากเดโมสู่การปรับใช้

ปรับใช้และโฮสต์แอปของคุณเมื่อโปรโตไทป์พร้อมเป็นเครื่องมือใช้งานจริง

ปรับใช้ทันที

การเรียนรู้แบบ self-supervised เป็นวิธีให้ AI เรียนรู้โดยเปลี่ยนข้อมูลดิบเป็น “แบบทดสอบ” ของตัวเอง แทนที่จะพึ่งพามนุษย์มาช่วยติดป้ายทุกตัวอย่าง (แมว สุนัข สแปม) ระบบสร้างงานทำนายจากข้อมูลและฝึกโดยพยายามทำนายให้ถูก

เรียนรู้จากข้อมูลด้วยตัวเอง (ไม่ใช้ศัพท์ยาก)

คิดเหมือนการเรียนภาษาจากการอ่าน: คุณไม่ต้องมีครูมาติดป้ายทุกประโยค—you can learn patterns by guessing what comes next and checking if you're right.

ตัวอย่างง่าย ๆ ที่คุณอาจเคยเจอ

งาน self-supervised ทั่วไปอธิบายได้ง่าย:

ทำนายส่วนที่หายไป: ซ่อนชิ้นข้อความ แพตช์ภาพ หรือช่วงเสียง แล้วให้โมเดลเติมให้
ทำนายก้าวถัดไป: ให้ส่วนแรกของประโยค วิดีโอ หรือคลิปเสียง แล้วทำนายสิ่งที่มาถัดไป
การเรียนรู้แบบ contrastive: ให้มุมมองสองแบบของสิ่งเดียวกัน (เช่น คร็อปภาพสองแบบ) แล้วสอนให้โมเดลรู้ว่ามันคือสิ่งเดียวกัน ขณะที่สิ่งอื่นควรแยกออก

ทำไมมันสำคัญ: ป้ายกำกับมนุษย์น้อยลง ความรู้ใช้งานได้มากขึ้น

การติดป้ายช้า แพง และไม่สม่ำเสมอ SSL ใช้ประโยชน์จากข้อมูลจำนวนมหาศาลที่องค์กรมีอยู่แล้ว—รูปภาพ เอกสาร บันทึกการโทร บันทึกเซ็นเซอร์—เพื่อเรียนรู้ representation ทั่วไป จากนั้นด้วยชุดป้ายกำกับเล็ก ๆ คุณก็ปรับจูนโมเดลให้ทำงานเฉพาะทางได้

ใช้กันที่ไหนในวันนี้

SSL เป็นเครื่องยนต์หลักเบื้องหลังระบบสมัยใหม่ใน:

วิชัน: ฟีเจอร์ภาพที่แข็งแรงสำหรับการค้นหา การตรวจจับ และการควบคุมคุณภาพ
ภาษา: ความเข้าใจและการสร้างข้อความที่ดีขึ้น
เสียง: การรู้จำคำพูดและการเข้าใจเหตุการณ์เสียง/ผู้พูด
ระบบมัลติโมดัล: โมเดลที่เชื่อมข้อความ + รูปภาพ (และบางครั้งเสียง/วิดีโอ) เพื่อ AI ที่ยืดหยุ่นและมีความหมายมากขึ้น

Supervised vs Self-Supervised: จะเลือกทางไหน

การเลือกระหว่าง supervised, unsupervised, และ self-supervised ขึ้นกับสิ่งเดียว: สัญญาณที่คุณหามาได้ในระดับสเกลจริงได้อย่างไร

ความแตกต่างแบบเข้าใจง่าย

Supervised learning เทรนบนอินพุตคู่กับป้ายกำกับที่มนุษย์ให้ (เช่น "ภาพนี้มีแมว") มีประสิทธิภาพเมื่อป้ายกำกับถูกต้อง

Unsupervised learning หาโครงสร้างโดยไม่มีป้าย (เช่น การจัดกลุ่มพฤติกรรมลูกค้า) ใช้ได้ แต่ "โครงสร้าง" อาจคลุมเครือและผลลัพธ์อาจไม่สอดคล้องกับเป้าหมายธุรกิจ

Self-supervised learning เป็นทางสายกลางที่ใช้งานได้: สร้างเป้าหมายฝึกจากข้อมูลเอง (ทำนายคำที่หายไป เฟรมถัดไป หรือมาส์กภาพ) คุณยังได้สัญญาณการเรียนรู้ แต่ไม่ต้องการป้ายจากคน

เมื่อป้ายกำกับคุ้มค่า—และเมื่อมันกลายเป็นคอขวด

ควรใช้ป้ายกำกับเมื่อ:

งานแคบและนิ่ง (เช่น ตรวจหาชำรุดในสายการผลิตคงที่)
ความผิดพลาดมีค่าเสียหายสูงและต้องมีความรับผิดชอบชัดเจน
คุณติดป้ายได้สม่ำเสมอ (พจนานุกรมชัดเจน ความกำกวมต่ำ)

ป้ายกำกับกลายเป็นคอขวดเมื่อ:

โดเมนเปลี่ยนบ่อย (ผลิตภัณฑ์ใหม่ สแลงใหม่ สภาพแวดล้อมใหม่)
การติดป้ายช้า/แพง (ภาพการแพทย์ ข้อความกฎหมาย เหตุการณ์หายาก)
"ป้ายที่ถูก" ขึ้นกับบริบทหรือเป็นเรื่องเชิงความเห็น

วิธีการทำงานของ pretraining + fine-tuning ในทางปฏิบัติ

รูปแบบทั่วไปคือ:

Pretrain โมเดลบนข้อมูลจำนวนมากที่ไม่ได้ติดป้ายเพื่อเรียนรู้ representation ทั่วไป
Fine-tune บนชุดป้ายกำกับขนาดเล็กสำหรับงานเฉพาะ

วิธีนี้มักลดความต้องการป้าย ปรับปรุงประสิทธิภาพเมื่อข้อมูลน้อย และถ่ายโอนความรู้ไปยังงานที่เกี่ยวข้องได้ดีขึ้น

ไกด์การตัดสินใจสำหรับทีม

ถ้าคุณมี ป้ายมากคุณภาพดีและงานชัดเจน: เริ่มด้วย supervised
ถ้าคุณมี ข้อมูลดิบจำนวนมากแต่ป้ายน้อย: เริ่มด้วย self-supervised แล้ว fine-tune
ถ้าจุดประสงค์คือ สำรวจ (การแบ่งกลุ่ม/ค้นหาความผิดปกติ) มากกว่าการพยากรณ์: พิจารณา unsupervised แล้ววัดผลด้วยเมตริก downstream

การเลือกที่ดีที่สุดมักถูกจำกัดโดยศักยภาพการติดป้าย การเปลี่ยนแปลงตามเวลา และความกว้างของการทั่วไปที่คุณต้องการ

โมเดลแบบพลังงานและภาพกว้างของสติปัญญา

ลดต้นทุนขณะสร้าง

ลดค่าใช้จ่ายขณะสร้าง โดยรับเครดิตจากการสร้างเนื้อหาเกี่ยวกับ Koder.ai หรือชวนเพื่อนร่วมทีม

รับเครดิต

โมเดลแบบพลังงาน (EBMs) เป็นวิธีคิดการเรียนรู้ที่ใกล้เคียงกับการ "จัดอันดับ" มากกว่าการ "ติดฉลาก" แทนที่จะบังคับให้โมเดลออกคำตอบเดียว EBM เรียนรู้ฟังก์ชันการให้คะแนน: ให้พลังงานต่ำกับการกำหนดค่าที่สมเหตุสมผล และพลังงานสูงกับสิ่งที่ไม่สมเหตุสมผล

ให้คะแนนการจับคู่ที่ดี vs ไม่ดี

"การกำหนดค่า" อาจหมายถึงหลายสิ่ง: ภาพกับคำบรรยายที่เสนอมาคู่หนึ่ง, ฉากบางส่วนกับวัตถุที่หายไป, หรือสภาวะหุ่นยนต์กับการกระทำที่เสนอ งานของ EBM คือบอกว่า "คู่นี้เข้ากัน" (พลังงานต่ำ) หรือ "ไม่สอดคล้อง" (พลังงานสูง)

แนวคิดง่าย ๆ นี้ทรงพลังเพราะไม่จำเป็นต้องย่อโลกเป็นฉลากเดียว คุณสามารถเปรียบเทียบทางเลือกและเลือกสิ่งที่ได้คะแนนดีที่สุด ซึ่งสอดคล้องกับวิธีที่คนมักแก้ปัญหา: พิจารณาตัวเลือก ปฏิเสธที่เป็นไปไม่ได้ และปรับปรุง

ทำไมคนวิจัยถึงสนใจ

EBMs ให้วัตถุประสงค์การฝึกที่ยืดหยุ่น คุณสามารถสอนโมเดลให้กดตัวอย่างจริงลง (พลังงานต่ำ) และผลักตัวอย่างลบขึ้น (พลังงานสูง) นี่ช่วยกระตุ้นให้เรียนรู้โครงสร้างที่มีประโยชน์ในข้อมูล—ความสม่ำเสมอ ข้อจำกัด และความสัมพันธ์—แทนการจดจำการแมปจากอินพุตเป็นผลลัพธ์แบบตรงไปตรงมา

ความเชื่อมโยงกับโมเดลโลกและการวางแผน

LeCun เชื่อมโยงมุมมองนี้กับเป้าหมายกว้างเช่น "world models": โมเดลภายในที่จับพฤติกรรมของโลกได้ ถ้าโมเดลสามารถให้คะแนนความเป็นไปได้ มันสามารถสนับสนุนการวางแผนโดยการประเมินอนาคตหรือชุดการกระทำที่เป็นไปได้ และเลือกสิ่งที่สอดคล้องกับความเป็นจริง

จากงานวิจัยสู่ระบบจริง: ภาวะผู้นำและอิทธิพล

LeCun แตกต่างจากนักวิจัยชั้นนำหลายคนเพราะอิทธิพลของเขาครอบคลุมทั้งงานวิชาการและแลบขนาดใหญ่ ในมหาวิทยาลัยและสถาบันวิจัย งานของเขาช่วยกำหนดวาระให้เครือข่ายนิวรัลเป็นทางเลือกจริงจังแทนฟีเจอร์ที่ออกแบบด้วยมือ—แนวคิดที่กลายเป็นค่าเริ่มต้นในการมองเห็นด้วยคอมพิวเตอร์และข้ามขอบเขตอื่น ๆ

ทำไมภาวะผู้นำจึงสำคัญใน AI

วงการวิจัยไม่ได้ขับเคลื่อนแค่จากบทความเท่านั้น; มันก้าวหน้าผ่านกลุ่มคนที่ตัดสินใจจะสร้างอะไรต่อไป ใช้เบนช์มาร์กไหน และแนวคิดใดที่ควรถูกขยาย ผ่านการเป็นผู้นำและการเป็นพี่เลี้ยง LeCun ช่วยเปลี่ยนการเรียนรู้ตัวแทน—และต่อมา self-supervised—ให้เป็นโปรแกรมระยะยาว ไม่ใช่การทดลองครั้งเดียว

ทำไมแลบอุตสาหกรรมเร่งความก้าวหน้า

แลบอุตสาหกรรมสำคัญเพราะเหตุผลปฏิบัติหลายประการ:

ข้อมูล: ปัญหาโลกจริงต้องการชุดข้อมูลที่หลากหลายและยุ่งเหยิง ซึ่งทีมวิชาการอาจเข้าถึงไม่เสมอ
การคำนวณ: การเทรนโมเดลขนาดใหญ่และทดลองอย่างกว้างขวางต้องใช้โครงสร้างพื้นฐานที่เกินงบมหาวิทยาลัยทั่วไป
ฟีดแบ็กจากการใช้งาน: เมื่อแนวคิดวิจัยถึงผลิตภัณฑ์ คุณจะเรียนรู้เร็วว่าอะไรพัง—ความหน่วง ขอบเคส ความเป็นส่วนตัว และความคาดหวังของผู้ใช้

Meta AI เป็นตัวอย่างเด่นของสภาพแวดล้อมแบบนี้: ที่ซึ่งทีมวิจัยพื้นฐานสามารถทดสอบแนวคิดในสเกลและดูว่าการเลือกโมเดลมีผลต่อระบบจริงอย่างไร

ทิศทางการวิจัยสะท้อนสู่ผลิตภัณฑ์อย่างไร

เมื่อผู้นำผลักดันงานวิจัยไปทาง representation ที่ดีขึ้น การพึ่งพาป้ายกำกับน้อยลง และการทั่วไปที่แข็งแรงขึ้น ลำดับความสำคัญเหล่านี้จะกระจายออกไป ส่งผลต่อเครื่องมือที่ผู้คนโต้ตอบด้วย—การจัดภาพ การแปล ฟีเจอร์การเข้าถึงเช่นคำบรรยายภาพ ความเข้าใจเนื้อหา และระบบแนะนำ แม้ผู้ใช้จะไม่เคยได้ยินคำว่า "self-supervised" แต่ผลลัพธ์คือโมเดลที่ปรับตัวเร็วขึ้น ต้องการ annotation น้อยลง และจัดการความหลากหลายในโลกจริงได้ดีกว่า

การยอมรับและรางวัล Turing (ร่วมกับ Hinton และ Bengio)

ในปี 2018 Yann LeCun ได้รับรางวัล ACM A.M. Turing Award—ซึ่งมักถูกเรียกว่า "รางวัลโนเบลด้านคอมพิวเตอร์" โดยรางวัลสังเขปยกย่องการเปลี่ยนแปลงที่ deep learning นำมาให้วงการ: แทนที่จะเขียนกฎสำหรับการมองเห็นหรือเสียง นักวิจัยสามารถเทรนระบบให้เรียนรู้ฟีเจอร์ที่มีประโยชน์จากข้อมูล ซึ่งเปิดทางไปสู่ความแม่นยำและการใช้งานจริงที่ก้าวกระโดด

รางวัลนี้แบ่งกับ Geoffrey Hinton และ Yoshua Bengio ซึ่งสำคัญเพราะสะท้อนว่าร่องรอยของเรื่องราว deep learning สมัยใหม่ถูกสร้างจากหลายกลุ่มที่ผลักดันชิ้นส่วนต่าง ๆ ของปริศนา บางครั้งขนานกัน บางครั้งสร้างขึ้นต่อจากงานของกันและกัน

รางวัลต้องการยกย่องสิ่งใดจริง ๆ

มันไม่ใช่เพียงกระดาษเดียวหรือโมเดลเดียว แต่เป็นเส้นทางยาวของแนวคิดที่กลายเป็นระบบในโลกจริง—โดยเฉพาะเครือข่ายนิวรัลที่เทรนได้ในสเกล และการเรียนรู้ representation ที่ทั่วไป

เครดิต ความร่วมมือ และการขับเคลื่อนของวิทยาศาสตร์

รางวัลอาจทำให้ดูเหมือนความก้าวหน้าเกิดจาก "ฮีโร่" ไม่กี่คน แต่ความจริงเป็นชุมชนมากกว่า:

การค้นพบพึ่งพาเครื่องมือร่วมกัน (ชุดข้อมูล การคำนวณ ไลบรารีโอเพนซอร์ส) และการปรับปรุงทีละน้อยนับพัน
การถกเถียงและความไม่เห็นด้วยเป็นส่วนหนึ่งของกระบวนการ—แนวคิดถูกทดสอบ แก้ไข หรือแทนที่
นักศึกษา ทีมแลบ และนักวิจัยอิสระมักทำงานภาคปฏิบัติที่ทำให้ทฤษฎีใช้งานได้

ดังนั้นรางวัล Turing ควรถูกมองเป็นสปอตไลต์บนจุดเปลี่ยนของการคำนวณ—จุดหนึ่งที่ขับเคลื่อนโดยชุมชน—ซึ่ง LeCun, Hinton และ Bengio ต่างช่วยทำให้ deep learning มีความน่าเชื่อถือและพร้อมนำไปใช้

การถกเถียง ขีดจำกัด และสิ่งที่การเรียนรู้แบบ Self-Supervised พยายามแก้

ทำงานเร็วเกินกว่าไปป์ไลน์ของคุณ

แทนที่การส่งมอบงานแบบเดิมที่ช้า ด้วยลูปการสร้างงานผ่านแชทที่ทีมของคุณดูแลได้

ลอง Koderai

แม้ deep learning จะประสบความสำเร็จ งานของ LeCun อยู่ในบริบทของการถกเถียงที่ยังคงมีอยู่: ระบบปัจจุบันทำอะไรได้ดี แต่อะไรที่ยังติดขัด และทิศทางวิจัยไหนอาจปิดช่องว่างได้

ข้อวิจารณ์และคำถามที่เปิดกว้าง

คำถามที่เกิดขึ้นบ่อยในแลบและทีมผลิต:

"เรากำลังแค่ขยายการจับลวดลายรึเปล่า?" นักวิจารณ์บอกว่าโมเดลหลายตัวเก่งที่การหา correlation แต่ขาดความเข้าใจเชิงสาเหตุ
เปราะเมื่อเผชิญการเปลี่ยนแปลง: การเปลี่ยนแปลงเล็ก ๆ ในแสง มุม คำ หรืบริบทอาจทำให้เกิดข้อผิดพลาดใหญ่
การอธิบายเหตุผลและความโปร่งใสไม่ชัดเจน: มักอธิบายยากว่าทำไมเครือข่ายตัดสินใจแบบหนึ่ง ซึ่งทำให้การเชื่อถือและการดีบักยากขึ้น
พฤติกรรมหางยาว: ระบบอาจทำได้ดีในกรณีทั่วไปแต่ล้มเหลวในกรณีหายากหรือที่เกี่ยวกับความปลอดภัย

ขีดจำกัดเชิงปฏิบัติ: ความกระหายข้อมูลและการทั่วไป

Deep learning โดยประวัติเป็นระบบที่ ต้องการข้อมูลมาก: โมเดลแบบมีป้ายอาจต้องชุดข้อมูลติดป้ายขนาดใหญ่ซึ่งแพงและสามารถสะท้อนอคติของมนุษย์ได้

การทั่วไปก็ไม่สม่ำเสมอ โมเดลอาจดูน่าประทับใจบนเบนช์มาร์ก แต่ยังล้มเหลวเมื่อใช้งานจริงในเงื่อนไขที่ยุ่งกว่า—ผู้ใช้กลุ่มใหม่ อุปกรณ์ใหม่ เวิร์กโฟลว์ใหม่ หรือนโยบายใหม่ ช่องว่างนี้เป็นเหตุผลว่าทีมต้องลงทุนในมอนิเตอร์ การเทรนซ้ำ และการประเมินเกินกว่าชุดทดสอบเดียว

ทำไมการเรียนรู้แบบ self-supervised จึงเป็นแนวทางที่เสนอไว้

SSL พยายามลดการพึ่งพาป้ายโดยเรียนรู้จากโครงสร้างที่มีอยู่แล้วในข้อมูลดิบ—ทำนายส่วนที่หายไป เรียนรู้อความไม่แปรผัน หรือจับคู่วิวต่าง ๆ ของเนื้อหา สัญญาณคือถ้าระบบเรียนรู้ representation ที่มีประโยชน์ จากข้อมูลข้อความ รูปภาพ เสียง หรือวิดีโอขนาดใหญ่ ชุดป้ายที่เล็กกว่าก็มักพอสำหรับปรับใช้งานเฉพาะ

SSL ยังสนับสนุนการเรียนรู้ฟีเจอร์ทั่วไปที่ถ่ายโอนได้ข้ามงานต่าง ๆ

อะไรพิสูจน์แล้ว vs อะไรยังเป็นงานวิจัย

สิ่งที่พิสูจน์แล้ว: SSL และการเรียนรู้ตัวแทนสามารถปรับปรุงประสิทธิภาพและการนำกลับมาใช้ซ้ำข้ามงานได้อย่างมาก โดยเฉพาะเมื่อป้ายขาดแคลน

สิ่งที่ยังเป็นงานวิจัย: การเรียนรู้ world models ที่เชื่อถือได้ การวางแผนและเหตุผลเชิงประกอบ การป้องกันความล้มเหลวเมื่อการแจกแจงเปลี่ยน และการสร้างระบบที่เรียนรู้ต่อเนื่องโดยไม่ลืมหรือเบี่ยงเบน

ข้อคิดเชิงปฏิบัติสำหรับทีมที่สร้าง AI วันนี้

งานของ LeCun เตือนให้เห็นว่า "state of the art" มีค่าน้อยกว่าการเลือกวิธีที่เหมาะสมกับวัตถุประสงค์จริง ๆ ถ้าคุณสร้าง AI ในผลิตภัณฑ์ ข้อได้เปรียบมักมาจากการเลือกวิธีที่เรียบง่ายที่สุดที่ตอบสนองข้อจำกัดในโลกจริงได้

เริ่มจากวัตถุประสงค์และการประเมิน

ก่อนเลือกโมเดล ให้เขียนว่า "ดี" หมายถึงอะไรในบริบทของคุณ: ผลลัพธ์ผู้ใช้ ต้นทุนความผิดพลาด ความหน่วง และภาระการบำรุงรักษา

แผนการประเมินเชิงปฏิบัติควรรวมถึง:

เมตริกหลักผูกกับเป้าหมายผลิตภัณฑ์ (เช่น recall ที่ precision คงที่สำหรับฟิลเตอร์ความปลอดภัย)
ชุดทดสอบความเครียดไม่กี่อย่าง (ขอบเคส, คลาสหายาก, การเปลี่ยนแปลงแสง/มุม)
เบสไลน์ที่ต้องเอาชนะได้ (เฮิร์ริสติกง่าย โมเดลคลาสสิก หรือเครือข่ายขนาดเล็ก)

กลยุทธ์ข้อมูล: การติดป้าย + การใช้ข้อมูลไม่ได้ติดป้าย

มองข้อมูลเป็นสินทรัพย์ที่มีโร้ดแมป การติดป้ายแพง ดังนั้นต้องมีเหตุผล:

ติดป้ายเพื่อการตัดสินใจที่คุณต้องการจริง ๆ มิใช่ทุกอย่างที่ติดได้
ใช้การเพิ่มข้อมูลเพื่อเลียนแบบความหลากหลายในโลกจริง (คร็อป เลือน สี) แต่ต้องยืนยันว่ามันไม่เปลี่ยนความหมาย
ถ้าคุณมีข้อมูลดิบมาก สำรวจวิธี self-supervised หรือ weakly supervised เพื่อเรียนรู้ representation ที่มีประโยชน์ แล้วค่อย fine-tune ด้วยชุดป้ายเล็ก

กฎช่วยได้: ลงทุนกับคุณภาพและความครอบคลุมของข้อมูลตั้งแต่ต้น ก่อนจะไล่ตามโมเดลที่ใหญ่กว่า

การเลือกโมเดล: เมื่อ CNNs ยังน่าสนใจ

CNNs ยังคงเป็นค่าเริ่มต้นที่แข็งแกร่งสำหรับหลายงานวิชัน โดยเฉพาะเมื่อคุณต้องการประสิทธิภาพและพฤติกรรมที่คาดการณ์ได้ (การจำแนก การตรวจจับ ท่อ OCR คล้าย ๆ) สถาปัตยกรรมใหม่อาจชนะเรื่องความแม่นยำหรือความยืดหยุ่นมัลติโมดัล แต่แลกด้วยค่าใช้จ่ายการคำนวณ ความซับซ้อน และความยากในการปรับใช้

ถ้าข้อจำกัดของคุณเข้มงวด (มือถือ/edge, ผ่านงานจำนวนมาก, งบเทรนจำกัด) CNN ที่ปรับแต่งดีพร้อมข้อมูลเหมาะสมมักชนะโมเดลที่ "หรูหรา" แต่ส่งช้า

นำบทเรียนวิจัยสู่ซอฟต์แวร์ใช้งานได้จริง

หัวข้อที่วนซ้ำตลอดงานของ LeCun คือความคิดแบบ end-to-end: ไม่ใช่แค่โมเดล แต่คือท่อรอบ ๆ มัน—การเก็บข้อมูล การประเมิน การปรับใช้ และการวนรอบปรับปรุง ในทางปฏิบัติ ทีมหลายทีมสะดุดไม่ใช่เพราะสถาปัตยกรรมผิด แต่เพราะใช้เวลานานเกินไปในการสร้างพื้นผิวผลิตภัณฑ์รอบ ๆ (เครื่องมือแอดมิน UI การติดป้าย เวิร์กโฟลว์รีวิว แดชบอร์ดมอนิเตอร์)

ตรงนี้เครื่องมือ "vibe-coding" สมัยใหม่ช่วยได้ ตัวอย่างเช่น Koder.ai ช่วยให้ทีมทำต้นแบบและปล่อยเว็บ แบ็กเอนด์ และแอปมือถือผ่านการทำงานด้วยแชท—มีประโยชน์เมื่อคุณต้องการแอปประเมินภายในอย่างรวดเร็ว (เช่นแดชบอร์ด React พร้อมแบ็กเอนด์ Go + PostgreSQL), ต้องการ snapshot/rollback ระหว่างการวนรอบรวดเร็ว, หรือต้องการส่งออกซอร์สโค้ดและปรับใช้โดเมนเองเมื่อเวิร์กโฟลว์เสถียร จุดประสงค์ไม่ใช่แทนที่งานวิจัย ML แต่นำอุปสรรคระหว่างไอเดียโมเดลที่ดีและระบบใช้งานได้ให้สั้นลง

จะอ่านอะไรต่อ

ถ้าคุณวางแผนโครงการ AI ให้ดู /docs สำหรับคำแนะนำการนำไปใช้ ดู /pricing สำหรับตัวเลือกการปรับใช้ หรือสำรวจบทความเพิ่มเติมใน /blog.

คำถามที่พบบ่อย

ทำไม Yann LeCun ยังคงสำคัญต่อ AI สมัยใหม่ แม้ว่าฉันจะไม่อ่านงานวิจัย?

เขาช่วยยืนยันว่า representation ที่เรียนรู้จากข้อมูล (ฟีเจอร์ที่ระบบค้นพบเอง) มักทำงานได้ดีกว่ากฎที่มนุษย์ออกแบบเมื่อเจอกับข้อมูลจริงที่มีเสียงรบกวน เช่น รูปภาพ แนวคิดนี้—การฝึกแบบ end-to-end, ประสิทธิภาพในโลกจริง และฟีเจอร์ที่นำกลับมาใช้ใหม่ได้—กลายเป็นแม่แบบของระบบ AI สมัยใหม่

ความแตกต่างระหว่าง deep learning กับ self-supervised learning คืออะไร?

การเรียนรู้เชิงลึก (Deep learning) คือแนวทางกว้าง: ใช้เครือข่ายนิวรัลหลายชั้นเพื่อเรียนรู้รูปแบบจากข้อมูล

การเรียนรู้แบบ self-supervised (SSL) คือกลยุทธ์การฝึกที่โมเดลสร้างสัญญาณการเรียนรู้จากข้อมูลเอง (เช่น ทำนายส่วนที่หายไป) SSL มักลดความจำเป็นในการติดป้ายด้วยมนุษย์และให้ representation ที่นำกลับมาใช้ได้

คำว่า “convolution” ใน CNNs หมายความว่าอย่างไร แบบง่าย ๆ?

คอนโวลูชันคือการ "เลื่อน" ตัวตรวจจับขนาดเล็ก (ฟิลเตอร์) ข้ามภาพเพื่อค้นหารูปแบบ เช่น ขอบ หรือพื้นผิว ที่ใดก็ได้ในภาพ การใช้ตัวตรวจจับเดียวกันทั่วทั้งภาพช่วยให้การเรียนรู้มีประสิทธิภาพและช่วยให้การจดจำทำงานได้แม้ว่าวัตถุจะเคลื่อนที่ภายในเฟรม

แนวคิดการออกแบบหลักของ CNNs มีอะไรบ้าง?

สามแนวคิดหลัก:

การเชื่อมต่อท้องถิ่น (Local connectivity): แต่ละฟิลเตอร์มองแค่แผ่นเล็ก ๆ ไม่ใช่ทั้งภาพ
น้ำหนักที่ใช้ร่วมกัน (Shared weights): ฟิลเตอร์ชุดเดียวกันถูกใช้ทั่วภาพ เพื่อลดจำนวนพารามิเตอร์
การ pooling/ลดขนาด: สรุปการตอบสนองใกล้เคียงเพื่อเก็บสัญญาณที่สำคัญ ลดขนาด และเพิ่มความทนทานต่อการเลื่อนเล็กน้อย

ทำไม LeNet จึงถือเป็นหลักไมล์ของการเรียนรู้เชิงลึกเชิงปฏิบัติ?

LeNet แสดงให้เห็นว่าเครือข่ายนิวรัลแบบ end-to-end สามารถแก้ปัญหาเชิงธุรกิจจริง ๆ ได้ เช่น การจดจำตัวเลขมือเขียน มันรวมการสกัดฟีเจอร์และการจำแนกไว้ในระบบเดียว และช่วยทำให้แนวคิดการฝึกทั้งเครือข่ายพร้อมกันเป็นที่ยอมรับสำหรับงานการมองเห็น

การเรียนรู้ตัวแทน (representation learning) คืออะไร และทำไมมันจึงเป็นแกนหลักของอิทธิพลของ LeCun?

คือแนวคิดที่ว่าโมเดลควรเรียนรู้ ฟีเจอร์ภายใน ที่มีประโยชน์กว่าสิ่งที่ให้คำตอบสุดท้ายเพียงอย่างเดียว ฟีเจอร์ที่แข็งแกร่งช่วยให้งานย่อยต่าง ๆ ทำได้ง่ายขึ้น รองรับการนำไปใช้ซ้ำ (transfer learning) และมักทนทานกว่าฟีเจอร์ที่มนุษย์ออกแบบ

ฉันจะเลือกใช้ supervised, self-supervised หรือ unsupervised อย่างไร?

ใช้ supervised เมื่อคุณมีป้ายกำกับมากและเป็นมาตรฐานชัดเจนสำหรับงานที่นิ่ง

ใช้ self-supervised (pretrain + fine-tune) เมื่อคุณมีข้อมูลดิบมากแต่มีป้ายกำกับน้อย หรือโดเมนอาจเปลี่ยนบ่อย

ใช้ unsupervised เมื่อเป้าหมายเป็นการสำรวจ (เช่น การแบ่งกลุ่ม/ค้นหาความผิดปกติ) แล้วยืนยันผลด้วยเมตริก downstream

งาน self-supervised ทั่วไปมีอะไรบ้าง และนำไปใช้จริงอย่างไร?

งาน common ของ SSL ได้แก่:

การมาส์ก/ทำนายส่วนที่หายไป (ช่วงข้อความ แพตช์ภาพ)
ทำนายก้าวถัดไป (โทเคน/เฟรมถัดไป)
การเรียนรู้แบบ contrastive (มุมมองต่าง ๆ ของสิ่งเดียวกันควรจับคู่กัน)

หลังการ pretrain มัก fine-tune บนชุดป้ายกำกับขนาดเล็กสำหรับงานเป้าหมาย

โมเดลแบบพลังงาน (Energy-based model) คืออะไร และทำไมคนวิจัยถึงสนใจ?

EBM คือการเรียนรู้ฟังก์ชันการให้คะแนน: การจัดค่าที่เป็นไปได้จะได้ พลังงานต่ำ ส่วนที่ไม่สอดคล้องได้ พลังงานสูง แนวทางนี้เหมาะเมื่อคุณอยากเปรียบเทียบตัวเลือกหลาย ๆ อย่าง แทนที่จะบังคับให้โมเดลเลือกฉลากเดียว และเชื่อมโยงกับแนวคิด world models และการวางแผน

บทเรียนที่นำไปใช้ได้จริงจากงานของ LeCun สำหรับทีมที่สร้าง AI วันนี้คืออะไร?

ข้อสรุปปฏิบัติสำหรับทีม:

เริ่มจากนิยามว่า “ดี” หมายถึงอะไรและวัดอย่างไร (เมตริกหลักที่ผูกกับผลลัพธ์ผู้ใช้และต้นทุนของความผิดพลาด)
สร้างชุดทดสอบความเครียด (edge cases, การเปลี่ยนสภาพ) และมี baseline ที่ชัดเจน
ลงทุนกับคุณภาพและความครอบคลุมของข้อมูลตั้งแต่ต้น
พิจารณาใช้ CNNs เมื่อคุณต้องการประสิทธิภาพและการปรับใช้อย่างคาดการณ์ได้; ใช้ SSL เมื่อการติดป้ายเป็นคอขวด

จัดการแผนการประเมินและกลยุทธ์ข้อมูลเป็นงานวิศวกรรมชั้นยอด ไม่ใช่เรื่องรอง