สำรวจแนวคิดและเหตุการณ์สำคัญของ Yann LeCun — ตั้งแต่ CNNs และ LeNet จนถึงการเรียนรู้แบบ self-supervised — และเหตุผลที่ผลงานของเขายังมีอิทธิพลต่อ AI ในวันนี้

Yann LeCun เป็นหนึ่งในนักวิจัยที่แนวคิดของเขากลายเป็น “ค่าเริ่มต้น” ของ AI สมัยใหม่แบบเงียบ ๆ หากคุณเคยใช้การปลดล็อกสไตล์ Face ID, การติดแท็กภาพอัตโนมัติ, หรือระบบที่รู้จักสิ่งในภาพ นั่นคือผลจากการตัดสินใจเชิงออกแบบที่ LeCun ช่วยพิสูจน์ว่าใช้งานได้ในระดับใหญ่
อิทธิพลของ LeCun ไม่ได้จำกัดอยู่แค่การประดิษฐ์ชิ้นเดียว เขาช่วยผลักดันมุมมองเชิงวิศวกรรมแบบปฏิบัติ: สร้างระบบที่เรียนรู้ representation ที่มีประโยชน์จากข้อมูลจริง ทำงานได้อย่างมีประสิทธิภาพ และปรับปรุงได้จากประสบการณ์ การผสมกันนี้—ความชัดเจนทางวิทยาศาสตร์พร้อมความมุ่งมั่นในประสิทธิภาพโลกจริง—ปรากฏในทุกอย่างตั้งแต่ผลิตภัณฑ์การมองเห็นจนถึงท่อการเทรนโมเดลยุคปัจจุบัน
การเรียนรู้เชิงลึก คือแนวทางกว้าง: ใช้เครือข่ายนิวรัลหลายชั้นเพื่อเรียนรู้รูปแบบจากข้อมูลแทนการเขียนกฎด้วยมือ
การเรียนรู้แบบ self-supervised คือกลยุทธ์การฝึก: ระบบสร้างงานฝึกจากข้อมูลเอง (เช่น ทำนายชิ้นส่วนที่หายไป) ทำให้เรียนรู้จากข้อมูลไม่ได้ติดป้ายจำนวนมากได้ LeCun เป็นผู้สนับสนุนหลักของการเรียนรู้แบบ self-supervision เพราะมันสอดคล้องกับการเรียนรู้ของมนุษย์และสัตว์—ผ่านการสังเกต ไม่ใช่การสอนตลอดเวลา
นี่เป็นส่วนหนึ่งชีวประวัติ ส่วนหนึ่งทัวร์ของแนวคิดหลัก: การทำงานเครือข่ายประสาทตั้งแต่ต้นนำไปสู่เครือข่ายคอนโวลูชันได้อย่างไร, ทำไมการเรียนรู้ตัวแทนจึงกลายเป็นแกนกลาง, และทำไมการเรียนรู้แบบ self-supervised ถึงเป็นเส้นทางสำคัญสู่ AI ที่มีความสามารถมากขึ้น เราจะสรุปด้วยข้อคิดเชิงปฏิบัติสำหรับทีมที่สร้างระบบ AI วันนี้
หมายเหตุสั้น ๆ เกี่ยวกับฉายา “พระบิดาแห่ง deep learning”: นี่เป็นคำย่อยอดนิยม (มักใช้กับ LeCun, Geoffrey Hinton และ Yoshua Bengio) ไม่ใช่ตำแหน่งทางการ สิ่งที่สำคัญคือผลงานแนวคิดที่กลายเป็นรากฐาน
เส้นทางอาชีพช่วงต้นของ Yann LeCun เข้าใจได้ง่ายที่สุดว่าเป็นการเดิมพันสม่ำเสมอต่อความคิดหนึ่ง: คอมพิวเตอร์ควร เรียนรู้ ฟีเจอร์ที่ถูกต้องจากข้อมูลดิบ แทนที่จะให้มนุษย์ออกแบบด้วยมือ
ในช่วง กลาง–ปลายทศวรรษ 1980 LeCun มุ่งแก้ปัญหาเชิงปฏิบัติที่ดื้อรั้น: จะทำอย่างไรให้เครื่องจดจำรูปแบบในข้อมูลโลกจริงที่ยุ่งเหยิงอย่างภาพได้
ภายใน ปลายทศวรรษ 1980 ถึงต้นทศวรรษ 1990 เขาผลักดันวิธีเครือข่ายนิวรัลที่สามารถเทรนแบบ end-to-end—หมายความว่าให้ตัวอย่างเข้าไป แล้วระบบจะปรับตัวเองเพื่อให้ดีขึ้น
ช่วงนี้วางรากสำหรับงานที่เขาเป็นที่รู้จักภายหลัง (เช่น CNNs และ LeNet) แต่เรื่องสำคัญคือแนวทาง: เลิกโต้แย้งเรื่องกฎ เริ่มเรียนรู้จากข้อมูล
AI ก่อนหน้าพยายามเข้ารหัสความฉลาดเป็นกฎชัดเจน: “ถ้า X แปลว่า Y” ซึ่งใช้ได้ในสถานการณ์ที่ควบคุมอย่างเคร่งครัด แต่ล้มเหลวเมื่อต้องเจอโลกที่มีเสียงรบกวน—ลายมือหลากหลาย แสงที่เปลี่ยนในภาพ มุมมองที่เล็กน้อยเปลี่ยนแปลง
แนวทางของ LeCun มุ่งสู่ การเรียนรู้เชิงสถิติ: เทรนโมเดลด้วยตัวอย่างจำนวนมาก ให้มันค้นพบรูปแบบที่มนุษย์อาจบรรยายไม่ได้ แทนที่จะสร้างรายการกฎยาว ๆ ว่า “7” เป็นอย่างไร ให้แสดงตัวอย่างตัวเลขเจ็ดพันตัว แล้วให้ระบบเรียนรู้ representation ที่แยก “7” ออกจาก “1”, “2” และอื่น ๆ
แม้แต่ช่วงแรก ๆ เป้าหมายไม่ใช่แค่ “ได้คำตอบที่ถูก” แต่มันคือการเรียนรู้ representation ภายในที่มีประโยชน์—ฟีเจอร์กะทัดรัดที่นำกลับมาใช้ได้ซึ่งทำให้การตัดสินใจในอนาคตง่ายขึ้น หัวข้อนี้ปรากฏในงานถัดไปทั้งหมด: โมเดลวิชันที่ดีขึ้น การเทรนที่สเกลได้ และในที่สุดการผลักดันสู่การเรียนรู้แบบ self-supervised
CNNs เป็นประเภทของเครือข่ายนิวรัลที่ออกแบบมาให้ “มองเห็น” รูปแบบในข้อมูลที่มีลักษณะเป็นกริด เช่น ภาพ (หรือเฟรมในวิดีโอ) กลเม็ดหลักคือการคอนโวลูชัน
คิดว่าคอนโวลูชันเป็นตัวตรวจจับรูปแบบขนาดเล็กที่ เลื่อนไป ทั่วภาพ ในแต่ละตำแหน่งมันถามว่า: "ฉันเห็นอะไรอย่างเช่นขอบ มุม แถบ หรือพื้นผิวตรงนี้ไหม?" ตัวตรวจจับเดียวกันถูกนำกลับมาใช้ซ้ำทั่วทั้งภาพ จึงจับรูปแบบได้ไม่ว่าสิ่งนั้นจะอยู่ที่ใด
การเชื่อมต่อท้องถิ่น: แต่ละตัวตรวจจับมองแค่แผ่นเล็ก ๆ (ไม่ใช่ทั้งภาพ) ทำให้การเรียนรู้ง่ายขึ้นเพราะพิกเซลใกล้เคียงมักสัมพันธ์กัน
น้ำหนักที่ใช้ร่วมกัน: ตัวตรวจจับที่เลื่อนไปใช้ค่าตัวเลขเดียวกัน (น้ำหนัก) ในทุกตำแหน่ง ซึ่งลดจำนวนพารามิเตอร์อย่างมากและช่วยให้โมเดลจดจำฟีเจอร์เดียวกันในตำแหน่งต่าง ๆ ได้
Pooling (หรือลดขนาด): หลังจากตรวจจับฟีเจอร์แล้ว เครือข่ายมักสรุปการตอบสนองใกล้เคียง (เช่น เอาค่าสูงสุดหรือค่าเฉลี่ย) Pooling เก็บสัญญาณที่แข็งแรง ลดขนาด และเพิ่มความยืดหยุ่นเล็กน้อยเพื่อให้การเปลี่ยนแปลงตำแหน่งเล็ก ๆ ไม่ทำให้การจดจำพัง
ภาพมีโครงสร้าง: พิกเซลที่ใกล้กันสร้างรูปร่างที่มีความหมาย วัตถุเดียวกันสามารถปรากฏที่ใดก็ได้ และรูปแบบมักเกิดซ้ำ CNNs ฝังสมมติฐานเหล่านี้ไว้ในสถาปัตยกรรม จึงเรียนรู้ฟีเจอร์ภาพที่มีประโยชน์ด้วยข้อมูลและการคำนวณน้อยกว่าเครือข่ายเชื่อมต่อเต็มรูปแบบ
CNN ไม่ใช่แค่วิธีสร้างตัวจำแนกขนาดใหญ่ มันคือ ท่อสร้างฟีเจอร์: ชั้นต้น ๆ หาเส้นขอบ ชั้นกลางรวมเป็นส่วน และชั้นปลายประกอบเป็นวัตถุ
และ CNNs เองก็ไม่ได้ "เข้าใจ" ฉากโดยเนื้อแท้ มันเรียนรู้เงื่อนไขทางสถิติจากข้อมูลฝึก นั่นคือเหตุผลว่าทำไมคุณภาพข้อมูลและการประเมินสำคัญเท่ากับโมเดล
LeNet เป็นตัวอย่างต้น ๆ ที่ชัดเจนว่าการเรียนรู้เชิงลึกมีประโยชน์ ไม่ใช่แค่ความน่าสนใจ พัฒนาในทศวรรษ 1990 โดย Yann LeCun และเพื่อนร่วมงาน ออกแบบมาสำหรับการรู้จำอักขระลายมือ โดยเฉพาะตัวเลข เช่น ที่พบในเช็ค แบบฟอร์ม และเอกสารสแกนอื่น ๆ
ในภาพรวม LeNet รับภาพเข้า (เช่น คร็อปเกรย์สเกลขนาดเล็กที่มีตัวเลข) แล้วให้การจำแนก (0–9) ฟังดูธรรมดาตอนนี้ แต่สำคัญเพราะมันรวมทั้งท่อ: การสกัดฟีเจอร์ และ การจำแนก ถูกเรียนรู้เป็นระบบเดียว
แทนที่จะพึ่งพากฎที่ออกแบบด้วยมือ—เช่น "ตรวจจับขอบ วัดวง แล้วใช้ต้นไม้ตัดสินใจ"—LeNet เรียนรู้ฟีเจอร์ภาพภายในจากตัวอย่างที่ติดป้าย
อิทธิพลของ LeNet ไม่ได้มาจากเดโมที่ฉูดฉาด แต่มาจากการแสดงให้เห็นว่าการเรียนรู้แบบ end-to-end สามารถทำงานกับงานวิสัยทัศน์จริง ๆ ได้:
แนวคิด "เรียนรู้ฟีเจอร์และตัวจำแนกไปด้วยกัน" นี้เป็นเส้นทางสำคัญสู่ความสำเร็จของ deep learning ในภายหลัง
นิสัยหลายอย่างที่รู้สึกปกติใน deep learning ตอนนี้เห็นได้จากปรัชญาพื้นฐานของ LeNet:
แม้ว่าโมเดลสมัยใหม่จะใช้ข้อมูลมากกว่า คำนวณมากกว่า และมีสถาปัตยกรรมลึกกว่า LeNet ก็ช่วยทำให้แนวคิดว่าเครือข่ายนิวรัลเป็นเครื่องมือวิศวกรรมที่ใช้ได้จริงเป็นเรื่องปกติ โดยเฉพาะกับปัญหาการรับรู้
ควรรักษาคำกล่าวให้ถ่อม: LeNet ไม่ใช่ "เครือข่ายเชิงลึกแรกสุด" และไม่ได้ก่อให้เกิดบูมของ deep learning เพียงลำพัง แต่เป็นเหตุการณ์สำคัญที่แสดงว่าการเรียนรู้ representation สามารถชนะระบบที่ออกแบบด้วยมือในปัญหาจริงก่อนที่ deep learning จะกลายเป็นกระแสหลัก
การเรียนรู้ตัวแทนคือแนวคิดที่ว่าโมเดลไม่ควรเรียนรู้แค่คำตอบสุดท้าย (เช่น "แมว" กับ "สุนัข") แต่มันควรเรียนรู้ ฟีเจอร์ภายในที่มีประโยชน์ ซึ่งทำให้งานหลายอย่างทำได้ง่ายขึ้น
คิดถึงการจัดตู้เสื้อผ้าที่ยุ่ง คุณอาจติดป้ายแต่ละชิ้นทีละชิ้น ("เสื้อสีฟ้า","โค้ทฤดูหนาว","รองเท้าวิ่ง") หรือคุณอาจสร้างหมวดหมู่จัดระบบ—ตามฤดู ตามชนิด ตามขนาด—แล้วใช้หมวดหมู่นั้นค้นหาได้เร็วขึ้น
representation ที่ดีเปรียบเหมือนหมวดหมู่เหล่านั้น: วิธีอธิบายโลกอย่างกะทัดรัดที่ทำให้งานต่อไปง่ายขึ้น
ก่อน deep learning ทีมมักออกแบบฟีเจอร์ด้วยมือ: ตัวจับขอบ ตัวบอกพื้นผิว การวัดที่ปรับจูนแล้ว วิธีนี้ได้ผลแต่มีข้อจำกัดสองประการใหญ่:
การมีแกนกลางของ LeCun—แพร่หลายผ่านคอนโวลูชัน—คือการแสดงให้เห็นว่าการเรียนรู้ฟีเจอร์จากข้อมูลสามารถชนะการออกแบบด้วยมือ โดยเฉพาะเมื่องานมีความยุ่งและหลากหลาย แทนที่จะบอกระบบว่าต้องมองหาอะไร คุณปล่อยให้มันค้นพบรูปแบบที่พยากรณ์ผลได้จริง
เมื่อโมเดลเรียนรู้ representation ที่แข็งแกร่งแล้ว คุณสามารถนำมันไปใช้ต่อได้ เครือข่ายที่ถูกเทรนให้เข้าใจโครงสร้างภาพทั่วไป (ขอบ → รูปทรง → ส่วน → วัตถุ) สามารถปรับไปยังงานใหม่ด้วยข้อมูลน้อยลง: การตรวจหาข้อบกพร่อง, การคัดกรองภาพทางการแพทย์, การจับคู่อีคอมเมิร์ซ และอื่น ๆ
นั่นคือเวทมนตร์เชิงปฏิบัติของ representation: คุณไม่ต้องเริ่มจากศูนย์ทุกครั้ง แต่คุณสร้าง "ความเข้าใจ" ที่นำกลับมาใช้ใหม่ได้จากอินพุต
ถ้าคุณกำลังสร้าง AI ในทีม การเรียนรู้ตัวแทนเสนอลำดับความสำคัญง่าย ๆ:
ทำสามข้อให้ถูก แล้ว representation ที่ดีขึ้น—และผลการทำงานที่ดีกว่า—มักตามมา
การเรียนรู้แบบ self-supervised เป็นวิธีให้ AI เรียนรู้โดยเปลี่ยนข้อมูลดิบเป็น “แบบทดสอบ” ของตัวเอง แทนที่จะพึ่งพามนุษย์มาช่วยติดป้ายทุกตัวอย่าง (แมว สุนัข สแปม) ระบบสร้างงานทำนายจากข้อมูลและฝึกโดยพยายามทำนายให้ถูก
คิดเหมือนการเรียนภาษาจากการอ่าน: คุณไม่ต้องมีครูมาติดป้ายทุกประโยค—you can learn patterns by guessing what comes next and checking if you're right.
งาน self-supervised ทั่วไปอธิบายได้ง่าย:
การติดป้ายช้า แพง และไม่สม่ำเสมอ SSL ใช้ประโยชน์จากข้อมูลจำนวนมหาศาลที่องค์กรมีอยู่แล้ว—รูปภาพ เอกสาร บันทึกการโทร บันทึกเซ็นเซอร์—เพื่อเรียนรู้ representation ทั่วไป จากนั้นด้วยชุดป้ายกำกับเล็ก ๆ คุณก็ปรับจูนโมเดลให้ทำงานเฉพาะทางได้
SSL เป็นเครื่องยนต์หลักเบื้องหลังระบบสมัยใหม่ใน:
การเลือกระหว่าง supervised, unsupervised, และ self-supervised ขึ้นกับสิ่งเดียว: สัญญาณที่คุณหามาได้ในระดับสเกลจริงได้อย่างไร
Supervised learning เทรนบนอินพุตคู่กับป้ายกำกับที่มนุษย์ให้ (เช่น "ภาพนี้มีแมว") มีประสิทธิภาพเมื่อป้ายกำกับถูกต้อง
Unsupervised learning หาโครงสร้างโดยไม่มีป้าย (เช่น การจัดกลุ่มพฤติกรรมลูกค้า) ใช้ได้ แต่ "โครงสร้าง" อาจคลุมเครือและผลลัพธ์อาจไม่สอดคล้องกับเป้าหมายธุรกิจ
Self-supervised learning เป็นทางสายกลางที่ใช้งานได้: สร้างเป้าหมายฝึกจากข้อมูลเอง (ทำนายคำที่หายไป เฟรมถัดไป หรือมาส์กภาพ) คุณยังได้สัญญาณการเรียนรู้ แต่ไม่ต้องการป้ายจากคน
ควรใช้ป้ายกำกับเมื่อ:
ป้ายกำกับกลายเป็นคอขวดเมื่อ:
รูปแบบทั่วไปคือ:
วิธีนี้มักลดความต้องการป้าย ปรับปรุงประสิทธิภาพเมื่อข้อมูลน้อย และถ่ายโอนความรู้ไปยังงานที่เกี่ยวข้องได้ดีขึ้น
การเลือกที่ดีที่สุดมักถูกจำกัดโดยศักยภาพการติดป้าย การเปลี่ยนแปลงตามเวลา และความกว้างของการทั่วไปที่คุณต้องการ
โมเดลแบบพลังงาน (EBMs) เป็นวิธีคิดการเรียนรู้ที่ใกล้เคียงกับการ "จัดอันดับ" มากกว่าการ "ติดฉลาก" แทนที่จะบังคับให้โมเดลออกคำตอบเดียว EBM เรียนรู้ฟังก์ชันการให้คะแนน: ให้พลังงานต่ำกับการกำหนดค่าที่สมเหตุสมผล และพลังงานสูงกับสิ่งที่ไม่สมเหตุสมผล
"การกำหนดค่า" อาจหมายถึงหลายสิ่ง: ภาพกับคำบรรยายที่เสนอมาคู่หนึ่ง, ฉากบางส่วนกับวัตถุที่หายไป, หรือสภาวะหุ่นยนต์กับการกระทำที่เสนอ งานของ EBM คือบอกว่า "คู่นี้เข้ากัน" (พลังงานต่ำ) หรือ "ไม่สอดคล้อง" (พลังงานสูง)
แนวคิดง่าย ๆ นี้ทรงพลังเพราะไม่จำเป็นต้องย่อโลกเป็นฉลากเดียว คุณสามารถเปรียบเทียบทางเลือกและเลือกสิ่งที่ได้คะแนนดีที่สุด ซึ่งสอดคล้องกับวิธีที่คนมักแก้ปัญหา: พิจารณาตัวเลือก ปฏิเสธที่เป็นไปไม่ได้ และปรับปรุง
EBMs ให้วัตถุประสงค์การฝึกที่ยืดหยุ่น คุณสามารถสอนโมเดลให้กดตัวอย่างจริงลง (พลังงานต่ำ) และผลักตัวอย่างลบขึ้น (พลังงานสูง) นี่ช่วยกระตุ้นให้เรียนรู้โครงสร้างที่มีประโยชน์ในข้อมูล—ความสม่ำเสมอ ข้อจำกัด และความสัมพันธ์—แทนการจดจำการแมปจากอินพุตเป็นผลลัพธ์แบบตรงไปตรงมา
LeCun เชื่อมโยงมุมมองนี้กับเป้าหมายกว้างเช่น "world models": โมเดลภายในที่จับพฤติกรรมของโลกได้ ถ้าโมเดลสามารถให้คะแนนความเป็นไปได้ มันสามารถสนับสนุนการวางแผนโดยการประเมินอนาคตหรือชุดการกระทำที่เป็นไปได้ และเลือกสิ่งที่สอดคล้องกับความเป็นจริง
LeCun แตกต่างจากนักวิจัยชั้นนำหลายคนเพราะอิทธิพลของเขาครอบคลุมทั้งงานวิชาการและแลบขนาดใหญ่ ในมหาวิทยาลัยและสถาบันวิจัย งานของเขาช่วยกำหนดวาระให้เครือข่ายนิวรัลเป็นทางเลือกจริงจังแทนฟีเจอร์ที่ออกแบบด้วยมือ—แนวคิดที่กลายเป็นค่าเริ่มต้นในการมองเห็นด้วยคอมพิวเตอร์และข้ามขอบเขตอื่น ๆ
วงการวิจัยไม่ได้ขับเคลื่อนแค่จากบทความเท่านั้น; มันก้าวหน้าผ่านกลุ่มคนที่ตัดสินใจจะสร้างอะไรต่อไป ใช้เบนช์มาร์กไหน และแนวคิดใดที่ควรถูกขยาย ผ่านการเป็นผู้นำและการเป็นพี่เลี้ยง LeCun ช่วยเปลี่ยนการเรียนรู้ตัวแทน—และต่อมา self-supervised—ให้เป็นโปรแกรมระยะยาว ไม่ใช่การทดลองครั้งเดียว
แลบอุตสาหกรรมสำคัญเพราะเหตุผลปฏิบัติหลายประการ:
Meta AI เป็นตัวอย่างเด่นของสภาพแวดล้อมแบบนี้: ที่ซึ่งทีมวิจัยพื้นฐานสามารถทดสอบแนวคิดในสเกลและดูว่าการเลือกโมเดลมีผลต่อระบบจริงอย่างไร
เมื่อผู้นำผลักดันงานวิจัยไปทาง representation ที่ดีขึ้น การพึ่งพาป้ายกำกับน้อยลง และการทั่วไปที่แข็งแรงขึ้น ลำดับความสำคัญเหล่านี้จะกระจายออกไป ส่งผลต่อเครื่องมือที่ผู้คนโต้ตอบด้วย—การจัดภาพ การแปล ฟีเจอร์การเข้าถึงเช่นคำบรรยายภาพ ความเข้าใจเนื้อหา และระบบแนะนำ แม้ผู้ใช้จะไม่เคยได้ยินคำว่า "self-supervised" แต่ผลลัพธ์คือโมเดลที่ปรับตัวเร็วขึ้น ต้องการ annotation น้อยลง และจัดการความหลากหลายในโลกจริงได้ดีกว่า
ในปี 2018 Yann LeCun ได้รับรางวัล ACM A.M. Turing Award—ซึ่งมักถูกเรียกว่า "รางวัลโนเบลด้านคอมพิวเตอร์" โดยรางวัลสังเขปยกย่องการเปลี่ยนแปลงที่ deep learning นำมาให้วงการ: แทนที่จะเขียนกฎสำหรับการมองเห็นหรือเสียง นักวิจัยสามารถเทรนระบบให้เรียนรู้ฟีเจอร์ที่มีประโยชน์จากข้อมูล ซึ่งเปิดทางไปสู่ความแม่นยำและการใช้งานจริงที่ก้าวกระโดด
รางวัลนี้แบ่งกับ Geoffrey Hinton และ Yoshua Bengio ซึ่งสำคัญเพราะสะท้อนว่าร่องรอยของเรื่องราว deep learning สมัยใหม่ถูกสร้างจากหลายกลุ่มที่ผลักดันชิ้นส่วนต่าง ๆ ของปริศนา บางครั้งขนานกัน บางครั้งสร้างขึ้นต่อจากงานของกันและกัน
มันไม่ใช่เพียงกระดาษเดียวหรือโมเดลเดียว แต่เป็นเส้นทางยาวของแนวคิดที่กลายเป็นระบบในโลกจริง—โดยเฉพาะเครือข่ายนิวรัลที่เทรนได้ในสเกล และการเรียนรู้ representation ที่ทั่วไป
รางวัลอาจทำให้ดูเหมือนความก้าวหน้าเกิดจาก "ฮีโร่" ไม่กี่คน แต่ความจริงเป็นชุมชนมากกว่า:
ดังนั้นรางวัล Turing ควรถูกมองเป็นสปอตไลต์บนจุดเปลี่ยนของการคำนวณ—จุดหนึ่งที่ขับเคลื่อนโดยชุมชน—ซึ่ง LeCun, Hinton และ Bengio ต่างช่วยทำให้ deep learning มีความน่าเชื่อถือและพร้อมนำไปใช้
แม้ deep learning จะประสบความสำเร็จ งานของ LeCun อยู่ในบริบทของการถกเถียงที่ยังคงมีอยู่: ระบบปัจจุบันทำอะไรได้ดี แต่อะไรที่ยังติดขัด และทิศทางวิจัยไหนอาจปิดช่องว่างได้
คำถามที่เกิดขึ้นบ่อยในแลบและทีมผลิต:
Deep learning โดยประวัติเป็นระบบที่ ต้องการข้อมูลมาก: โมเดลแบบมีป้ายอาจต้องชุดข้อมูลติดป้ายขนาดใหญ่ซึ่งแพงและสามารถสะท้อนอคติของมนุษย์ได้
การทั่วไปก็ไม่สม่ำเสมอ โมเดลอาจดูน่าประทับใจบนเบนช์มาร์ก แต่ยังล้มเหลวเมื่อใช้งานจริงในเงื่อนไขที่ยุ่งกว่า—ผู้ใช้กลุ่มใหม่ อุปกรณ์ใหม่ เวิร์กโฟลว์ใหม่ หรือนโยบายใหม่ ช่องว่างนี้เป็นเหตุผลว่าทีมต้องลงทุนในมอนิเตอร์ การเทรนซ้ำ และการประเมินเกินกว่าชุดทดสอบเดียว
SSL พยายามลดการพึ่งพาป้ายโดยเรียนรู้จากโครงสร้างที่มีอยู่แล้วในข้อมูลดิบ—ทำนายส่วนที่หายไป เรียนรู้อความไม่แปรผัน หรือจับคู่วิวต่าง ๆ ของเนื้อหา สัญญาณคือถ้าระบบเรียนรู้ representation ที่มีประโยชน์ จากข้อมูลข้อความ รูปภาพ เสียง หรือวิดีโอขนาดใหญ่ ชุดป้ายที่เล็กกว่าก็มักพอสำหรับปรับใช้งานเฉพาะ
SSL ยังสนับสนุนการเรียนรู้ฟีเจอร์ทั่วไปที่ถ่ายโอนได้ข้ามงานต่าง ๆ
สิ่งที่พิสูจน์แล้ว: SSL และการเรียนรู้ตัวแทนสามารถปรับปรุงประสิทธิภาพและการนำกลับมาใช้ซ้ำข้ามงานได้อย่างมาก โดยเฉพาะเมื่อป้ายขาดแคลน
สิ่งที่ยังเป็นงานวิจัย: การเรียนรู้ world models ที่เชื่อถือได้ การวางแผนและเหตุผลเชิงประกอบ การป้องกันความล้มเหลวเมื่อการแจกแจงเปลี่ยน และการสร้างระบบที่เรียนรู้ต่อเนื่องโดยไม่ลืมหรือเบี่ยงเบน
งานของ LeCun เตือนให้เห็นว่า "state of the art" มีค่าน้อยกว่าการเลือกวิธีที่เหมาะสมกับวัตถุประสงค์จริง ๆ ถ้าคุณสร้าง AI ในผลิตภัณฑ์ ข้อได้เปรียบมักมาจากการเลือกวิธีที่เรียบง่ายที่สุดที่ตอบสนองข้อจำกัดในโลกจริงได้
ก่อนเลือกโมเดล ให้เขียนว่า "ดี" หมายถึงอะไรในบริบทของคุณ: ผลลัพธ์ผู้ใช้ ต้นทุนความผิดพลาด ความหน่วง และภาระการบำรุงรักษา
แผนการประเมินเชิงปฏิบัติควรรวมถึง:
มองข้อมูลเป็นสินทรัพย์ที่มีโร้ดแมป การติดป้ายแพง ดังนั้นต้องมีเหตุผล:
กฎช่วยได้: ลงทุนกับคุณภาพและความครอบคลุมของข้อมูลตั้งแต่ต้น ก่อนจะไล่ตามโมเดลที่ใหญ่กว่า
CNNs ยังคงเป็นค่าเริ่มต้นที่แข็งแกร่งสำหรับหลายงานวิชัน โดยเฉพาะเมื่อคุณต้องการประสิทธิภาพและพฤติกรรมที่คาดการณ์ได้ (การจำแนก การตรวจจับ ท่อ OCR คล้าย ๆ) สถาปัตยกรรมใหม่อาจชนะเรื่องความแม่นยำหรือความยืดหยุ่นมัลติโมดัล แต่แลกด้วยค่าใช้จ่ายการคำนวณ ความซับซ้อน และความยากในการปรับใช้
ถ้าข้อจำกัดของคุณเข้มงวด (มือถือ/edge, ผ่านงานจำนวนมาก, งบเทรนจำกัด) CNN ที่ปรับแต่งดีพร้อมข้อมูลเหมาะสมมักชนะโมเดลที่ "หรูหรา" แต่ส่งช้า
หัวข้อที่วนซ้ำตลอดงานของ LeCun คือความคิดแบบ end-to-end: ไม่ใช่แค่โมเดล แต่คือท่อรอบ ๆ มัน—การเก็บข้อมูล การประเมิน การปรับใช้ และการวนรอบปรับปรุง ในทางปฏิบัติ ทีมหลายทีมสะดุดไม่ใช่เพราะสถาปัตยกรรมผิด แต่เพราะใช้เวลานานเกินไปในการสร้างพื้นผิวผลิตภัณฑ์รอบ ๆ (เครื่องมือแอดมิน UI การติดป้าย เวิร์กโฟลว์รีวิว แดชบอร์ดมอนิเตอร์)
ตรงนี้เครื่องมือ "vibe-coding" สมัยใหม่ช่วยได้ ตัวอย่างเช่น Koder.ai ช่วยให้ทีมทำต้นแบบและปล่อยเว็บ แบ็กเอนด์ และแอปมือถือผ่านการทำงานด้วยแชท—มีประโยชน์เมื่อคุณต้องการแอปประเมินภายในอย่างรวดเร็ว (เช่นแดชบอร์ด React พร้อมแบ็กเอนด์ Go + PostgreSQL), ต้องการ snapshot/rollback ระหว่างการวนรอบรวดเร็ว, หรือต้องการส่งออกซอร์สโค้ดและปรับใช้โดเมนเองเมื่อเวิร์กโฟลว์เสถียร จุดประสงค์ไม่ใช่แทนที่งานวิจัย ML แต่นำอุปสรรคระหว่างไอเดียโมเดลที่ดีและระบบใช้งานได้ให้สั้นลง
ถ้าคุณวางแผนโครงการ AI ให้ดู /docs สำหรับคำแนะนำการนำไปใช้ ดู /pricing สำหรับตัวเลือกการปรับใช้ หรือสำรวจบทความเพิ่มเติมใน /blog.
เขาช่วยยืนยันว่า representation ที่เรียนรู้จากข้อมูล (ฟีเจอร์ที่ระบบค้นพบเอง) มักทำงานได้ดีกว่ากฎที่มนุษย์ออกแบบเมื่อเจอกับข้อมูลจริงที่มีเสียงรบกวน เช่น รูปภาพ แนวคิดนี้—การฝึกแบบ end-to-end, ประสิทธิภาพในโลกจริง และฟีเจอร์ที่นำกลับมาใช้ใหม่ได้—กลายเป็นแม่แบบของระบบ AI สมัยใหม่
การเรียนรู้เชิงลึก (Deep learning) คือแนวทางกว้าง: ใช้เครือข่ายนิวรัลหลายชั้นเพื่อเรียนรู้รูปแบบจากข้อมูล
การเรียนรู้แบบ self-supervised (SSL) คือกลยุทธ์การฝึกที่โมเดลสร้างสัญญาณการเรียนรู้จากข้อมูลเอง (เช่น ทำนายส่วนที่หายไป) SSL มักลดความจำเป็นในการติดป้ายด้วยมนุษย์และให้ representation ที่นำกลับมาใช้ได้
คอนโวลูชันคือการ "เลื่อน" ตัวตรวจจับขนาดเล็ก (ฟิลเตอร์) ข้ามภาพเพื่อค้นหารูปแบบ เช่น ขอบ หรือพื้นผิว ที่ใดก็ได้ในภาพ การใช้ตัวตรวจจับเดียวกันทั่วทั้งภาพช่วยให้การเรียนรู้มีประสิทธิภาพและช่วยให้การจดจำทำงานได้แม้ว่าวัตถุจะเคลื่อนที่ภายในเฟรม
สามแนวคิดหลัก:
LeNet แสดงให้เห็นว่าเครือข่ายนิวรัลแบบ end-to-end สามารถแก้ปัญหาเชิงธุรกิจจริง ๆ ได้ เช่น การจดจำตัวเลขมือเขียน มันรวมการสกัดฟีเจอร์และการจำแนกไว้ในระบบเดียว และช่วยทำให้แนวคิดการฝึกทั้งเครือข่ายพร้อมกันเป็นที่ยอมรับสำหรับงานการมองเห็น
คือแนวคิดที่ว่าโมเดลควรเรียนรู้ ฟีเจอร์ภายใน ที่มีประโยชน์กว่าสิ่งที่ให้คำตอบสุดท้ายเพียงอย่างเดียว ฟีเจอร์ที่แข็งแกร่งช่วยให้งานย่อยต่าง ๆ ทำได้ง่ายขึ้น รองรับการนำไปใช้ซ้ำ (transfer learning) และมักทนทานกว่าฟีเจอร์ที่มนุษย์ออกแบบ
ใช้ supervised เมื่อคุณมีป้ายกำกับมากและเป็นมาตรฐานชัดเจนสำหรับงานที่นิ่ง
ใช้ self-supervised (pretrain + fine-tune) เมื่อคุณมีข้อมูลดิบมากแต่มีป้ายกำกับน้อย หรือโดเมนอาจเปลี่ยนบ่อย
ใช้ unsupervised เมื่อเป้าหมายเป็นการสำรวจ (เช่น การแบ่งกลุ่ม/ค้นหาความผิดปกติ) แล้วยืนยันผลด้วยเมตริก downstream
งาน common ของ SSL ได้แก่:
หลังการ pretrain มัก fine-tune บนชุดป้ายกำกับขนาดเล็กสำหรับงานเป้าหมาย
EBM คือการเรียนรู้ฟังก์ชันการให้คะแนน: การจัดค่าที่เป็นไปได้จะได้ พลังงานต่ำ ส่วนที่ไม่สอดคล้องได้ พลังงานสูง แนวทางนี้เหมาะเมื่อคุณอยากเปรียบเทียบตัวเลือกหลาย ๆ อย่าง แทนที่จะบังคับให้โมเดลเลือกฉลากเดียว และเชื่อมโยงกับแนวคิด world models และการวางแผน
ข้อสรุปปฏิบัติสำหรับทีม:
จัดการแผนการประเมินและกลยุทธ์ข้อมูลเป็นงานวิศวกรรมชั้นยอด ไม่ใช่เรื่องรอง