Noam Shazeer dan Arsitektur Transformer di Balik LLM

Q: Mengapa Transformer menggantikan RNN dan LSTM untuk banyak tugas NLP?

RNN dan LSTM memproses teks satu token pada satu waktu , sehingga pelatihan sulit diparalelisasi dan ada hambatan untuk mempelajari dependensi jarak jauh. Transformer menggunakan attention untuk menghubungkan token-token yang jauh secara langsung, dan selama pelatihan dapat menghitung banyak interaksi token-ke-token secara paralel—membuatnya lebih cepat untuk diskalakan dengan lebih banyak data dan komputasi.

Q: Apa itu “attention” dan bagaimana cara memikirkannya?

Attention adalah mekanisme untuk menjawab: “Token-token lain mana yang paling penting untuk memahami token ini sekarang?” Bisa dibayangkan seperti retrieval di dalam kalimat: - sebuah query menanyakan informasi apa yang diperlukan - keys mewakili apa yang ditawarkan setiap token - values adalah informasi yang dicampurkan Keluaran adalah campuran berbobot dari token relevan, memberi setiap posisi representasi yang menyadari konteks.

Q: Apa perbedaan antara attention dan self-attention?

Self-attention berarti token-token dalam sebuah urutan memperhatikan token-token lain di urutan yang sama . Ini adalah alat utama yang memungkinkan model menyelesaikan hal seperti koreferensi (mis. apa yang dimaksud "itu"), hubungan subjek–predikat melintasi klausa, dan dependensi yang berjauhan dalam teks—tanpa mendorong semuanya melalui satu “memori” rekuren.

Q: Apa saja yang ada di dalam sebuah blok Transformer selain attention?

Sebuah blok Transformer biasanya menggabungkan: - Attention : memindahkan informasi antar token - FFN/MLP : memproses informasi di dalam tiap token - Residual connections : membantu aliran gradien dan membiarkan layer membuat penyesuaian kecil - Layer normalization : menstabilkan aktivasi untuk susunan layer yang dalam Menumpuk banyak blok menghasilkan kedalaman yang memungkinkan fitur lebih kaya dan perilaku yang kuat pada skala besar.

Q: Encoder–decoder vs decoder-only: mana yang digunakan LLM?

Transformer asli pada paper Attention Is All You Need adalah encoder–decoder : - encoder membaca input secara bidirectional - decoder menghasilkan output sambil menggunakan cross-attention ke encoder Namun kebanyakan LLM modern adalah decoder-only , dilatih untuk memprediksi token berikutnya menggunakan causal (masked) self-attention , yang sesuai untuk generasi kiri-ke-kanan dan mudah diskalakan pada korpora besar.

Q: Apa peran Noam Shazeer dalam penciptaan Transformer?

Noam Shazeer adalah salah satu co-author pada paper 2017 “Attention Is All You Need,” yang memperkenalkan Transformer. Tepat untuk menyebutnya sebagai kontributor kunci, tetapi arsitektur itu lahir dari kerja tim di Google, dan dampaknya juga datang dari banyak perbaikan komunitas dan industri yang dibangun di atas cetak biru awal tersebut.

Masuk Mulai

Noam Shazeer dan Arsitektur Transformer di Balik LLM | Koder.ai

Mengapa Transformer Tetap Penting

Transformer adalah cara membantu komputer memahami urutan—hal-hal di mana urutan dan konteks penting, seperti kalimat, kode, atau rangkaian kueri pencarian. Alih-alih membaca satu token sekaligus dan mengandalkan memori rapuh, Transformer melihat seluruh urutan dan memutuskan apa yang harus diperhatikan saat menafsirkan setiap bagian.

Perubahan sederhana itu ternyata berpengaruh besar. Ini salah satu alasan utama mengapa model bahasa besar modern (LLM) bisa mempertahankan konteks, mengikuti instruksi, menulis paragraf yang koheren, dan menghasilkan kode yang merujuk fungsi dan variabel sebelumnya.

Mengapa Anda terus bertemu Transformer

Jika Anda pernah menggunakan chatbot, fitur “ringkas ini”, pencarian semantik, atau asisten pengkodean, Anda sudah berinteraksi dengan sistem berbasis Transformer. Cetak biru inti yang sama mendukung:

Alat obrolan dan dukungan pelanggan yang melacak apa yang Anda katakan sebelumnya
Sistem pencarian dan rekomendasi yang mencocokkan makna, bukan hanya kata kunci
Ringkasan yang bisa menimbang apa yang penting vs detail sampingan
Alat pengkodean yang menghubungkan definisi, penggunaan, dan niat antar file

Apa yang akan Anda pelajari di artikel ini

Kita akan memecah bagian-bagian kunci—self-attention, multi-head attention, positional encoding, dan blok Transformer dasar—serta menjelaskan kenapa desain ini sangat mudah diskalakan seiring model membesar.

Kita juga akan menyinggung varian modern yang menjaga ide inti sama tetapi mengubahnya untuk kecepatan, biaya, atau jendela konteks lebih panjang.

Apa yang diharapkan (dan apa yang tidak)

Ini tur tingkat tinggi dengan penjelasan bahasa awam dan sedikit matematika. Tujuannya membangun intuisi: apa fungsi bagian-bagian, mengapa mereka bekerja bersama, dan bagaimana itu diterjemahkan ke kapabilitas produk nyata.

Peran Noam Shazeer dalam Kisah Transformer

Noam Shazeer adalah peneliti dan insinyur AI yang paling dikenal sebagai salah satu penulis bersama paper 2017 “Attention Is All You Need.” Paper itu memperkenalkan arsitektur Transformer, yang kemudian menjadi fondasi banyak model bahasa besar (LLM) modern. Karya Shazeer berada dalam konteks kerja tim: Transformer dibuat oleh sekelompok peneliti di Google, dan penting memberi kredit seperti itu.

Apa yang diubah oleh paper 2017

Sebelum Transformer, banyak sistem NLP bergantung pada model rekuren yang memproses teks langkah demi langkah. Proposal Transformer menunjukkan bahwa urutan bisa dimodelkan secara efektif tanpa rekuren dengan menggunakan attention sebagai mekanisme utama untuk menggabungkan informasi di seluruh kalimat.

Perubahan itu penting karena membuat pelatihan lebih mudah diparalelkan (Anda bisa memproses banyak token sekaligus), dan membuka jalan untuk menskalakan model dan dataset dengan cara yang cepat menjadi praktis untuk produk nyata.

Dari gagasan riset ke blok bangunan produk

Kontribusi Shazeer—bersama penulis lain—tidak berhenti di benchmark akademik. Transformer menjadi modul yang dapat digunakan kembali yang bisa diadaptasi tim: menukar komponen, mengubah ukuran, menyetel untuk tugas, dan kelak melakukan pretrain pada skala besar.

Inilah bagaimana banyak terobosan menyebar: sebuah paper memperkenalkan resep umum; insinyur merinci; perusahaan mengoperasionalkan; dan akhirnya itu menjadi pilihan default untuk membangun fitur bahasa.

Menjaga kredit tetap tepat

Tepat untuk mengatakan Shazeer adalah kontributor kunci dan salah satu penulis paper Transformer. Tidak tepat menggambarkannya sebagai penemu tunggal. Dampak datang dari desain kolektif—dan dari banyak peningkatan lanjutan yang dibangun komunitas di atas cetak biru awal itu.

Sebelumnya: RNN, LSTM, dan Batasannya

Sebelum Transformer, sebagian besar masalah urutan (terjemahan, ucapan, generasi teks) didominasi oleh Recurrent Neural Networks (RNN) dan kemudian LSTMs (Long Short-Term Memory). Ide besarnya sederhana: baca teks satu token pada satu waktu, simpan “memori” berjalan (hidden state), dan gunakan state itu untuk memprediksi apa yang berikutnya.

Gambaran singkat cara kerjanya

RNN memproses kalimat seperti rantai. Setiap langkah memperbarui hidden state berdasarkan kata saat ini dan hidden state sebelumnya. LSTM memperbaiki ini dengan menambahkan gerbang yang memutuskan apa yang disimpan, dilupakan, atau dikeluarkan—memudahkan untuk mempertahankan sinyal berguna lebih lama.

Mengapa dependensi jarak jauh sulit

Dalam praktik, memori sekuensial punya hambatan: banyak informasi harus dipadatkan lewat satu state saat kalimat memanjang. Bahkan dengan LSTM, sinyal dari kata yang jauh di awal bisa memudar atau tertumpuk.

Ini menyulitkan pembelajaran hubungan tertentu secara andal—misalnya menghubungkan kata ganti dengan kata benda yang benar beberapa kata sebelumnya, atau melacak topik di beberapa klausa.

Tantangan pelatihan dan skala

RNN dan LSTM juga lambat dilatih karena tidak bisa sepenuhnya diparalelkan sepanjang waktu. Anda bisa melakukan batch di banyak kalimat, tetapi dalam satu kalimat, langkah 50 bergantung pada langkah 49, yang bergantung pada 48, dan seterusnya.

Perhitungan langkah-demi-langkah ini menjadi batas serius saat Anda menginginkan model lebih besar, lebih banyak data, dan eksperimen lebih cepat.

Motivasi untuk pendekatan yang lebih ramah-paralel

Para peneliti butuh desain yang dapat mengaitkan kata-kata satu sama lain tanpa harus maju-kiri-ke-kanan selama pelatihan—cara untuk memodelkan hubungan jarak jauh langsung dan memanfaatkan hardware modern. Tekanan ini membuka panggung untuk pendekatan attention-pertama yang diperkenalkan di Attention Is All You Need.

Attention, Dijelaskan Tanpa Matematika

Attention adalah cara model bertanya: "Kata-kata lain mana yang harus saya lihat sekarang untuk memahami kata ini?" Alih-alih membaca kalimat tegas kiri-ke-kanan dan mengandalkan memori, attention membiarkan model mengintip bagian paling relevan dari kalimat saat dibutuhkan.

Ide “cari dan ambil”

Modelnya seperti mesin pencari kecil yang berjalan di dalam kalimat.

Query: apa yang dicari oleh kata saat ini (pertanyaan)
Keys: apa yang ditawarkan setiap kata lain (label pada kecocokan potensial)
Values: informasi yang diambil jika ada kecocokan (isi)

Model membentuk query untuk posisi saat ini, membandingkannya dengan keys semua posisi, lalu mengambil campuran values.

Skor relevansi → bobot attention

Perbandingan itu menghasilkan skor relevansi: sinyal kasar "seberapa terkait ini?". Model lalu mengubahnya menjadi bobot attention, proporsi yang jumlahnya menjadi 1.

Jika satu kata sangat relevan, ia mendapat porsi fokus yang lebih besar. Jika beberapa kata penting, attention bisa tersebar di antara mereka.

Contoh sederhana (kata ganti dan tata bahasa)

Ambil: “Maria told Jenna that she would call later.”

Untuk menafsirkan she, model harus melihat kandidat seperti “Maria” dan “Jenna.” Attention memberi bobot lebih tinggi pada nama yang paling cocok dengan konteks.

Atau pertimbangkan: “The keys to the cabinet are missing.” Attention membantu menghubungkan “are” ke “keys” (subjek sebenarnya), bukan “cabinet,” meskipun “cabinet” lebih dekat. Manfaat inti: attention menghubungkan makna melintasi jarak, sesuai kebutuhan.

Self-Attention: Mekanisme Inti

Self-attention adalah gagasan bahwa setiap token dalam urutan dapat melihat token-token lain dalam urutan yang sama untuk memutuskan apa yang penting sekarang. Alih-alih memproses kata secara ketat kiri-ke-kanan (seperti model rekuren lama), Transformer membiarkan setiap token mengumpulkan petunjuk dari mana saja dalam input.

Token memperhatikan token lain

Bayangkan kalimat: “I poured the water into the cup because it was empty.” Kata “it” harus terhubung ke “cup,” bukan “water.” Dengan self-attention, token untuk “it” memberi bobot lebih tinggi ke token yang membantu menyelesaikan maknanya (“cup,” “empty”) dan bobot lebih rendah ke yang tidak relevan.

Bagaimana konteks dibangun

Setelah self-attention, setiap token bukan lagi hanya dirinya sendiri. Ia menjadi versi yang sadar-konteks—campuran berbobot informasi dari token lain. Anda bisa memikirkan setiap token membuat ringkasan yang dipersonalisasi dari seluruh kalimat, disesuaikan dengan apa yang dibutuhkan token itu.

Secara praktis, ini berarti representasi “cup” dapat membawa sinyal dari “poured,” “water,” dan “empty,” sementara “empty” bisa menarik apa yang dijelaskannya.

Mengapa pelatihan bisa paralel

Karena setiap token dapat menghitung attentionnya atas seluruh urutan pada saat yang sama, pelatihan tidak perlu menunggu token sebelumnya diproses langkah demi langkah. Pemrosesan paralel ini adalah alasan utama Transformer efisien dilatih pada dataset besar dan dapat diskalakan ke model besar.

Mengapa kuat untuk hubungan jarak jauh

Self-attention mempermudah menghubungkan bagian teks yang berjauhan. Sebuah token dapat langsung fokus pada kata yang relevan jauh di tempat lain—tanpa meneruskan informasi melalui rantai panjang langkah menengah.

Jalur langsung ini membantu tugas seperti koreferensi ("she", "it", "they"), melacak topik antar paragraf, dan menangani instruksi yang bergantung pada detail sebelumnya.

Multi-Head Attention: Banyak Perspektif dari Kalimat yang Sama

Iterasi lebih aman dengan rollback

Bereksperimen bebas dan kembalikan dengan snapshot saat hasil menurun.

Gunakan Snapshot

Satu mekanisme attention sangat kuat, tapi masih seperti mencoba memahami percakapan hanya dari satu sudut kamera. Kalimat sering mengandung beberapa hubungan sekaligus: siapa melakukan apa, apa yang dimaksud "itu", kata-kata yang menentukan nada, dan topik umum.

Mengapa satu pandangan attention tidak cukup

Saat Anda membaca “The trophy didn’t fit in the suitcase because it was too small,” Anda mungkin perlu melacak beberapa petunjuk sekaligus (tata bahasa, makna, konteks dunia nyata). Satu "head" attention mungkin tertarik pada kata benda terdekat; head lain bisa memakai frasa kerja untuk menentukan apa yang dirujuk "it".

Apa yang dilakukan banyak head

Multi-head attention menjalankan beberapa perhitungan attention secara paralel. Setiap “head” didorong untuk melihat kalimat melalui lensa berbeda—sering digambarkan sebagai subruang berbeda. Dalam praktik, head bisa mengkhususkan diri pada pola seperti:

Sintaks lokal (mis. kata sifat → kata benda)
Tautan jarak jauh (mis. subjek ↔ predikat melintasi klausa)
Koreferensi (mis. kata ganti → entitas)
Sinyal topikal (kata yang menetapkan subjek atau sentimen)

Bagaimana head digabungkan

Setelah setiap head menghasilkan wawasan masing-masing, model tidak memilih hanya satu. Ia menggabungkan (concatenate) keluaran head (menyusunnya berdampingan) lalu memproyeksikannya kembali ke ruang kerja utama model dengan lapisan linear yang dipelajari.

Pikirkan ini seperti menggabungkan beberapa catatan parsial menjadi satu ringkasan bersih yang dapat dipakai layer berikutnya. Hasilnya adalah representasi yang dapat menangkap banyak hubungan sekaligus—salah satu alasan kenapa Transformer sangat efektif pada skala besar.

Positional Encoding: Mengajarkan Urutan Kata ke Model

Self-attention hebat dalam mendeteksi hubungan—tetapi sendirian ia tidak tahu siapa datang lebih dulu. Jika Anda mengacak kata-kata dalam kalimat, layer self-attention polos dapat memperlakukan versi yang diacak seolah sama validnya, karena ia membandingkan token tanpa sense posisi bawaan.

Positional encoding memecah masalah ini dengan menyuntikkan informasi “saya berada di mana dalam urutan?” ke dalam representasi token. Setelah posisi terpasang, attention dapat mempelajari pola seperti “kata tepat setelah tidak penting” atau “subjek biasanya muncul sebelum predikat” tanpa harus menebak urutan dari awal.

Bagaimana positional encoding menambahkan urutan

Ide inti sederhana: embedding token digabungkan dengan sinyal posisi sebelum masuk ke blok Transformer. Sinyal posisi ini bisa dipandang sebagai fitur tambahan yang memberi tag token sebagai posisi ke-1, ke-2, ke-3… dalam input.

Beberapa pendekatan umum:

Posisi absolut (tetap): Transformer klasik memakai pola sinusoidal deterministik. Ini tidak menambah parameter baru dan bisa menggeneralisasi ke panjang di luar yang dilihat selama pelatihan (sampai batas tertentu).
Posisi absolut yang dipelajari: Model mempelajari vektor untuk “posisi 1”, “posisi 2”, dll. Ini bisa bekerja sangat baik, tapi sering mengikat model ke jendela konteks maksimum yang dilatih.
Posisi relatif: Alih-alih mengodekan "ini token ke-57", model fokus pada jarak seperti "token ini 3 langkah sebelum token itu." Varian modern (termasuk gaya rotary) sering masuk keluarga ini.

Mengapa penting untuk tugas konteks panjang

Pilihan posisi dapat secara nyata memengaruhi pemodelan konteks panjang—mis. merangkum laporan panjang, melacak entitas di banyak paragraf, atau mengambil detail yang disebutkan ribuan token sebelumnya.

Dengan input panjang, model tidak hanya belajar bahasa; ia belajar ke mana harus melihat. Skema relatif dan rotary cenderung mempermudah membandingkan token yang berjauhan dan mempertahankan pola saat konteks bertambah, sementara beberapa skema absolut bisa menurun lebih cepat ketika didorong melampaui jendela pelatihannya.

Dalam praktiknya, positional encoding adalah keputusan desain tenang yang bisa menentukan apakah sebuah LLM terasa tajam dan konsisten pada 2.000 token—dan tetap koheren pada 100.000.

Blok Transformer: Attention + MLP + Penstabil

Prototipe RAG

Uji retrieval, embeddings, dan loop alat tanpa membangun ulang kerangka yang sama.

Prototipe RAG

Transformer bukan hanya “attention.” Pekerjaan nyata terjadi di unit berulang—sering disebut blok Transformer—yang mencampur informasi antar token lalu menyempurnakannya. Menumpuk banyak blok ini memberi kedalaman yang membuat model bahasa besar begitu kapabel.

Setelah attention: apa yang dilakukan FFN/MLP

Self-attention adalah langkah komunikasi: setiap token mengumpulkan konteks dari token lain.

Feed-forward network (FFN), juga disebut MLP, adalah langkah berpikir: ia mengambil representasi token yang diperbarui dan menjalankan jaringan kecil yang sama pada setiap token secara independen.

Secara sederhana, FFN mentransformasi dan membentuk kembali apa yang kini diketahui setiap token, membantu model membangun fitur lebih kaya (seperti pola sintaks, fakta, atau petunjuk gaya) setelah mengumpulkan konteks relevan.

Mengapa blok bergantian attention dan FFN

Pergantian ini penting karena kedua bagian melakukan tugas berbeda:

Attention memindahkan informasi antar token (siapa mempengaruhi siapa)
FFN memproses informasi di dalam tiap token (bagaimana mengubah konteks itu menjadi fitur berguna)

Mengulang pola ini memungkinkan model secara bertahap membangun makna tingkat tinggi: komunikasi, komputasi, komunikasi lagi, komputasi lagi.

Residual connections: “jalur lewati”

Setiap sub-layer (attention atau FFN) dibungkus dengan residual connection: input ditambahkan kembali ke output. Ini membantu model dalam pelatihan karena gradien bisa mengalir melalui “jalur lewati” meskipun layer tertentu masih belajar. Ini juga membiarkan layer membuat penyesuaian kecil, bukan harus mempelajari semuanya dari awal.

Layer normalization: menjaga sinyal stabil

Layer normalization adalah penstabil yang menjaga aktivasi agar tidak menyimpang terlalu besar atau kecil saat melewati banyak layer. Pikirkan ini seperti menjaga level volume konsisten sehingga layer berikutnya tidak kewalahan atau kekurangan sinyal—membuat pelatihan lebih mulus dan andal, terutama pada skala LLM.

Encoder–Decoder vs Decoder-Only: Mana yang Menggerakkan LLM?

Transformer asli di Attention Is All You Need dibangun untuk terjemahan mesin, di mana Anda mengubah satu urutan (mis. bahasa A) menjadi urutan lain (bahasa B). Pekerjaan itu alami terbagi menjadi dua peran: membaca input dengan baik, dan menulis output secara lancar.

Encoder–Decoder: “Baca, lalu Tulis”

Dalam Transformer encoder–decoder, encoder memproses seluruh kalimat input sekaligus dan menghasilkan set representasi kaya. Decoder kemudian menghasilkan output satu token pada satu waktu.

Penting: decoder tidak hanya bergantung pada token masa lalunya. Ia juga menggunakan cross-attention untuk melihat kembali output encoder, membantu tetap berlandaskan teks sumber.

Susunan ini tetap sangat baik ketika Anda harus sangat mengondisikan pada suatu input—terjemahan, ringkasan, atau tanya jawab yang terikat pada sebuah passage.

Decoder-Only: Satu Model yang Terus Memprediksi

Sebagian besar model bahasa besar modern adalah decoder-only. Mereka dilatih untuk tugas sederhana dan kuat: memprediksi token berikutnya.

Untuk membuat itu bekerja, mereka menggunakan masked self-attention (sering disebut causal attention). Setiap posisi hanya bisa menghadiri token-token sebelumnya, bukan yang akan datang, sehingga generasi tetap konsisten: model menulis kiri-ke-kanan, terus memperpanjang urutan.

Ini dominan untuk LLM karena mudah dilatih pada korpora teks masif, cocok langsung dengan kasus penggunaan generasi, dan diskalakan secara efisien dengan data dan compute.

Di mana model encoder-only cocok

Encoder-only (seperti model gaya BERT) tidak menghasilkan teks; mereka membaca seluruh input secara bidirectional. Mereka hebat untuk klasifikasi, pencarian, dan embedding—apa pun yang membutuhkan pemahaman teks lebih daripada menghasilkan kelanjutan panjang.

Mengapa Transformer Bisa Diskalakan Menjadi LLM

Transformer ternyata ramah terhadap skala: jika Anda memberinya lebih banyak teks, lebih banyak compute, dan model lebih besar, mereka cenderung terus meningkat dengan cara yang dapat diprediksi.

Salah satu alasannya adalah kesederhanaan struktural. Transformer dibangun dari blok berulang (self-attention + FFN kecil, plus normalisasi), dan blok-blok itu berperilaku serupa apakah Anda melatih pada sejuta kata atau triliun kata.

Pelatihan paralel adalah kekuatan tersembunyi

Model urutan sebelumnya (seperti RNN) harus memproses token satu per satu, yang membatasi berapa banyak pekerjaan yang bisa dilakukan sekaligus. Transformer, sebaliknya, bisa memproses semua token dalam sebuah urutan secara paralel selama pelatihan.

Itu membuatnya cocok untuk GPU/TPU dan setup terdistribusi besar—tepat yang Anda butuhkan saat melatih LLM modern.

“Jendela konteks” dan mengapa itu penting

Jendela konteks adalah potongan teks yang bisa “dilihat” model sekaligus—prompt Anda ditambah riwayat percakapan atau teks dokumen terbaru. Jendela yang lebih besar memungkinkan model menghubungkan ide di lebih banyak kalimat atau halaman, melacak batasan, dan menjawab pertanyaan yang bergantung pada detail sebelumnya.

Tetapi konteks tidak gratis.

Keterbatasan utama: biaya attention tumbuh dengan panjang

Self-attention membandingkan token satu sama lain. Saat urutan semakin panjang, jumlah perbandingan bertambah cepat (kira-kira kuadrat panjang urutan).

Itulah sebabnya jendela konteks sangat panjang bisa mahal dalam memori dan komputasi, dan kenapa banyak upaya modern fokus membuat attention lebih efisien.

Skala membuka perilaku serba guna

Saat Transformer dilatih pada skala besar, mereka tidak hanya menjadi lebih baik pada satu tugas sempit. Mereka sering mulai menunjukkan kemampuan luas dan fleksibel—merangkum, menerjemahkan, menulis, mengkode, dan bernalar—karena mesin pembelajar umum yang sama diterapkan pada data besar dan beragam.

Varian Modern yang Dibangun di Atas Cetak Biru Sama

Ekspor sumber kapan saja

Pertahankan kepemilikan dengan mengekspor kode sumber saat Anda siap.

Ekspor Kode

Desain Transformer asli masih menjadi titik acuan, tetapi sebagian besar LLM produksi adalah “Transformer plus”: penyempurnaan praktis kecil yang mempertahankan blok inti (attention + MLP) sambil memperbaiki kecepatan, stabilitas, atau panjang konteks.

Peningkatan umum yang sering ditemui

Banyak peningkatan lebih soal membuat model dilatih dan dijalankan lebih baik daripada mengubah apa model adalah:

Metode posisi yang lebih baik: Alternatif untuk posisi sinusoidal klasik (seringnya rotary atau pendekatan relatif) dapat membuat penanganan teks jarak jauh lebih mulus.
Optimasi attention: Implementasi yang mengurangi penggunaan memori dan meningkatkan throughput (mis. fused kernels atau perhitungan attention yang lebih efisien).
Penyesuaian normalisasi: Variasi dalam tempat dan cara normalisasi diterapkan dapat meningkatkan stabilitas pelatihan dan mengurangi sensitivitas terhadap hyperparameter.

Perubahan ini biasanya tidak mengubah “ke-Transformer-an” fundamental dari model—mereka memurnikan desain.

Pendekatan konteks panjang (tingkat tinggi)

Memperpanjang konteks dari beberapa ribu token ke puluhan atau ratus ribu sering mengandalkan sparse attention (hanya menghadiri token terpilih) atau varian attention efisien (mengaproksimasi atau merestrukturisasi attention untuk memotong perhitungan).

Trade-off biasanya antara akurasi, memori, dan kompleksitas rekayasa.

Mixture-of-Experts (MoE): kapasitas lebih tanpa biaya linear

MoE menambahkan banyak sub-jaringan “pakar” dan merutekan setiap token melalui hanya beberapa pakar. Secara konseptual: Anda mendapatkan otak yang lebih besar, tapi tidak mengaktifkan semuanya setiap kali.

Ini bisa menurunkan compute per token untuk jumlah parameter tertentu, tetapi menambah kompleksitas sistem (routing, menyeimbangkan pakar, serving).

Cara mengevaluasi klaim varian

Saat sebuah model mempromosikan varian Transformer baru, minta:

Benchmark yang relevan untuk tugas Anda (bukan hanya skor headline)
Latensi (waktu-ke-token-pertama dan token/detik)
Biaya (pelatihan dan inferensi), termasuk memori dan kebutuhan hardware

Sebagian besar peningkatan nyata—tetapi jarang gratis.

Apa Artinya untuk Tim yang Membangun dengan LLM

Gagasan Transformer seperti self-attention dan scaling menarik—tetapi tim produk akan merasakannya sebagai trade-off: berapa banyak teks yang bisa Anda masukkan, seberapa cepat jawaban keluar, dan berapa biayanya per permintaan.

Memilih model atau penyedia: empat trade-off

Panjang konteks: Konteks lebih panjang memungkinkan Anda memasukkan lebih banyak dokumen, riwayat chat, dan instruksi. Ini juga menaikkan pengeluaran token dan bisa memperlambat respons. Jika fitur Anda bergantung pada “baca 30 halaman dan jawab”, prioritaskan panjang konteks.

Latensi: Pengalaman chat dan copilot untuk pengguna hidup atau mati pada waktu respons. Streaming keluaran membantu, tetapi pilihan model, region, dan batching juga penting.

Biaya: Harga biasanya per token (input + output). Model yang 10% “lebih baik” bisa 2–5× lebih mahal. Gunakan perbandingan gaya harga untuk memutuskan tingkat kualitas yang layak dibayar.

Kualitas: Definisikan untuk kasus Anda: akurasi faktual, kemampuan mengikuti instruksi, nada, penggunaan alat, atau kode. Evaluasi dengan contoh nyata dari domain Anda, bukan benchmark umum.

Saat embedding mengalahkan generasi

Jika kebutuhan utama Anda adalah pencarian, deduplikasi, klastering, rekomendasi, atau “cari yang mirip”, embeddings (sering model encoder-style) biasanya lebih murah, lebih cepat, dan lebih stabil daripada memanggil model generatif. Gunakan generasi hanya untuk langkah akhir (ringkasan, penjelasan, draf) setelah retrieval.

Untuk penjelasan lebih mendalam, arahkan tim Anda ke penjelasan teknis seperti /blog/embeddings-vs-generation.

Di mana ini muncul dalam alur kerja pengiriman nyata

Saat Anda mengubah kapabilitas Transformer menjadi produk, bagian tersulit biasanya kurang soal arsitektur dan lebih soal alur kerja di sekitarnya: iterasi prompt, grounding, evaluasi, dan deployment aman.

Salah satu jalur praktis adalah menggunakan platform vibe-coding seperti Koder.ai untuk membuat prototipe dan mengirim fitur berbasis LLM lebih cepat: Anda dapat menjelaskan aplikasi web, endpoint backend, dan model data dalam chat, beriterasi di mode perencanaan, lalu mengekspor kode sumber atau melakukan deploy dengan hosting, domain kustom, dan rollback lewat snapshot. Ini sangat berguna ketika bereksperimen dengan retrieval, embeddings, atau loop pemanggilan alat dan menginginkan siklus iterasi yang ketat tanpa membangun kembali fondasi yang sama.

Daftar periksa adopsi praktis

Tulis spes satu halaman: tujuan pengguna, mode kegagalan, dan seperti apa "baik" terlihat.
Tentukan apa yang harus digrounding ke data Anda (RAG, kutipan, atau pemanggilan alat).
Tetapkan anggaran untuk token, latensi, dan pengeluaran bulanan; ukur di staging.
Tambahkan pengaman: penolakan, redaksi, dan perilaku "saya tidak tahu".
Bangun evaluasi sejak awal: prompt emas, tes regresi, dan tinjauan manusia.
Rencanakan untuk mengganti model: simpan prompt dan routing agar dapat dikonfigurasi.

Pertanyaan umum

Apa itu Transformer dalam bahasa sederhana?

Sebuah Transformer adalah arsitektur jaringan saraf untuk data berurutan yang menggunakan self-attention untuk mengaitkan setiap token dengan token-token lain dalam input yang sama.

Alih-alih membawa informasi langkah demi langkah (seperti RNN/LSTM), ia membangun konteks dengan menentukan apa yang perlu diperhatikan di seluruh urutan, sehingga meningkatkan pemahaman jarak jauh dan membuat pelatihan bisa berjalan lebih paralel.

Mengapa Transformer menggantikan RNN dan LSTM untuk banyak tugas NLP?

RNN dan LSTM memproses teks satu token pada satu waktu, sehingga pelatihan sulit diparalelisasi dan ada hambatan untuk mempelajari dependensi jarak jauh.

Transformer menggunakan attention untuk menghubungkan token-token yang jauh secara langsung, dan selama pelatihan dapat menghitung banyak interaksi token-ke-token secara paralel—membuatnya lebih cepat untuk diskalakan dengan lebih banyak data dan komputasi.

Apa itu “attention” dan bagaimana cara memikirkannya?

Attention adalah mekanisme untuk menjawab: “Token-token lain mana yang paling penting untuk memahami token ini sekarang?”

Bisa dibayangkan seperti retrieval di dalam kalimat:

sebuah query menanyakan informasi apa yang diperlukan
keys mewakili apa yang ditawarkan setiap token
values adalah informasi yang dicampurkan

Keluaran adalah campuran berbobot dari token relevan, memberi setiap posisi representasi yang menyadari konteks.

Apa perbedaan antara attention dan self-attention?

Self-attention berarti token-token dalam sebuah urutan memperhatikan token-token lain di urutan yang sama.

Ini adalah alat utama yang memungkinkan model menyelesaikan hal seperti koreferensi (mis. apa yang dimaksud "itu"), hubungan subjek–predikat melintasi klausa, dan dependensi yang berjauhan dalam teks—tanpa mendorong semuanya melalui satu “memori” rekuren.

Mengapa Transformer menggunakan multi-head attention?

Multi-head attention menjalankan beberapa perhitungan attention secara paralel, dan tiap head dapat mengekspresikan pola yang berbeda.

Dalam praktiknya, head-head berbeda seringkali fokus pada hubungan yang berbeda (sintaks lokal, koreferensi, hubungan jangka panjang, sinyal topikal). Model kemudian menggabungkan pandangan-pandangan ini agar dapat mewakili berbagai struktur sekaligus.

Kalau attention melihat semuanya, bagaimana model tahu urutan kata?

Self-attention sendiri tidak otomatis mengetahui urutan token—tanpa informasi posisi, pengacakan kata bisa terlihat serupa.

Positional encoding menyuntikkan sinyal posisi ke dalam representasi token sehingga model dapat mempelajari pola seperti “kata setelah tidak memiliki pengaruh khusus” atau struktur subjek-sebelum-predikat.

Pilihan umum meliputi sinusoidal (tetap), posisi absolut yang dipelajari, dan metode relatif/rotary.

Apa saja yang ada di dalam sebuah blok Transformer selain attention?

Sebuah blok Transformer biasanya menggabungkan:

Attention: memindahkan informasi antar token
FFN/MLP: memproses informasi di dalam tiap token
Residual connections: membantu aliran gradien dan membiarkan layer membuat penyesuaian kecil
: menstabilkan aktivasi untuk susunan layer yang dalam

Encoder–decoder vs decoder-only: mana yang digunakan LLM?

Transformer asli pada paper Attention Is All You Need adalah encoder–decoder:

encoder membaca input secara bidirectional
decoder menghasilkan output sambil menggunakan cross-attention ke encoder

Namun kebanyakan LLM modern adalah , dilatih untuk memprediksi token berikutnya menggunakan , yang sesuai untuk generasi kiri-ke-kanan dan mudah diskalakan pada korpora besar.

Apa peran Noam Shazeer dalam penciptaan Transformer?

Noam Shazeer adalah salah satu co-author pada paper 2017 “Attention Is All You Need,” yang memperkenalkan Transformer.

Tepat untuk menyebutnya sebagai kontributor kunci, tetapi arsitektur itu lahir dari kerja tim di Google, dan dampaknya juga datang dari banyak perbaikan komunitas dan industri yang dibangun di atas cetak biru awal tersebut.

Mengapa window konteks panjang mahal, dan apa yang bisa dilakukan tim?

Untuk input panjang, self-attention standar menjadi mahal karena jumlah perbandingan tumbuh kira-kira dengan kuadrat panjang urutan, yang memengaruhi memori dan komputasi.

Cara praktis yang biasa dipakai tim:

memilih model dengan window konteks besar secara native
menggunakan RAG (mengambil potongan relevan daripada memasukkan semuanya)
mengadopsi varian long-context (seringnya sparse/efficient attention)