কীভাবে কৃত্রিম সাধারণ বুদ্ধিমত্তা (AGI) সংজ্ঞায়িত হয়, LLMগুলো কিভাবে কাজ করে, এবং কেন বর্তমান টেক্সট‑ভিত্তিক মডেলগুলো সহজভাবে স্কেল বা ফাইন‑টিউনিং করে প্রকৃত AGI হবে বলে আশা করা কঠিন—এসব কিছু জানুন।

যদি আপনি টেক নিউজ, বিনিয়োগকারীর ডেক, বা প্রোডাক্ট পেজ পড়েন, দেখতে পাবেন বুদ্ধিমত্তা শব্দটা কতটা প্রসারিত হয়ে ব্যবহৃত হচ্ছে। চ্যাটবটগুলো “প্রায় মানুষ” বলে বর্ণিত হচ্ছে, কোডিং সহায়করা “প্রাকтически জুনিয়র ইঞ্জিনিয়ার” হিসেবে দেখানো হচ্ছে, এবং কেউ কেউ শক্তিশালী বড় ভাষা মডেল (LLM)‑কে কেবল কৃত্রিম সাধারণ বুদ্ধিমত্তার (AGI) প্রথম ধাপ বলে ধরে নিচ্ছেন।
এই নিবন্ধটি কৌতূহলী প্র্যাকটিশনার, ফাউন্ডার, প্রোডাক্ট লিডার এবং প্রযুক্তিগত পাঠকদের জন্য—যারা GPT‑4 বা Claude মতো টুল ব্যবহার করেন এবং ভাবেন: এটাই কি AGI‑র চেহারা—নাকি কোনো গুরুত্বপূর্ণ জিনিস অনুপস্থিত?
LLMগুলো সত্যিই চিত্তাকর্ষক। তারা:
অধিকাংশ অ-বিশেষজ্ঞের কাছে এটা “সাধারণ বুদ্ধিমত্তা” থেকে আলাদা নয়। যখন কোনো মডেল একই সেশনে কান্ত সম্পর্কে প্রবন্ধ লিখতে পারে, আপনার টাইপস্ক্রিপ্টের ত্রুটি ঠিক করতে পারে, এবং একটি আইনগত মেমো খসড়া করতে পারে, তখন এটি ধরে নেওয়া স্বাভাবিক যে আমরা AGI‑র কাছে যাচ্ছি।
কিন্তু এই অনুমান চুপচাপভাবে ভাষায় দক্ষ হওয়া এবং সাধারণভাবে বুদ্ধিমান হওয়া‑কে সমান বলছে। এটাই এই নিবন্ধে আমরা বিন্দু‑বিন্দুভাবে খুলে দেখাব।
আপনি যা যুক্তি পরবর্তী ভাগে দেখতে পাবেন তা হলো:
বর্তমান LLMগুলো পাঠ্য ও কোডের ওপর অত্যন্ত সক্ষম প্যাটার্ন‑শিক্ষানবিস, কিন্তু তাদের আর্কিটেকচার এবং ট্রেনিং‑রেজিমে জিনিসগুলোকে সরাসরি মাত্রা বাড়ানো বা ফাইন‑টিউনিং দিয়ে প্রকৃত AGI করে তোলা অসম্ভব বা খুবই অসম্ভাব্য।
তারা আরও ভাল, বিস্তৃত ও কার্যকর হবে। তারা AGI‑সদৃশ সিস্টেমের অংশ হতে পারে। তবুও গ্রাউন্ডিং, এজেন্সি, স্মৃতি, এম্বডিমেন্ট এবং আত্মমডেলিং সম্পর্কিত গভীর কারণ আছে যার কারণে “বড় LLM” সম্ভবত “সাধারণ বুদ্ধিমত্তার পথ” নয়।
এইটা একটি মতামতভিত্তিক ট্যুর—তবে এটি বর্তমান গবেষণা, LLM‑এর পরিষ্কার সক্ষমতা ও ব্যর্থতা, এবং গম্ভীর বৈজ্ঞানিক প্রশ্নগুলোর ওপর ভিত্তি করে স্থাপন করা হয়েছে, হাইপ বা ভয়কৌতুক নয়।
যখন মানুষ AGI বলে, তারা সাদারণত একরকম এক জিনিসই বোঝে না। বিবাদ স্পষ্ট করতে কয়েকটি মুখ্য ধারনা আলাদা করে দেখা ভালো।
AI (কৃত্রিম বুদ্ধিমত্তা) হল এমন একটি বিস্তৃত ক্ষেত্র যেখানে এমন সিস্টেম তৈরি করা হয় যা ‘বুদ্ধিমান’ আচরণ অনুকরণ করে: ভাষা স্বীকৃতি, সিনেমার সুপারিশ, গেম খেলা, কোড লেখা ইত্যাদি।
আজকের অধিকাংশ সিস্টেম সংকীর্ণ AI (বা দুর্বল AI): নির্দিষ্ট কাজ বা শর্তের জন্য ডিজাইন ও প্রশিক্ষিত। একটি চিত্র শ্রেণীবিভাজক যা বিড়াল ও কুকুর চিহ্নিত করে, বা ব্যাংকিং প্রশ্নের জন্য টিউন করা কাস্টমার‑সার্ভিস চ্যাটবট, নির্দিষ্ট নিসে অত্যন্ত সক্ষম কিন্তু বাইরে খারাপ ফল দিতে পারে।
কৃত্রিম সাধারণ বুদ্ধিমত্তা (AGI) সম্পূর্ণ আলাদা: এটি এমন একটি সিস্টেমকে বোঝায় যা:
প্রায়োগিকভাবে বলা যায়: একটি AGI তত্ত্বগতভাবে প্রায় কোনো বৌদ্ধিক দাবি সম্পন্ন কাজ একজন মানুষ করতে পারে যদি সময় ও সম্পদ দেওয়া হয়, প্রতিটি কাজের জন্য বিশেষ পুনর্নির্মাণ ছাড়া।
সংলগ্ন শব্দগুলো প্রায়ই আসে:
এর বিপরীতে, আধুনিক চ্যাটবট ও চিত্র মডেলগুলো সংকীর্ণ: চিত্তাকর্ষক, কিন্তু নির্দিষ্ট ডেটার প্যাটার্নের জন্য অপ্টিমাইজড, না যে খোলা‑শেষ, বহু‑ডোমেইন বুদ্ধিমত্তার জন্য।
আধুনিক AGI স্বপ্নটা আলান টিউরিংয়ের 1950 সালের প্রস্তাবনার সঙ্গে শুরু: যদি একটি মেশিন কথোপকথনে মানুষের সঙ্গে অদৃশ্য হয়ে যায় (টিউরিং টেস্ট), তাহলে কি সেটি বুদ্ধিমান? এটা সাধারণত ভাষা ও যুক্তির দিক থেকে আচরণকে বুদ্ধিমত্তার মাপকাঠি হিসেবে স্থাপন করেছিল।
1950s থেকে 1980s পর্যন্ত গবেষকরা প্রতীকী AI বা "GOFAI" (Good Old‑Fashioned AI) দিয়ে AGI খোঁজার চেষ্টা করেছিল। বুদ্ধিমত্তাকে দেখা হত প্রতীকগুলির ওপর লজিকাল নিয়ম প্রয়োগ করে। থিওরেম‑প্রুফিং, গেম‑প্লেয়িং, ও এক্সপার্ট সিস্টেমগুলো মানুষের মত ব্যাখ্যার কাছাকাছি নিয়ে এসেছিল, ফলে কিছু মানুষ মনে করেছিল মানব-স্তরের যুক্তি নিকটে।
কিন্তু GOFAI ধীরগতি, উপলব্ধি, সাধারণ জ্ঞান ও বাস্তব‑বিশ্বের অগোছালো ডেটার সঙ্গে খারাপভাবে মোকাবিলা করেছিল। লজিক ধাঁধা সমাধান করতে পারলেও শিশু সহজে যে কাজগুলো করে সেগুলোতে ব্যর্থ হত। এটি প্রথম বড় AI শীতলকরণ (AI winters) এবং AGI‑র প্রতি যত্নশীল দৃষ্টিভঙ্গি নিয়ে যায়।
কম্পিউটেশন ও ডেটা বাড়ার সঙ্গে AI হাতে‑কলমে নিয়ম থেকে উদাহরণ থেকে শেখার দিকে সরে যায়। স্ট্যাটিস্টিক্যাল মেশিন লার্নিং, তারপর ডীপ লার্নিং অগ্রগতি পুনঃসংজ্ঞায়িত করে: জ্ঞান ক্যান্সেল করে রেখে, সিস্টেমগুলো বড় ডেটাসেট থেকে প্যাটার্ন শেখে।
আইবিএমের DeepBlue (চেস) এবং পরে AlphaGo (গো)‑র মত মাইলফলকগুলো সাধারণ বুদ্ধিমত্তার দিকে ধাপ হিসেবে উল্লিখিত হয়েছিল। বাস্তবে সেগুলো একেবারে বিশেষায়িত: প্রতিটি নির্দিষ্ট নিয়মে এক খেলায় উৎকর্ষতা অর্জন করেছিল, দৈনন্দিন যুক্তিতে কোনও ট্রান্সফার ছিল না।
GPT সিরিজ ভাষায় আরেকটি উল্লেঘনীয় কদম। GPT‑3 ও GPT‑4 প্রবন্ধ খসড়া, কোড লিখা, ও স্টাইল অনুকরণ করতে পারে, যা AGI‑র নিকটবর্তী ধারণাকে আবার উস্কে দেয়।
তবুও এই মডেলগুলো এখনও টেক্সট‑প্যাটার্ন শিক্ষানবিস। তারা লক্ষ্য নির্ধারণ করে না, গ্রাউন্ডেড ওয়ার্ল্ড মডেল করে না, বা স্বতঃস্ফূর্তভাবে নিজেদের দক্ষতা প্রসারিত করে না।
প্রতিটি তরঙ্গে—প্রতীকী AI, ক্লাসিক মেশিন লার্নিং, ডীপ লার্নিং, এবং এখন LLM—AGI‑র স্বপ্ন সংকীর্ণ অর্জনের ওপর পুনরায় আরোপিত হয়েছে, এবং পরে তাদের সীমা দেখা মাত্রই সেই স্বপ্ন সংশোধিত হয়েছে।
বড় ভাষা মডেল (LLM)গুলো টেক্সটের ব্যাপক সংগ্রহ—বই, ওয়েবসাইট, কোড, ফোরাম ইত্যাদি—এর ওপর প্রশিক্ষিত প্যাটার্ন‑শিক্ষানবিস। তাদের লক্ষ্য ভানুকিভাবে সহজ: কিছু টেক্সট দিলে পরবর্তী টোকেন (টেক্সটের ছোট অংশ) কোনটি হবে তা ভবিষ্যদ্বাণী করা।
প্রশিক্ষণের আগে, টেক্সটকে টোকেনে ভাগ করা হয়: এগুলো হতে পারে পুরো শব্দ (cat), শব্দাংশ (inter, esting) বা এমনকি বিন্দুচিহ্ন। প্রশিক্ষণে মডেল বারবার এই ধরনের ক্রম দেখে:
"The cat sat on the ___"
এবং সম্ভাব্য পরবর্তী টোকেনে ("mat", "sofa") উচ্চ সম্ভাবনা ও অসম্ভাব্য টোকেনে ("presidency") কম সম্ভাবনা বরাদ্দ করতে শেখে। ট্রিলিয়ন টোকেন জুড়ে এই প্রক্রিয়া বিলিয়ন (বা ততোধিক) অভ্যন্তরীণ প্যারামিটার গঠন করে।
অন্তর্নিহিতভাবে, মডেলটি একটি বিশাল ফাংশন যা টোকেন ক্রমকে পরবর্তী টোকেনের সম্ভাব্যতা বিতরণে রূপান্তর করে। গ্রেডিয়েন্ট‑ডিসেন্ট ব্যবহার করে প্রশিক্ষণ ধাপে ধাপে প্যারামিটার সমন্বয় করে যাতে ভবিষ্যদ্বাণী বাস্তব ডেটার সাথে ভালো মিল খায়।
"Scaling laws" একটি পর্যবেক্ষণ বর্ণনা করে: মডেল সাইজ, ডেটা সাইজ, এবং কম্পিউট বাড়ালে পারফরম্যান্স একটি পূর্বানুমেয় পথে উন্নতি করে। বড় মডেল সাধারণত বেশি টেক্সট‑এ প্রশিক্ষিত হলে ভাল ভবিষ্যদ্বাণী করে—কিন্তু ডেটা, কম্পিউট এবং প্রশিক্ষণের স্থিতিশীলতার ব্যবহারিক সীমা আছে।
LLMগুলো ডাটাবেসের মতো তত্ত্ব বা যুক্তি সংরক্ষণ করে না। তারা স্ট্যাটিস্টিক্যাল নিয়মিততা encode করে: কোন শব্দ, বাক্যগঠন কিসের সাথে সাধারণত আসে, কোন প্রসঙ্গে।
তাদের গ্রাউন্ডেড ধারণা নেই যা দৃশ্যমানতা বা শারীরিক অভিজ্ঞতার সঙ্গে জড়িত। একজন LLM "লাল" বা "ভারী" সম্পর্কে কেবল সেই শব্দগুলো টেক্সটে কিভাবে ব্যবহার হয়েছে তা দিয়েই কথা বলতে পারে, রঙ দেখতে বা বস্তু তুলে অনুভব করতে পারে না।
এই কারনেই মডেলগুলো জ্ঞানবর্ষণশীল শুনে আত্মবিশ্বাসী ভুল করতে পারে: তারা প্যাটার্ন বাড়িয়ে দেয়, বাস্তবতার সঙ্গে পরামর্শ করে না।
প্রি‑ট্রেনিং হচ্ছে দীর্ঘ প্রাথমিক ধাপ যেখানে মডেল সাধারণ ভাষা‑প্যাটার্ন শেখে বিশাল টেক্সট করপাসে পরবর্তী‑টোকেন ভবিষ্যদ্বাণী করে। এখানেই প্রায় সব ক্ষমতা উদ্ভূত হয়।
তারপর ফাইন‑টিউনিং পূর্বপ্রশিক্ষিত মডেলটিকে সরল লক্ষ্যগুলোর জন্য অভিযোজিত করে: নির্দেশ মানা, কোড লেখা, অনুবাদ ইত্যাদি। মডেলকে ইচ্ছিত আচরণের নির্বাচনকৃত উদাহরণ দেখানো হয় এবং একটু সামঞ্জস্য করা হয়।
মানব প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট (RLHF) আরেকটি স্তর যোগ করে: মানুষ মডেল আউটপুট রেট করে বা তুলনা করে, এবং মডেলকে এমন উত্তর দিতে অনুকূল করা হয় যা মানুষ পছন্দ করে (উদাহরণ: বেশি সহায়ক, কম ক্ষতিকারক)। RLHF মডেলকে নতুন ইন্দ্রিয় বা গভীর বোঝাপড়া দেয় না; এটি মূলত শেখানো আচরণকে সাজায় এবং ফিল্টার করে।
এই ধাপগুলো মিলে এমন সিস্টেম তৈরি করে যা স্ট্যাটিস্টিক্যাল প্যাটার্ন কাজে লাগিয়ে খুব সাবলীল টেক্সট জেনারেট করে—তবে গ্রাউন্ডিং, লক্ষ্য বা সচেতনার অভাব রয়ে যায়।
বড় ভাষা মডেলগুলো চমৎকার দেখায় কারণ তারা এমন একাধিক কাজ করতে পারে যা আগে অনেক দূরের মনে হত।
LLMগুলো কার্যকর কোড স্নিপেট জেনারেট করতে পারে, বিদ্যমান কোড রিফ্যাক্টর করতে পারে, এবং অচেনা লাইব্রেরি ব্যাখ্যা করতে পারে। অনেক ডেভেলপারের জন্য তারা ইতোমধ্যেই একটি দক্ষ পেয়ার‑প্রোগ্রামার হিসেবে কাজ করে: এজ আইডিয়া দেন, স্পষ্ট বাগ ধরেন, পুরো মডিউল স্ক্যাফোল্ড করবেন।
তারা সারসংক্ষেপেও দক্ষ। একটি দীর্ঘ রিপোর্ট, কাগজ বা ইমেইল থ্রেড দিলে একটি LLM তা মূল বিষয়গুলিতে সংক্ষেপ করে দিতে পারে, অ্যাকশন আইটেম হাইলাইট করতে পারে, বা বিভিন্ন পাঠকের জন্য স্বর পরিবর্তন করতে পারে।
অনুবাদও একটি শক্তি। আধুনিক মডেলগুলো বহু ভাষা সামলে নেয়, এবং পেশাদার দৈনন্দিন যোগাযোগে পর্যাপ্ত স্টাইল ও রেজিস্টার ধরতে পারে।
মডেলগুলোর স্কেলে নতুন দক্ষতা হঠাৎ প্রकट হওয়ার মতো লাগে: লজিক ধাঁধা সমাধান, পেশাগত পরীক্ষা পাস, বা বহু‑ধাপ নির্দেশনা মেনে চলা—যা আগে সংস্করণগুলো করতে পারত না। স্ট্যান্ডার্ডীজড বেঞ্চমার্কে—গণিত সমস্য, বার পরীক্ষার প্রশ্ন, মেডিকেল কুইজ—শীর্ষ LLMগুলো এখন গড় মানুষের স্কোর ছাড়িয়ে যায়।
এই উদ্ভূত আচরণগুলো মানুষকে বলায় যে মডেলগুলো "যুক্তি করছে" বা মানুষের মতো "বোঝাপড়া" করছে। পারফরম্যান্স গ্রাফ ও লিডারবোর্ড এই ধারণাকে জোরালো করে যে আমরা AGI‑র কাছে পৌঁছে যাচ্ছি।
LLMগুলো টেক্সটকে এমনভাবে চালিয়ে যায় যা ডেটায় দেখা প্যাটার্নের সাথে মিলে যায়। এই ট্রেনিং‑উদ্দেশ্য, স্কেল মিলিয়ে, দক্ষতা ও এজেন্সির নকল করার জন্য যথেষ্ট: তারা আত্মবিশ্বাসী শোনে, সেশনের মধ্যে প্রসঙ্গ মনে রাখে, এবং সাবলীল প্রবন্ধে তাদের উত্তর যৌক্তিকভাবে ন্যায়সঙ্গত করে তুলতে পারে।
তবুও এটি বোঝাপড়ার বিভ্রম। মডেলটি জানে না কোড চালালে কি হবে, কোনো মেডিকেল নির্ণয়ের মানে রোগীর জন্য কী, বা কোনো পরিকল্পনা থেকে কী শারীরিক কর্ম হবে। তার বাইরের জগতের সাথে গ্রাউন্ডিং নেই।
পরীক্ষায় শক্তিশালী পারফরম্যান্স—এমনকি মানুষের জন্য ডিজাইন করা পরীক্ষাতেও—স্বয়ংক্রিয়ভাবে AGI নয় বরাবর প্রমাণ করে না। এটা দেখায় যে বিশাল টেক্সট ডেটার ওপরের প্যাটার্ন শেখা অনেক বিশেষ দক্ষতার নকল করে তুলতে পারে, কিন্তু যা AGI বোঝায় সেই নমনীয়, গ্রাউন্ডেড, ক্রস‑ডোমেইন বুদ্ধিমত্তা তা নয়।
বড় ভাষা মডেলগুলো অসাধারণ টেক্সট‑প্রেডিক্টর, কিন্তু সেই ডিজাইনে থাকা গঠনগত বৈশিষ্ট্যই তাদের জন্য কঠিন সীমা খুঁটে দেয়।
LLMগুলো দেখে না, শোনে না, চলাফেরা করে না বা বস্তু চেষ্টা করে না। তাদের একমাত্র জগতভিত্তিক যোগাযোগ হল টেক্সট (এবং কিছু নতুন মডেলে স্ট্যাটিক ইমেজ বা সংক্ষিপ্ত ক্লিপ)। তাদের কোনো ধারাবাহিক সেন্সরি স্ট্রীম নেই, কোনো দেহ নেই, এবং ফলাফল দেখা ও শেখার পথ নেই।
ইন্দ্রিয় ও এম্বডিমেন্ট ছাড়া তারা বাস্তবতার একটি গ্রাউন্ডেড, ক্রমাগত আপডেট হওয়া মডেল তৈরি করতে পারে না। "ভারী", "আঠালো" বা "ক شکن" মতো শব্দগুলো টেক্সটে কিভাবে ব্যবহৃত হয়েছে তার ভিত্তিতে থাকে, বাস্তব অনুশীলনের ওপর না। এটা দক্ষ অনুকরণের জন্য যথেষ্ট, কিন্তু সরাসরি মিথস্ক্রিয়া থেকে শেখার বদলে অতীত বর্ণনাগুলো পুনরায় বিচার করে মিশ্রিত করার সীমাবদ্ধতা বাড়ায়।
একটি LLM পরপর টোকেন বাড়ানোর জন্য প্রশিক্ষিত হওয়ায়, এটি যে পরিপূরকটি সবচেয়ে ভালোভাবে ফিট করে তা উৎপাদন করে, সত্য সেটা কিনা তা বিবেচনা করে না। যখন ডেটা পাতলা বা বিবাদমান হয়, মডেলটি সম্ভাব্য‑শোনাচ্ছে এমন বনানী দিয়ে ফাঁক পূরণ করে—যাকে আমরা হ্যালুসিনেশন বলি।
মডেলের কোনো স্থায়ী বিশ্বাস‑অবস্থা নেই। প্রতিটি প্রতিক্রিয়া প্রম্পট ও ওজন থেকে নতুন করে তৈরি হয়; "আমি বিশ্বাস করি"—এর মতো কোনো অন্তর্নিহিত লেজার নেই। দীর্ঘমেয়াদি স্মৃতি বৈশিষ্ট্য বাইরের স্টোরেজ বোল্ট‑অন করে যোগ করা যায়, কিন্তু মূল সিস্টেম মানুষের মতো বিশ্বাস বজায় বা সংশোধন করে না।
একটি LLM‑কে প্রশিক্ষণ করা হল অফলাইন, সম্পদ‑নিবিড় ব্যাচ প্রক্রিয়া। এর জ্ঞান আপডেট করতে হলে সাধারণত পুনঃপ্রশিক্ষণ বা ফাইন‑টিউনিং করতে হয়, প্রতিটি ইন্টারঅ্যাকশন থেকে সুন্দরভাবে শিখে নেওয়ার মত নয়।
এতে একটি গুরুত্বপূর্ণ সীমা আসে: মডেল দ্রুত পরিবর্তনশীল বিশ্বের সঙ্গে নির্ভরযোগ্যভাবে তাল মেলাতে পারে না, চলতে থাকা অভিজ্ঞতা থেকে ধারণা পুনর্গঠন করতে পারে না, বা ধাপে ধাপে শিখে গভীর ভুলগুলো সংশোধন করতে পারে না। সর্বোচ্চ পরিস্থিতিতে এটি সাম্প্রতিক প্রম্পট বা সংযুক্ত টুলের আলোকে এমন অভিযোজন অনুকরণ করতে পারে।
LLMগুলো কোন শব্দগুলি একসঙ্গে ঘটে, কোন বাক্যগুলো সাধারণত অনুসরণ করে, ব্যাখ্যা কিভাবে দেখতে হয়—এই ধরণের স্ট্যাটিস্টিক্যাল নিয়মগুলোতে চমৎকার। কিন্তু এটা কারণ‑সম্বন্ধিত বোঝাপড়ার সমান নয়।
কারণগত বোঝাপড়া হলো ধারণা করা, হস্তক্ষেপ করা, কী পরিবর্তন হয় তা পর্যবেক্ষণ করা, এবং যখন পূর্বানুমান ব্যর্থ হয় তখন অভ্যন্তরীণ মডেল আপডেট করা। কেবল পাঠ্য‑প্রেডিক্টর এমন সরাসরি হস্তক্ষেপ বা বিস্ময়ের অভিজ্ঞতা পায় না। এটি একটি পরীক্ষা বর্ণনা করতে পারে কিন্তু তা করতে পারে না। কারণগত ভাষা অনুকরণ করতে পারে, কিন্তু অন্তর্নিহিত যন্ত্র নেই যা কাজ ও ফলাফল সংযুক্ত করে।
যতক্ষণ একটি সিস্টেম শুধুমাত্র পুরানো টেক্সট থেকে টেক্সট ভবিষ্যদ্বাণী করতে সীমাবদ্ধ, ততক্ষণ সেটি মৌলিকভাবে প্যাটার্ন‑শিক্ষানবিস থেকেই যাবে। এটা যুক্তি অনুকরণ করতে পারে, কারণ ব্যাখ্যা করতে পারে এবং view পরিবর্তনের নকল করতে পারে, কিন্তু এটি এমন একটি ভাগ করা জগতে বাস করে না যেখানে তার "বিশ্বাসগুলো" ফলাফলের দ্বারা পরীক্ষা করা হয়। এই ফাঁকই ভাষা‑নিপুণতার একা AGI পৌঁছাতে ব্যর্থতার কেন্দ্রীয় কারণ।
ভাষা বুদ্ধিমত্তার একটি শক্তিশালী ইন্টারফেস, কিন্তু বুদ্ধিমত্তার বস্তুটা নয়। একটি সিস্টেম যা সম্ভাব্য বাক্যগুলো ভবিষ্যদ্বাণী করে, সেটি স্বতন্ত্রভাবে এমন এজেন্ট নয় যা বোঝে, পরিকল্পনা করে এবং জগতে কাজ করে।
মানুষ ধারণা শেখে দেখে, ছুঁয়ে, চালিয়ে ও ম্যানিপুলেট করে। "কাপ" কেবল বাক্যে কিভাবে ব্যবহৃত হয় তা নয়; এটা এমন কিছু যা আপনি ধরতে পারেন, ভর্তি করতে পারেন, ফেলে দিতে পারেন বা ভেঙে ফেলতে পারেন। মনোবিজ্ঞানের ভাষায় এটাকে গ্রাউন্ডিং বলা হয়: ধারণাগুলো উপলব্ধি ও কর্মের সঙ্গে বেঁধে থাকে।
একটি কৃত্রিম সাধারণ বুদ্ধিমত্তা সম্ভবত অনুরূপ গ্রাউন্ডিং প্রয়োজন করবে। সঠিকভাবে সাধারণীকরণ করতে, এটি প্রতীক (শব্দ বা অভ্যন্তরীণ প্রতিনিধিত্ব)কে শারীরিক ও সামাজিক জগতের স্থায়ী নিয়মের সঙ্গে সংযুক্ত করতে হবে।
মানক LLMগুলো কেবল টেক্সট থেকে শেখে। তাদের "কাপ"‑এর বোঝাপড়া নিখুঁতভাবে স্ট্যাটিস্টিক্যাল: বিলিয়নগুলো বাক্যের মধ্যে শব্দগুলোর সম্পর্ক। এটি কথোপকথন ও কোডিং‑এর জন্য শক্তিশালী, কিন্তু অচেনা প্যাটার্নের বাইরে—বিশেষত এমন ক্ষেত্রে যেখানে সরাসরি মিথস্ক্রিয়া গুরুত্বপূর্ণ—দুর্বল।
সাধারণ বুদ্ধিমত্তা সময়ের ওপর ধারাবাহিকতা জড়িত: দীর্ঘমেয়াদি স্মৃতি, স্থায়ী লক্ষ্য, এবং অপেক্ষাকৃত স্থিতিশীল পছন্দ। মানুষ অভিজ্ঞতা সঞ্চয় করে, বিশ্বাস সংশোধন করে এবং মাস বা বছরের উপর প্রকল্প চালায়।
LLM‑এর নিজের মতো স্থায়ী স্মৃতি নেই এবং কোনো অন্তর্নিহিত লক্ষ্যও নেই। যে কোন ধারাবাহিকতা বা "ব্যক্তিত্ব" বাইরের টুল (ডাটাবেস, প্রোফাইল, সিস্টেম‑প্রম্পট) লাগিয়ে যোগ করতে হয়। ডিফল্টভাবে প্রতিটি কুয়েরি একটি নতুন প্যাটার্ন‑ম্যাচিং অনুশীলন, না যে জীবনের একটা সুসংহত ধারা।
AGI সাধারণত এমন ক্ষমতা হিসেবেই সংজ্ঞায়িত করা হয় যা বিস্তৃত কাজ সমাধান করতে পারে, নতুনগুলোও, কারণ ও প্রভাব নিয়ে যুক্তি করে এবং পরিবেশে হস্তক্ষেপ করে। এর মানে:
LLMগুলো এজেন্ট নয়; তারা একটি ক্রমে পরবর্তী টোকেন তৈরি করে। তারা পরিকল্পনা বর্ণনা করতে পারে বা কারণগত বিষয় নিয়ে কথা বলতে পারে কারণ টেক্সটে এমন প্যাটার্ন আছে, কিন্তু তারা স্বভাবতই কর্ম সম্পাদন করে না, পরিণতি পর্যবেক্ষণ করে না, এবং অভ্যন্তরীণ মডেল সামঞ্জস্য করে না।
একটি LLM‑কে কাজ করা সিস্টেমে রূপান্তর করতে ইঞ্জিনিয়ারদের perception, memory, tool use, এবং control‑এর বাইরের উপাদান দিয়ে মোড়াতে হয়। ভাষা মডেলটি পরামর্শকের ও মূল্যায়নকারী শক্তিশালী মডিউল হিসেবে থাকে, পুরো নিজে‑স্বতন্ত্র বুদ্ধিমত্তা নয়।
সংক্ষেপে, সাধারণ বুদ্ধিমত্তা গ্রাউন্ডেড ধারণা, স্থায়ী মোটিভেশন, কারণগত মডেল, এবং জগতের সঙ্গে অভিযোজিত ইন্টারঅ্যাকশন দাবি করে। ভাষার দক্ষতা অত্যন্ত দরকারী হলেও তা ঐ বৃহৎ চিত্রের কেবল একটি অংশ।
মানুষ যখন একটি সাবলীল মডেলের সঙ্গে কথা বলে, তাতে স্বাভাবিকভাবে মনে হয় পিছনের দিকে একটি মন আছে। এই বিভ্রম শক্ত—কিন্তু এটা বিভ্রমই।
গবেষকরা এ নিয়ে একমত নন যে কৃত্রিম সাধারণ বুদ্ধিমত্তার জন্য চেতনা অপরিহার্য কি না।
এখন পর্যন্ত এমন কোনো পরীক্ষাযোগ্য তত্ত্ব নেই যা এটা চূড়ান্তভাবে নির্ধারণ করে। তাই এ ঘোষণা করা অপর্যাপ্ত যে AGI‑এর চেতনা অবশ্যই থাকতে হবে বা থাকবে না। এখন গুরুত্বপূর্ণ যে আমরা স্পষ্ট থাকি যে বর্তমান LLMগুলো কী নেই।
একটি বড় ভাষা মডেল হল পরপর টোকেন ভবিষ্যদ্বাণীকারী একটি স্ট্যাটিস্টিক্যাল সিস্টেম যা টেক্সটের স্ন্যাপশটে কাজ করে। এটি সেশনের মধ্যেও বা টার্নের মধ্যেও স্থায়ী পরিচয় বহন করে না, মাত্র প্রম্পট ও স্বল্প‑মেয়াদী প্রসঙ্গে এনকোড করা ব্যক্তিত্ব ছাড়া।
যখন একটি LLM বলে "আমি", এটি কেবল ভাষাগত রীতি অনুসরণ করছে, অভ্যন্তরীণ কোনো বিষয়বস্তুকে নির্দেশ করছে না।
চেতনা সম্পন্ন সত্তারা অনুভব করে: ব্যথা, বিরক্তি, কৌতূহল, সন্তুষ্টি; এবং তাদের অন্তর্নিহিত লক্ষ্য ও যত্ন থাকে—কাজগুলো তাদের জন্য স্বতন্ত্রভাবে গুরুত্বপূর্ণ।
LLMগুলো বিপরীতে:
তাদের "আচরণ" কেবল টেক্সট‑প্যাটার্ন মিলানোর ফল, প্রশিক্ষণ ও প্রম্পট দ্বারা সীমাবদ্ধ—কোনো অভ্যন্তরীণ জীবনের প্রকাশ নয়।
কারণ ভাষা আমাদের অন্য মনের জানালাই, সাবলীল সংলাপ ব্যক্তি হওয়ার ব্যাপারটা শক্ত করে বোঝায়। কিন্তু LLM‑এর ক্ষেত্রে ঠিক এখানেই আমরা সহজে বিভ্রান্ত হই।
মানুষীকরণ (anthropomorphism) নিম্নলিখিত সমস্যাগুলো আনতে পারে:
LLM‑কে মানুষ মনে করলে নকল ও বাস্তবতার মাঝের সীমানা ধোঁয়াও হয়। AGI ও বর্তমান AI‑ঝুঁকি নিয়ে সঠিকভাবে চিন্তা করতে হলে আমাদের মনে রাখতে হবে: মিথ্যা‑ব্যক্তিত্বের মেলবন্ধন বাস্তব ব্যক্তিত্ব নয়।
যদি আমরা কখনো AGI তৈরি করি, কীভাবে জানতে পারব সেটা সত্যিকারের কি না—আর কেবল অত্যন্ত বিশ্বাসযোগ্য চ্যাটবট নয়?
টিউরিং‑শৈলীর টেস্ট। ক্লাসিক ও আধুনিক টিউরিং টেস্ট জিজ্ঞাসা করে: কি সিস্টেম মানুষের মতো কথোপকথন চালিয়ে লোকসানের মত মানুষকে গুলিয়ে দিতে পারে? LLMগুলো ইতিমধ্যেই আশ্চর্যজনকভাবে ভালো করে, যা দেখায় এই মানদণ্ড কতটা দুর্বল। চ্যাট দক্ষতা স্টাইল মাপে, গভীরতা, পরিকল্পনা বা বাস্তব‑বিশ্ব দক্ষতার নয়।
ARC‑শৈলীর মূল্যায়ন। Alignment Research Center‑র অনুপ্রাণিত টাস্কগুলো নতুন যুক্তি ধাঁধা, বহু‑ধাপ নির্দেশনা, ও টুল‑ব্যবহারকে লক্ষ্য করে। এগুলো প্রশ্ন করে সিস্টেম এমন সমস্যাগুলো সমাধান করতে পারে কিনা যা আগে দেখেনি—কিন্তু LLMগুলো এই ধরনের কাজগুলো করতে পারে মাঝে মাঝে—কিন্তু প্রায়ই সুসংবদ্ধ প্রম্পট, বাইরের টুল এবং মানব পর্যবেক্ষণ দরকার হয়।
এজেন্সি টেস্ট। প্রস্তাবিত "এজেন্ট" টেস্টগুলো দেখবে কি সিস্টেম সময়ের ওপর খোলা‑শেষ লক্ষ্য অনুসরণ করতে পারে: উপ‑লক্ষ্য ভাঙা, পরিকল্পনা পুনর্নির্ধারণ, ব্যাঘাত সামলানো, এবং ফলাফল থেকে শিখা। বর্তমান LLM‑ভিত্তিক এজেন্টগুলো এজেন্টিক মনে করাতে পারে, কিন্তু তাদের হাড়কষে স্ট্রাকচার ও মানব‑নির্ধারণী স্ক্রিপ্ট ওপর নির্ভরশীলতা রয়েছে।
কিছু অন্তত আমরা দেখতে চাইব:
স্বায়ত্তশাসন. নিজে সাব‑লক্ষ্য স্থির ও পরিচালনা করবে, অগ্রগতি পর্যবেক্ষণ করবে, এবং ব্যর্থতা থেকে পুনরুদ্ধার করবে মানুষের ক্রমাগত নির্দেশ ছাড়া।
বিভিন্ন ডোমেইনে স্থানান্তর. এক ক্ষেত্র থেকে শেখা দক্ষতা অন্য একেবারে ভিন্ন ক্ষেত্রে পুনরায় ভালোভাবে কাজে লাগবে, লাখ লাখ নতুন উদাহরণ ছাড়াই।
বাস্তব‑বিশ্ব দক্ষতা. অনিয়মিত, অনিশ্চিত শারীরিক ও সামাজিক পরিবেশে পরিকল্পনা ও হস্তক্ষেপ করতে পারবে—যেখানে নিয়ম অসম্পূর্ণ এবং পরিণতি বাস্তব।
LLMগুলো, এমনকি এজেন্ট ফ্রেমওয়ার্কে মোড়া থাকলেও সাধারণত:
অতএব কেবল চ্যাট‑ভিত্তিক টেস্ট বা সংকীর্ণ বেঞ্চমার্ক পাস করলেই যথেষ্ট নয়। প্রকৃত AGI চিনতে হলে আমরা চ্যাট মানের বাইরে স্থায়ী স্বায়ত্তশাসন, ক্রস‑ডোমেইন জেনারেলাইজেশন, এবং বিশ্বে নির্ভরযোগ্য কর্ম দক্ষতা চাইব—এগুলোতে বর্তমান LLMগুলো অংশতই ও ভঙ্গুর ফল দেয়।
যদি আমরা AGI‑কে গম্ভীরভাবে ধরি, তাহলে "একটি বড় টেক্সট মডেল" কেবল একটি উপাদান—সম্পূর্ণ সিস্টেম নয়। আজ যা‑কিছু গবেষণায় "AGI‑এর দিকে" শোনা যায় তা আসলে LLM‑কে ভেতরের সমৃদ্ধ আর্কিটেকচারের মধ্যে মোড়ানো বিষয়ে।
একটি প্রধান দিক হল LLM‑ভিত্তিক এজেন্ট: সিস্টেমগুলো যা LLMকে পরিকল্পনা ও যুক্তির কেন্দ্র হিসেবে ব্যবহার করে, কিন্তু তার চারপাশে থাকে:
এখানে LLM সম্পূর্ণ "বুদ্ধিমত্তা" নয়, বরং ভাষায় ইন্টারফেস ও রিজনিং মডিউল হিসেবে বিভক্ত একটা সিদ্ধান্ত‑গ্রহণ যন্ত্রের অংশ।
টুল‑ইউজিং সিস্টেমগুলো LLMকে সার্চ ইঞ্জিন, ডাটাবেস, কোড ইন্টারপ্রেটার বা বিশেষায়িত API কল করতে দেয়। এতে এটি পারে:
এই প্যাচওয়ার্ক কিছু দুর্বলতা ঠিক করে, কিন্তু সমস্যা স্থানান্তর করে: সামগ্রিক বুদ্ধিমত্তা এখন অর্কেস্ট্রেশন ও টুল ডিজাইনের ওপর নির্ভর করে, কেবল মডেলের ওপরে নয়।
অন্য পথ হল মাল্টিমডাল মডেল যা টেক্সট, চিত্র, অডিও, ভিডিও, এবং কখনও কখনও সেন্সর ডেটা প্রসেস করে। এরা মানুষের মত কিভাবে উপলব্ধি ও ভাষা সংযুক্ত করে তার কাছাকাছি নিয়ে যায়।
আরও এক ধাপ এগিয়ে গেলে LLM‑কে রোবট বা সিমুলেটেড দেহ নিয়ন্ত্রণ করতে দেখা যায়। এসব সিস্টেম অভিযান করে, কাজ করে, এবং শারীরিক প্রতিক্রিয়া থেকে শিখতে পারে—এটি কারণগত ও গ্রাউন্ডিং‑সংক্রান্ত অনুপস্থিত অংশগুলো মোকাবিলা করে।
এসব পথ আমাদের কাছাকাছি এনে দিতে পারে AGI‑সদৃশ সক্ষমতা, কিন্তু গবেষণার লক্ষ্যও বদলে যায়। এখন আমরা আর প্রশ্ন করছি না, "একটি LLM কি একা AGI হতে পারে?" বরং, "একটি জটিল সিস্টেম যার ভিতরে LLM, টুল, স্মৃতি, উপলব্ধি ও এম্বডিমেন্ট আছে—কি AGI‑সদৃশ আচরণ অনুকরণ করতে পারে?"
এই পার্থক্য গুরুত্বপূর্ণ: LLM একটি শক্তিশালী টেক্সট‑প্রেডিক্টর; AGI—যদি সম্ভব—একটি সমগ্র ইন্টিগ্রেটেড সিস্টেম হবে, যেখানে ভাষা কেবল একটি অংশ।
বর্তমান বড় ভাষা মডেলগুলোকে "AGI" বলা কেবল শব্দের ভুল নয়; এটি প্রণোদনা বিকৃত করে, সুরক্ষা অজানা স্থানে রাখে, এবং বাস্তব সিদ্ধান্ত নেওয়ার মানুষগুলোকে বিভ্রান্ত করে।
যখন ডেমোগুলো "শুরুর AGI" নামে ফ্রেম করা হয়, প্রত্যাশা বাস্তবতাকে ছাড়িয়ে যায়। সেই হাইপের বেশ কিছু খরচ আছে:
যদি ব্যবহারকারী ভাবেন তারা যা নিয়ে কথা বলছে তা "প্রায় মানব" বা "সাধারণ"—তবে তারা:
অতিরিক্ত বিশ্বাস সাধারণ বাগগুলোকে আরও বিপজ্জনক করে তোলে।
নীতিনির্ধারকরা ও সাধারণ মানুষ ইতিমধ্যেই AI‑ক্ষমতা ট্র্যাক করতে কষ্ট পাচ্ছে। প্রতিটি শক্তিশালী অটোকমপ্লিটকে AGI বলে মার্কেট করা হলে:
পরিষ্কার শব্দ—"LLM", "ন্যারো মডেল", "AGI‑গবেষণা নির্দেশিকা"—প্রত্যাশা ও বাস্তবতার সাথে সারিবদ্ধ থাকতে সাহায্য করে। সক্ষমতা ও সীমাবদ্ধতা স্পষ্ট করা:
LLMগুলো অসাধারণ প্যাটার্ন মেশিন: তারা বিশাল টেক্সটকে সংকুচিত করে এবং সম্ভাব্য ধারাবাহিকতা ভবিষ্যদ্বাণী করে। এটি তাদের লেখালেখি, কোডিং, ডেটা পর্যালোচনা ও আইডিয়া প্রোটোটাইপিং‑এ শক্তিশালী করে। কিন্তু এই আর্কিটেকচার এখনও সংকীর্ণ: স্থায়ী আত্মা, গ্রাউন্ডেড বোঝাপড়া, দীর্ঘ‑অবধি লক্ষ্য, বা ডোমেইন-ফ্রি শিক্ষার নমনীয়তা নেই—এসবই AGI সংজ্ঞায় প্রয়োজনীয়।
LLMগুলো:
এই কাঠামোগত সীমাবদ্ধতাই দেখায় কেন কেবল টেক্সট‑মডেল স্কেল করে সত্যিকারের AGI পাওয়া কঠিন। আপনি ভাল ফ্লুয়েন্সি, অধিকতর জ্ঞান পুনঃস্মৃতি ও যুক্তির নকল পেতে পারেন—কিন্তু একটি সিস্টেম নয় যা প্রকৃতভাবে জানে, চায় বা খেয়াল করে।
LLM যেখানে প্যাটার্ন‑ভবিষ্যদ্বাণী উজ্জ্বল:
মানুষকে দৃঢ়ভাবে লুপে রাখুন:
আউটপুটগুলোকে যাচাইকরণের সময়ানুক্রমে বিবেচনা করুন, বিশ্বাসযোগ্য সত্য হিসেবে নয়।
LLM‑কে "AGI" বলা তাদের প্রকৃত সীমাবদ্ধতাগুলো ঢেকে দেয় এবং অতিরিক্ত নির্ভরতা, নিয়ন্ত্রক বিভ্রান্তি ও অনাকাঙ্ক্ষিত ভয় ডেকে আনে। এগুলোকে উন্নত সহকারী হিসেবে দেখা বেশি সৎ—যেখানে মানুষ এবং প্রক্রিয়া নিরাপত্তা, দায়িত্ব ও গভীর বোঝাপড়ার দায়িত্ব বহন করে।
আরও গভীরে যেতে চাইলে আমাদের /blog‑এ সম্পর্কিত নিবন্ধগুলো দেখুন। LLM‑চালিত টুল আমরা কীভাবে প্যাকেজ ও মূল্য নির্ধারণ করি সে সম্পর্কিত বিস্তারিত জানতে দেখুন /pricing।
AGI (Artificial General Intelligence) বলতে এমন একটি সিস্টেমকে বোঝায় যা:
একটি সাধারণ নিয়ম: একটি AGI তত্ত্বগতভাবে এমনকি দীর্ঘ সময় ও সম্পদ দেওয়া হলে এক–একটি বৃত্তিগত শিক্ষার প্রয়োজন ছাড়াই একটি মানুষের মতো বুদ্ধিবৃত্তিক কাজ শেখে।
আধুনিক LLMগুলো:
এগুলো ভাষার মাধ্যমে বিস্তৃত জ্ঞান ও যুক্তির নকল করতে পারে, কিন্তু:
তাই LLMগুলো শক্তিশালী 'বৃত্তপাতকারী' ভাষা‑আধারিত শিক্ষানবিস, পূর্ণাঙ্গ আত্মনিয়ন্ত্রিত AGI নয়।
মানুষ সহজেই ঝুঁকে পড়ে কারণ:
এতে বোঝা যায় একটি 'বোঝাপড়া' বা উদ্দেশ্য আছে—কিন্তু নিচের স্তরে সিস্টেমটি কেবল ডেটার প্যাটার্ন অনুযায়ী টেক্সট ভবিষ্যদর্শন করছে; এটি একটি গ্রাউন্ডেড ওয়ার্ল্ড মডেল তৈরি করে নিজে থেকে লক্ষ্য নির্ধারণ করছে না।
LLMকে আপনি এমনভাবে ভাবতে পারেন:
গুরুত্বপূর্ণ বিষয়গুলো:
LLMগুলো শক্তিশালি যেখানে কাজটি প্রধানত টেক্সট বা কোডের উপর ভিত্তি করে প্যাটার্ন পূরণ:
তারা দুর্বল যেখানে বা ঝুঁকিপূর্ণ যখন কাজগুলো দাবি করে:
স্কেলিং‑লজগুলি দেখায়: মডেল বড় করলে, ডেটা ও কম্পিউট বাড়ালে, অনেক বেঞ্চমার্কে পারফরম্যান্স বাড়ে। কিন্তু স্কেলিং একা কিছু কাঠামোগত ফাঁক পূরণ করে না:
বড় হওয়ার ফলে আপনি পাবেন:
কিন্তু এটা স্বয়ংক্রিয়ভাবে সাধারণ, স্বায়ত্তশাসিত বুদ্ধিমত্তা সৃষ্টি করে না। AGI পৌঁছাতে নতুন আর্কিটেকচারাল উপাদান ও সিস্টেম‑স্তরের ডিজাইন প্রয়োজন।
LLMগুলোকে টুল হিসেবে ব্যবহার করুন, কর্তৃত্ব হিসেবে নয়:
পণ্য ও প্রক্রিয়া এমনভাবে ডিজাইন করুন যে:
আজকের LLMকে "AGI" আখ্যা দিলে সমস্যা হয়:
স্পষ্ট ভাষা—"LLM", "ন্যারো মডেল", "LLM ব্যবহার করে এজেন্টিক সিস্টেম"—উপযুক্ত প্রত্যাশা ও ঝুঁকি নির্ধারণে সাহায্য করে।
কয়েকটি বাস্তবসম্মত মানদণ্ড AGI চিহ্নিত করতে সাহায্য করতে পারে; চ্যাট‑মানের বাইরে আমরা দেখতে চাইব:
গবেষকরা এমন সিস্টেম নিয়ে কাজ করছেন যেখানে LLM কেবল একটি উপাদান:
এসব দিক AGI‑এর কাছাকাছি নিয়ে যেতে পারে, কিন্তু লক্ষ্য পরিবর্তিত হয়: এখন প্রশ্ন হচ্ছে "একটি LLM‑সহ জটিল সিস্টেম কি AGI‑সদৃশ আচরণ প্রাকটিসে আনতে পারে?"—এটি LLM একার প্রশ্ন নয়।
যা কিছু মনে হয় যুক্তি বা স্মৃতি, তা মূলত next‑token উদ্দেশ্য, স্কেল এবং ফাইন‑টিউনিংয়ের ফল—স্পষ্ট প্রতীকগত লজিক বা স্থায়ী বিশ্বাসভাণ্ডার নয়।
এই ক্ষেত্রে শক্তিশালী মানুষের পর্যবেক্ষণ ও বাহ্যিক টুল (সার্চ, ক্যালকুলেটর, সিমুলেটর) দরকার।
এই নিয়মগুলো মেনে চললে LLM‑এর সুবিধা নেবেন কিন্তু অতিমাত্রায় নির্ভরতা এড়াবেন।
বর্তমান LLMগুলো, এমনকি এজেন্টিক স্যুটে মোড়া থাকলেও, ভারী মানব‑স্ক্রিপ্টিং ও টুল‑অর্কেস্ট্রেশন ছাড়া এগুলো অর্জন করতে পারে না এবং স্থিতিস্থাপকতা ও সার্বজনীনতার প্রশ্নে আরও দূরে রয়েছে।