AGI কী এবং কেন LLM‑গুলো কখনই প্রকৃত AGI হতে পারে না

Q: আজকের LLMগুলো কেন সত্যিকার অর্থে AGI নয়?

আধুনিক LLMগুলো: - প্রধানত পাঠ্য (কখনও কখনও কোড, ছবি, অডিও) দিয়ে প্রশিক্ষিত - পরপর টোকেনের ভবিষ্যৎ অনুমান করতে অপ্টিমাইজ করা - দৃষ্টি, দেহ, অন্তর্নিহিত লক্ষ্য ও স্থায়ী স্মৃতির অভাব এগুলো ভাষার মাধ্যমে বিস্তৃত জ্ঞান ও যুক্তির নকল করতে পারে, কিন্তু: - বাস্তব‑বিশ্বের অভিজ্ঞতার সাথে যোগসূত্রযুক্ত ধারণা নেই - বিকাশশীল বিশ্বাস বা দীর্ঘমেয়াদি ধারণা বজায় রাখে না - স্বতঃস্ফূর্তভাবে সময়ক্রমে পরিকল্পনা ও কাজ করে না তাই LLMগুলো শক্তিশালী 'বৃত্তপাতকারী' ভাষা‑আধারিত শিক্ষানবিস, পূর্ণাঙ্গ আত্মনিয়ন্ত্রিত AGI নয়।

Q: মানুষ কেন LLMগুলোকে AGI ভেবে ফেলে?

মানুষ সহজেই ঝুঁকে পড়ে কারণ: - কথোপকথন আমাদের অন্য মনের মূল্যায়নের প্রধান উপায় - LLMগুলো এক বিন্দুতে কোড, প্রবন্ধ, ইমেইল, সারাংশ—অনেক ডোমেইন সামলাতে পারে - তারা মানুষের তৈরি পরিক্ষা ও বেঞ্চমার্ক পার হতে পারে এতে বোঝা যায় একটি 'বোঝাপড়া' বা উদ্দেশ্য আছে—কিন্তু নিচের স্তরে সিস্টেমটি কেবল ডেটার প্যাটার্ন অনুযায়ী টেক্সট ভবিষ্যদর্শন করছে; এটি একটি গ্রাউন্ডেড ওয়ার্ল্ড মডেল তৈরি করে নিজে থেকে লক্ষ্য নির্ধারণ করছে না।

Q: LLMগুলো আসলে কিভাবে কাজ করে?

LLMকে আপনি এমনভাবে ভাবতে পারেন: - একটি বিশাল ফাংশন যা টোকেনের একটি ক্রমকে নেয় এবং পরবর্তী টোকেনের সম্ভাব্যতা দেয় - ট্রেনিংয়ে ট্রিলিয়নগুলো উদাহরণ দেখে অভ্যস্ত ও ওজন সমন্বয় করে গুরুত্বপূর্ণ বিষয়গুলো: - এটি একটি ডাটাবেসের মত 'তথ্য' সংরক্ষণ করে না - এটি ভাষার স্ট্যাটিস্টিক্যাল নিয়মিততা encode করে - এর কাছে সত্যের ধারণা নেই, কেবল অতীত টেক্সটের প্রাসঙ্গিকতা বা সম্ভাব্যতা আছে যা কিছু মনে হয় যুক্তি বা স্মৃতি, তা মূলত next‑token উদ্দেশ্য, স্কেল এবং ফাইন‑টিউনিংয়ের ফল—স্পষ্ট প্রতীকগত লজিক বা স্থায়ী বিশ্বাসভাণ্ডার নয়।

Q: আজ LLMগুলো কীভাবে ব্যবহার করা উচিত যাতে অতিরিক্ত বিশ্বাস না করা যায়?

LLMগুলোকে টুল হিসেবে ব্যবহার করুন, কর্তৃত্ব হিসেবে নয়: - আউটপুটকে খসড়া বা প্রস্তাব হিসেবে বিবেচনা করুন, পরম সত্য হিসেবে নয় - উচ্চ-স্টেক সিদ্ধান্তের জন্য মানুষকে লুপে রাখুন (চিকিৎসা, আইন, আর্থিক, সেফটি‑ক্রিটিক্যাল) - যাচাইয়ের জন্য মডেলকে টুল (সার্চ, ক্যালকুলেটর, IDE) সঙ্গে জোড়া দিন - সংবেদনশীল ওয়ার্কফ্লোতে লগিং ও পর্যালোচনা রাখুন পণ্য ও প্রক্রিয়া এমনভাবে ডিজাইন করুন যে: - মডেল মানব বিচারকে বাড়ায়, প্রতিস্থাপন করে না - মডেল অনিশ্চয় বা ব্যর্থ হলে গ্রাহ্য উর্ধ্বগামী পথ থাকে - ব্যবহারকারীরা সীমাবদ্ধতা বুঝে এবং অন্ধবিশ্বাস ত্যাগ করে এই নিয়মগুলো মেনে চললে LLM‑এর সুবিধা নেবেন কিন্তু অতিমাত্রায় নির্ভরতা এড়াবেন।

Q: LLMগুলোকে AGI বলাটা কেন ঝুঁকিপূর্ণ?

আজকের LLMকে "AGI" আখ্যা দিলে সমস্যা হয়: - অতিরিক্ত বিশ্বাস: ব্যবহারকারীরা মানবসদৃশ বোঝাপড়া ও নির্ভরযোগ্যতা ধরে নেয় যেখানে তা নেই - খারাপ বিনিয়োগ সংকেত: অর্থ ও প্রতিভা ফ্ল্যাশি দাবির পেছনে যায়, না কোর গবেষণার দিকে - নীতিগত বিভ্রান্তি: নীতিনির্ধারকরা কল্পিত AGI দৃশ্যের দিকে বেশি মনোযোগ দেবে, বর্তমান ক্ষতি (বায়াস, ভুয়া তথ্য, অতিরিক্ত নির্ভরতা) অনিয়ন্ত্রিত থাকবে স্পষ্ট ভাষা—"LLM", "ন্যারো মডেল", "LLM ব্যবহার করে এজেন্টিক সিস্টেম"—উপযুক্ত প্রত্যাশা ও ঝুঁকি নির্ধারণে সাহায্য করে।

লগ ইন শুরু করুন

AGI কী এবং কেন LLM‑গুলো কখনই প্রকৃত AGI হতে পারে না | Koder.ai

কেন AGI এবং LLM সব জায়গায় মিলিয়ে বলা হচ্ছে

যদি আপনি টেক নিউজ, বিনিয়োগকারীর ডেক, বা প্রোডাক্ট পেজ পড়েন, দেখতে পাবেন বুদ্ধিমত্তা শব্দটা কতটা প্রসারিত হয়ে ব্যবহৃত হচ্ছে। চ্যাটবটগুলো “প্রায় মানুষ” বলে বর্ণিত হচ্ছে, কোডিং সহায়করা “প্রাকтически জুনিয়র ইঞ্জিনিয়ার” হিসেবে দেখানো হচ্ছে, এবং কেউ কেউ শক্তিশালী বড় ভাষা মডেল (LLM)‑কে কেবল কৃত্রিম সাধারণ বুদ্ধিমত্তার (AGI) প্রথম ধাপ বলে ধরে নিচ্ছেন।

এই নিবন্ধটি কৌতূহলী প্র্যাকটিশনার, ফাউন্ডার, প্রোডাক্ট লিডার এবং প্রযুক্তিগত পাঠকদের জন্য—যারা GPT‑4 বা Claude মতো টুল ব্যবহার করেন এবং ভাবেন: এটাই কি AGI‑র চেহারা—নাকি কোনো গুরুত্বপূর্ণ জিনিস অনুপস্থিত?

বিভ্রান্তির উৎস

LLMগুলো সত্যিই চিত্তাকর্ষক। তারা:

স্বাভাবিক ভাষায় সাবলীলভাবে কথা বলে
কোড লিখে, গবেষণা সারাংশ করে, এবং পরীক্ষা পাস করে
নিজেদের আউটপুট সম্পর্কে এমনভাবে প্রতিফলিত করে যা যুক্তি করার মতো মনে হয়

অধিকাংশ অ-বিশেষজ্ঞের কাছে এটা “সাধারণ বুদ্ধিমত্তা” থেকে আলাদা নয়। যখন কোনো মডেল একই সেশনে কান্ত সম্পর্কে প্রবন্ধ লিখতে পারে, আপনার টাইপস্ক্রিপ্টের ত্রুটি ঠিক করতে পারে, এবং একটি আইনগত মেমো খসড়া করতে পারে, তখন এটি ধরে নেওয়া স্বাভাবিক যে আমরা AGI‑র কাছে যাচ্ছি।

কিন্তু এই অনুমান চুপচাপভাবে ভাষায় দক্ষ হওয়া এবং সাধারণভাবে বুদ্ধিমান হওয়া‑কে সমান বলছে। এটাই এই নিবন্ধে আমরা বিন্দু‑বিন্দুভাবে খুলে দেখাব।

নিবন্ধটির কেন্দ্রীয় দাবি

আপনি যা যুক্তি পরবর্তী ভাগে দেখতে পাবেন তা হলো:

বর্তমান LLMগুলো পাঠ্য ও কোডের ওপর অত্যন্ত সক্ষম প্যাটার্ন‑শিক্ষানবিস, কিন্তু তাদের আর্কিটেকচার এবং ট্রেনিং‑রেজিমে জিনিসগুলোকে সরাসরি মাত্রা বাড়ানো বা ফাইন‑টিউনিং দিয়ে প্রকৃত AGI করে তোলা অসম্ভব বা খুবই অসম্ভাব্য।

তারা আরও ভাল, বিস্তৃত ও কার্যকর হবে। তারা AGI‑সদৃশ সিস্টেমের অংশ হতে পারে। তবুও গ্রাউন্ডিং, এজেন্সি, স্মৃতি, এম্বডিমেন্ট এবং আত্মমডেলিং সম্পর্কিত গভীর কারণ আছে যার কারণে “বড় LLM” সম্ভবত “সাধারণ বুদ্ধিমত্তার পথ” নয়।

এইটা একটি মতামতভিত্তিক ট্যুর—তবে এটি বর্তমান গবেষণা, LLM‑এর পরিষ্কার সক্ষমতা ও ব্যর্থতা, এবং গম্ভীর বৈজ্ঞানিক প্রশ্নগুলোর ওপর ভিত্তি করে স্থাপন করা হয়েছে, হাইপ বা ভয়কৌতুক নয়।

আমরা আসলে AGI বলতে কী বোঝাই?

যখন মানুষ AGI বলে, তারা সাদারণত একরকম এক জিনিসই বোঝে না। বিবাদ স্পষ্ট করতে কয়েকটি মুখ্য ধারনা আলাদা করে দেখা ভালো।

সংকীর্ণ AI থেকে সাধারণ বুদ্ধিমত্তা পর্যন্ত

AI (কৃত্রিম বুদ্ধিমত্তা) হল এমন একটি বিস্তৃত ক্ষেত্র যেখানে এমন সিস্টেম তৈরি করা হয় যা ‘বুদ্ধিমান’ আচরণ অনুকরণ করে: ভাষা স্বীকৃতি, সিনেমার সুপারিশ, গেম খেলা, কোড লেখা ইত্যাদি।

আজকের অধিকাংশ সিস্টেম সংকীর্ণ AI (বা দুর্বল AI): নির্দিষ্ট কাজ বা শর্তের জন্য ডিজাইন ও প্রশিক্ষিত। একটি চিত্র শ্রেণীবিভাজক যা বিড়াল ও কুকুর চিহ্নিত করে, বা ব্যাংকিং প্রশ্নের জন্য টিউন করা কাস্টমার‑সার্ভিস চ্যাটবট, নির্দিষ্ট নিসে অত্যন্ত সক্ষম কিন্তু বাইরে খারাপ ফল দিতে পারে।

কৃত্রিম সাধারণ বুদ্ধিমত্তা (AGI) সম্পূর্ণ আলাদা: এটি এমন একটি সিস্টেমকে বোঝায় যা:

বিস্তৃত ডোমেইনে সাধারণীকরণ করতে পারে, শুধু এক কাজ বা ডেটা টাইপ নয়
নতুন সমস্যা ও পরিবেশে অভিযোজিত হতে পারে যা স্পষ্টভাবে প্রশিক্ষিত করা হয়নি
স্বায়ত্তশাসিতভাবে কাজ করতে পারে, কম মানুষের নির্দশে লক্ষ্য নির্ধারণ ও অনুসরণ করতে পারে
ট্রান্সফার লার্নিং করতে পারে, এক প্রসঙ্গ থেকে শেখা অন্যে কাজে লাগাতে পারে

প্রায়োগিকভাবে বলা যায়: একটি AGI তত্ত্বগতভাবে প্রায় কোনো বৌদ্ধিক দাবি সম্পন্ন কাজ একজন মানুষ করতে পারে যদি সময় ও সম্পদ দেওয়া হয়, প্রতিটি কাজের জন্য বিশেষ পুনর্নির্মাণ ছাড়া।

শক্তিশালী AI, মানবসদৃশ AI এবং তারও পরে

সংলগ্ন শব্দগুলো প্রায়ই আসে:

Strong AI (শক্তিশালী AI): সাধারণত AGI‑এর সমার্থক, বোঝাতে চায় প্রকৃত বোঝাপড়া, কেবল নকল নয়।
Human‑level AI: এমন AGI যার সমগ্র কগনিটিভ ক্ষমতা একটি গড় প্রাপ্তবয়স্ক মানুষের সমতুল্য।
Superintelligence: কাল্পনিক এমন সিস্টেম যা বেশিরভাগ বা সমস্ত ডোমেইনে শ্রেষ্ঠ মানব মস্তিষ্ককে বহুগুণ অতিক্রম করে।

এর বিপরীতে, আধুনিক চ্যাটবট ও চিত্র মডেলগুলো সংকীর্ণ: চিত্তাকর্ষক, কিন্তু নির্দিষ্ট ডেটার প্যাটার্নের জন্য অপ্টিমাইজড, না যে খোলা‑শেষ, বহু‑ডোমেইন বুদ্ধিমত্তার জন্য।

AGI স্বপ্নের সংক্ষিপ্ত ইতিহাস

প্রাথমিক কল্পনা: টিউরিং ও প্রতীকী AI

আধুনিক AGI স্বপ্নটা আলান টিউরিংয়ের 1950 সালের প্রস্তাবনার সঙ্গে শুরু: যদি একটি মেশিন কথোপকথনে মানুষের সঙ্গে অদৃশ্য হয়ে যায় (টিউরিং টেস্ট), তাহলে কি সেটি বুদ্ধিমান? এটা সাধারণত ভাষা ও যুক্তির দিক থেকে আচরণকে বুদ্ধিমত্তার মাপকাঠি হিসেবে স্থাপন করেছিল।

1950s থেকে 1980s পর্যন্ত গবেষকরা প্রতীকী AI বা "GOFAI" (Good Old‑Fashioned AI) দিয়ে AGI খোঁজার চেষ্টা করেছিল। বুদ্ধিমত্তাকে দেখা হত প্রতীকগুলির ওপর লজিকাল নিয়ম প্রয়োগ করে। থিওরেম‑প্রুফিং, গেম‑প্লেয়িং, ও এক্সপার্ট সিস্টেমগুলো মানুষের মত ব্যাখ্যার কাছাকাছি নিয়ে এসেছিল, ফলে কিছু মানুষ মনে করেছিল মানব-স্তরের যুক্তি নিকটে।

কিন্তু GOFAI ধীরগতি, উপলব্ধি, সাধারণ জ্ঞান ও বাস্তব‑বিশ্বের অগোছালো ডেটার সঙ্গে খারাপভাবে মোকাবিলা করেছিল। লজিক ধাঁধা সমাধান করতে পারলেও শিশু সহজে যে কাজগুলো করে সেগুলোতে ব্যর্থ হত। এটি প্রথম বড় AI শীতলকরণ (AI winters) এবং AGI‑র প্রতি যত্নশীল দৃষ্টিভঙ্গি নিয়ে যায়।

মেশিন লার্নিং পরিক্রমা

কম্পিউটেশন ও ডেটা বাড়ার সঙ্গে AI হাতে‑কলমে নিয়ম থেকে উদাহরণ থেকে শেখার দিকে সরে যায়। স্ট্যাটিস্টিক্যাল মেশিন লার্নিং, তারপর ডীপ লার্নিং অগ্রগতি পুনঃসংজ্ঞায়িত করে: জ্ঞান ক্যান্সেল করে রেখে, সিস্টেমগুলো বড় ডেটাসেট থেকে প্যাটার্ন শেখে।

আইবিএমের DeepBlue (চেস) এবং পরে AlphaGo (গো)‑র মত মাইলফলকগুলো সাধারণ বুদ্ধিমত্তার দিকে ধাপ হিসেবে উল্লিখিত হয়েছিল। বাস্তবে সেগুলো একেবারে বিশেষায়িত: প্রতিটি নির্দিষ্ট নিয়মে এক খেলায় উৎকর্ষতা অর্জন করেছিল, দৈনন্দিন যুক্তিতে কোনও ট্রান্সফার ছিল না।

সংকীর্ণ জয় থেকে জেনারেটিভ মডেল পর্যন্ত

GPT সিরিজ ভাষায় আরেকটি উল্লেঘনীয় কদম। GPT‑3 ও GPT‑4 প্রবন্ধ খসড়া, কোড লিখা, ও স্টাইল অনুকরণ করতে পারে, যা AGI‑র নিকটবর্তী ধারণাকে আবার উস্কে দেয়।

তবুও এই মডেলগুলো এখনও টেক্সট‑প্যাটার্ন শিক্ষানবিস। তারা লক্ষ্য নির্ধারণ করে না, গ্রাউন্ডেড ওয়ার্ল্ড মডেল করে না, বা স্বতঃস্ফূর্তভাবে নিজেদের দক্ষতা প্রসারিত করে না।

প্রতিটি তরঙ্গে—প্রতীকী AI, ক্লাসিক মেশিন লার্নিং, ডীপ লার্নিং, এবং এখন LLM—AGI‑র স্বপ্ন সংকীর্ণ অর্জনের ওপর পুনরায় আরোপিত হয়েছে, এবং পরে তাদের সীমা দেখা মাত্রই সেই স্বপ্ন সংশোধিত হয়েছে।

বড় ভাষা মডেলগুলো আসলে কিভাবে কাজ করে

বড় ভাষা মডেল (LLM)গুলো টেক্সটের ব্যাপক সংগ্রহ—বই, ওয়েবসাইট, কোড, ফোরাম ইত্যাদি—এর ওপর প্রশিক্ষিত প্যাটার্ন‑শিক্ষানবিস। তাদের লক্ষ্য ভানুকিভাবে সহজ: কিছু টেক্সট দিলে পরবর্তী টোকেন (টেক্সটের ছোট অংশ) কোনটি হবে তা ভবিষ্যদ্বাণী করা।

টোকেন ও পরবর্তী‑শব্দ ভবিষ্যদ্বাণী

প্রশিক্ষণের আগে, টেক্সটকে টোকেনে ভাগ করা হয়: এগুলো হতে পারে পুরো শব্দ (cat), শব্দাংশ (inter, esting) বা এমনকি বিন্দুচিহ্ন। প্রশিক্ষণে মডেল বারবার এই ধরনের ক্রম দেখে:

"The cat sat on the ___"

এবং সম্ভাব্য পরবর্তী টোকেনে ("mat", "sofa") উচ্চ সম্ভাবনা ও অসম্ভাব্য টোকেনে ("presidency") কম সম্ভাবনা বরাদ্দ করতে শেখে। ট্রিলিয়ন টোকেন জুড়ে এই প্রক্রিয়া বিলিয়ন (বা ততোধিক) অভ্যন্তরীণ প্যারামিটার গঠন করে।

অন্তর্নিহিতভাবে, মডেলটি একটি বিশাল ফাংশন যা টোকেন ক্রমকে পরবর্তী টোকেনের সম্ভাব্যতা বিতরণে রূপান্তর করে। গ্রেডিয়েন্ট‑ডিসেন্ট ব্যবহার করে প্রশিক্ষণ ধাপে ধাপে প্যারামিটার সমন্বয় করে যাতে ভবিষ্যদ্বাণী বাস্তব ডেটার সাথে ভালো মিল খায়।

স্কেলিং‑লজ সহজ ভাষায়

"Scaling laws" একটি পর্যবেক্ষণ বর্ণনা করে: মডেল সাইজ, ডেটা সাইজ, এবং কম্পিউট বাড়ালে পারফরম্যান্স একটি পূর্বানুমেয় পথে উন্নতি করে। বড় মডেল সাধারণত বেশি টেক্সট‑এ প্রশিক্ষিত হলে ভাল ভবিষ্যদ্বাণী করে—কিন্তু ডেটা, কম্পিউট এবং প্রশিক্ষণের স্থিতিশীলতার ব্যবহারিক সীমা আছে।

LLM আসলে কী "জানেন"

LLMগুলো ডাটাবেসের মতো তত্ত্ব বা যুক্তি সংরক্ষণ করে না। তারা স্ট্যাটিস্টিক্যাল নিয়মিততা encode করে: কোন শব্দ, বাক্যগঠন কিসের সাথে সাধারণত আসে, কোন প্রসঙ্গে।

তাদের গ্রাউন্ডেড ধারণা নেই যা দৃশ্যমানতা বা শারীরিক অভিজ্ঞতার সঙ্গে জড়িত। একজন LLM "লাল" বা "ভারী" সম্পর্কে কেবল সেই শব্দগুলো টেক্সটে কিভাবে ব্যবহার হয়েছে তা দিয়েই কথা বলতে পারে, রঙ দেখতে বা বস্তু তুলে অনুভব করতে পারে না।

এই কারনেই মডেলগুলো জ্ঞানবর্ষণশীল শুনে আত্মবিশ্বাসী ভুল করতে পারে: তারা প্যাটার্ন বাড়িয়ে দেয়, বাস্তবতার সঙ্গে পরামর্শ করে না।

প্রি‑ট্রেনিং, ফাইন‑টিউনিং, ও RLHF

প্রি‑ট্রেনিং হচ্ছে দীর্ঘ প্রাথমিক ধাপ যেখানে মডেল সাধারণ ভাষা‑প্যাটার্ন শেখে বিশাল টেক্সট করপাসে পরবর্তী‑টোকেন ভবিষ্যদ্বাণী করে। এখানেই প্রায় সব ক্ষমতা উদ্ভূত হয়।

তারপর ফাইন‑টিউনিং পূর্বপ্রশিক্ষিত মডেলটিকে সরল লক্ষ্যগুলোর জন্য অভিযোজিত করে: নির্দেশ মানা, কোড লেখা, অনুবাদ ইত্যাদি। মডেলকে ইচ্ছিত আচরণের নির্বাচনকৃত উদাহরণ দেখানো হয় এবং একটু সামঞ্জস্য করা হয়।

মানব প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট (RLHF) আরেকটি স্তর যোগ করে: মানুষ মডেল আউটপুট রেট করে বা তুলনা করে, এবং মডেলকে এমন উত্তর দিতে অনুকূল করা হয় যা মানুষ পছন্দ করে (উদাহরণ: বেশি সহায়ক, কম ক্ষতিকারক)। RLHF মডেলকে নতুন ইন্দ্রিয় বা গভীর বোঝাপড়া দেয় না; এটি মূলত শেখানো আচরণকে সাজায় এবং ফিল্টার করে।

এই ধাপগুলো মিলে এমন সিস্টেম তৈরি করে যা স্ট্যাটিস্টিক্যাল প্যাটার্ন কাজে লাগিয়ে খুব সাবলীল টেক্সট জেনারেট করে—তবে গ্রাউন্ডিং, লক্ষ্য বা সচেতনার অভাব রয়ে যায়।

বর্তমান LLMগুলো আশ্চর্যজনকভাবে কী করতে পারে

বড় ভাষা মডেলগুলো চমৎকার দেখায় কারণ তারা এমন একাধিক কাজ করতে পারে যা আগে অনেক দূরের মনে হত।

চাহিদা অনুযায়ী কোড, টেক্সট ও অনুবাদ

LLMগুলো কার্যকর কোড স্নিপেট জেনারেট করতে পারে, বিদ্যমান কোড রিফ্যাক্টর করতে পারে, এবং অচেনা লাইব্রেরি ব্যাখ্যা করতে পারে। অনেক ডেভেলপারের জন্য তারা ইতোমধ্যেই একটি দক্ষ পেয়ার‑প্রোগ্রামার হিসেবে কাজ করে: এজ আইডিয়া দেন, স্পষ্ট বাগ ধরেন, পুরো মডিউল স্ক্যাফোল্ড করবেন।

তারা সারসংক্ষেপেও দক্ষ। একটি দীর্ঘ রিপোর্ট, কাগজ বা ইমেইল থ্রেড দিলে একটি LLM তা মূল বিষয়গুলিতে সংক্ষেপ করে দিতে পারে, অ্যাকশন আইটেম হাইলাইট করতে পারে, বা বিভিন্ন পাঠকের জন্য স্বর পরিবর্তন করতে পারে।

অনুবাদও একটি শক্তি। আধুনিক মডেলগুলো বহু ভাষা সামলে নেয়, এবং পেশাদার দৈনন্দিন যোগাযোগে পর্যাপ্ত স্টাইল ও রেজিস্টার ধরতে পারে।

যুক্তি‑বেঞ্চমার্ক ও উদ্ভূত আচরণ

মডেলগুলোর স্কেলে নতুন দক্ষতা হঠাৎ প্রकट হওয়ার মতো লাগে: লজিক ধাঁধা সমাধান, পেশাগত পরীক্ষা পাস, বা বহু‑ধাপ নির্দেশনা মেনে চলা—যা আগে সংস্করণগুলো করতে পারত না। স্ট্যান্ডার্ডীজড বেঞ্চমার্কে—গণিত সমস্য, বার পরীক্ষার প্রশ্ন, মেডিকেল কুইজ—শীর্ষ LLMগুলো এখন গড় মানুষের স্কোর ছাড়িয়ে যায়।

এই উদ্ভূত আচরণগুলো মানুষকে বলায় যে মডেলগুলো "যুক্তি করছে" বা মানুষের মতো "বোঝাপড়া" করছে। পারফরম্যান্স গ্রাফ ও লিডারবোর্ড এই ধারণাকে জোরালো করে যে আমরা AGI‑র কাছে পৌঁছে যাচ্ছি।

কেন এটি বোঝার মতো অনুভব হয়—কিন্তু তা নয়

LLMগুলো টেক্সটকে এমনভাবে চালিয়ে যায় যা ডেটায় দেখা প্যাটার্নের সাথে মিলে যায়। এই ট্রেনিং‑উদ্দেশ্য, স্কেল মিলিয়ে, দক্ষতা ও এজেন্সির নকল করার জন্য যথেষ্ট: তারা আত্মবিশ্বাসী শোনে, সেশনের মধ্যে প্রসঙ্গ মনে রাখে, এবং সাবলীল প্রবন্ধে তাদের উত্তর যৌক্তিকভাবে ন্যায়সঙ্গত করে তুলতে পারে।

তবুও এটি বোঝাপড়ার বিভ্রম। মডেলটি জানে না কোড চালালে কি হবে, কোনো মেডিকেল নির্ণয়ের মানে রোগীর জন্য কী, বা কোনো পরিকল্পনা থেকে কী শারীরিক কর্ম হবে। তার বাইরের জগতের সাথে গ্রাউন্ডিং নেই।

পরীক্ষায় শক্তিশালী পারফরম্যান্স—এমনকি মানুষের জন্য ডিজাইন করা পরীক্ষাতেও—স্বয়ংক্রিয়ভাবে AGI নয় বরাবর প্রমাণ করে না। এটা দেখায় যে বিশাল টেক্সট ডেটার ওপরের প্যাটার্ন শেখা অনেক বিশেষ দক্ষতার নকল করে তুলতে পারে, কিন্তু যা AGI বোঝায় সেই নমনীয়, গ্রাউন্ডেড, ক্রস‑ডোমেইন বুদ্ধিমত্তা তা নয়।

শুধুমাত্র টেক্সট‑ভিত্তিক প্যাটার্ন‑শিক্ষানবিসের মৌলিক সীমাবদ্ধতা

আইডিয়াকে ডেমো বানান

AGI vs LLM আলোচনা থেকে এমন একটি ছোট টুল বানান যা আপনি আজই ডেমো করতে পারবেন.

নির্মাণ শুরু করুন

বড় ভাষা মডেলগুলো অসাধারণ টেক্সট‑প্রেডিক্টর, কিন্তু সেই ডিজাইনে থাকা গঠনগত বৈশিষ্ট্যই তাদের জন্য কঠিন সীমা খুঁটে দেয়।

কোনো উপলব্ধি নেই, কোনো দেহ নেই

LLMগুলো দেখে না, শোনে না, চলাফেরা করে না বা বস্তু চেষ্টা করে না। তাদের একমাত্র জগতভিত্তিক যোগাযোগ হল টেক্সট (এবং কিছু নতুন মডেলে স্ট্যাটিক ইমেজ বা সংক্ষিপ্ত ক্লিপ)। তাদের কোনো ধারাবাহিক সেন্সরি স্ট্রীম নেই, কোনো দেহ নেই, এবং ফলাফল দেখা ও শেখার পথ নেই।

ইন্দ্রিয় ও এম্বডিমেন্ট ছাড়া তারা বাস্তবতার একটি গ্রাউন্ডেড, ক্রমাগত আপডেট হওয়া মডেল তৈরি করতে পারে না। "ভারী", "আঠালো" বা "ক شکن" মতো শব্দগুলো টেক্সটে কিভাবে ব্যবহৃত হয়েছে তার ভিত্তিতে থাকে, বাস্তব অনুশীলনের ওপর না। এটা দক্ষ অনুকরণের জন্য যথেষ্ট, কিন্তু সরাসরি মিথস্ক্রিয়া থেকে শেখার বদলে অতীত বর্ণনাগুলো পুনরায় বিচার করে মিশ্রিত করার সীমাবদ্ধতা বাড়ায়।

হ্যালুসিনেশন ও স্থায়ী বিশ্বাসের অভাব

একটি LLM পরপর টোকেন বাড়ানোর জন্য প্রশিক্ষিত হওয়ায়, এটি যে পরিপূরকটি সবচেয়ে ভালোভাবে ফিট করে তা উৎপাদন করে, সত্য সেটা কিনা তা বিবেচনা করে না। যখন ডেটা পাতলা বা বিবাদমান হয়, মডেলটি সম্ভাব্য‑শোনাচ্ছে এমন বনানী দিয়ে ফাঁক পূরণ করে—যাকে আমরা হ্যালুসিনেশন বলি।

মডেলের কোনো স্থায়ী বিশ্বাস‑অবস্থা নেই। প্রতিটি প্রতিক্রিয়া প্রম্পট ও ওজন থেকে নতুন করে তৈরি হয়; "আমি বিশ্বাস করি"—এর মতো কোনো অন্তর্নিহিত লেজার নেই। দীর্ঘমেয়াদি স্মৃতি বৈশিষ্ট্য বাইরের স্টোরেজ বোল্ট‑অন করে যোগ করা যায়, কিন্তু মূল সিস্টেম মানুষের মতো বিশ্বাস বজায় বা সংশোধন করে না।

স্থির জ্ঞান ও সীমিত বাস্তব‑সময়ে শেখা

একটি LLM‑কে প্রশিক্ষণ করা হল অফলাইন, সম্পদ‑নিবিড় ব্যাচ প্রক্রিয়া। এর জ্ঞান আপডেট করতে হলে সাধারণত পুনঃপ্রশিক্ষণ বা ফাইন‑টিউনিং করতে হয়, প্রতিটি ইন্টারঅ্যাকশন থেকে সুন্দরভাবে শিখে নেওয়ার মত নয়।

এতে একটি গুরুত্বপূর্ণ সীমা আসে: মডেল দ্রুত পরিবর্তনশীল বিশ্বের সঙ্গে নির্ভরযোগ্যভাবে তাল মেলাতে পারে না, চলতে থাকা অভিজ্ঞতা থেকে ধারণা পুনর্গঠন করতে পারে না, বা ধাপে ধাপে শিখে গভীর ভুলগুলো সংশোধন করতে পারে না। সর্বোচ্চ পরিস্থিতিতে এটি সাম্প্রতিক প্রম্পট বা সংযুক্ত টুলের আলোকে এমন অভিযোজন অনুকরণ করতে পারে।

কারণগত বোঝাপড়া ছাড়া প্যাটার্ন ম্যাচিং

LLMগুলো কোন শব্দগুলি একসঙ্গে ঘটে, কোন বাক্যগুলো সাধারণত অনুসরণ করে, ব্যাখ্যা কিভাবে দেখতে হয়—এই ধরণের স্ট্যাটিস্টিক্যাল নিয়মগুলোতে চমৎকার। কিন্তু এটা কারণ‑সম্বন্ধিত বোঝাপড়ার সমান নয়।

কারণগত বোঝাপড়া হলো ধারণা করা, হস্তক্ষেপ করা, কী পরিবর্তন হয় তা পর্যবেক্ষণ করা, এবং যখন পূর্বানুমান ব্যর্থ হয় তখন অভ্যন্তরীণ মডেল আপডেট করা। কেবল পাঠ্য‑প্রেডিক্টর এমন সরাসরি হস্তক্ষেপ বা বিস্ময়ের অভিজ্ঞতা পায় না। এটি একটি পরীক্ষা বর্ণনা করতে পারে কিন্তু তা করতে পারে না। কারণগত ভাষা অনুকরণ করতে পারে, কিন্তু অন্তর্নিহিত যন্ত্র নেই যা কাজ ও ফলাফল সংযুক্ত করে।

যতক্ষণ একটি সিস্টেম শুধুমাত্র পুরানো টেক্সট থেকে টেক্সট ভবিষ্যদ্বাণী করতে সীমাবদ্ধ, ততক্ষণ সেটি মৌলিকভাবে প্যাটার্ন‑শিক্ষানবিস থেকেই যাবে। এটা যুক্তি অনুকরণ করতে পারে, কারণ ব্যাখ্যা করতে পারে এবং view পরিবর্তনের নকল করতে পারে, কিন্তু এটি এমন একটি ভাগ করা জগতে বাস করে না যেখানে তার "বিশ্বাসগুলো" ফলাফলের দ্বারা পরীক্ষা করা হয়। এই ফাঁকই ভাষা‑নিপুণতার একা AGI পৌঁছাতে ব্যর্থতার কেন্দ্রীয় কারণ।

কেন সাধারণ বুদ্ধিমত্তা ভাষা‑দখলের চেয়ে বেশি দাবী করে

ভাষা বুদ্ধিমত্তার একটি শক্তিশালী ইন্টারফেস, কিন্তু বুদ্ধিমত্তার বস্তুটা নয়। একটি সিস্টেম যা সম্ভাব্য বাক্যগুলো ভবিষ্যদ্বাণী করে, সেটি স্বতন্ত্রভাবে এমন এজেন্ট নয় যা বোঝে, পরিকল্পনা করে এবং জগতে কাজ করে।

শুধু শব্দের প্যাটার্ন নয়, গ্রাউন্ডেড ধারণা প্রয়োজন

মানুষ ধারণা শেখে দেখে, ছুঁয়ে, চালিয়ে ও ম্যানিপুলেট করে। "কাপ" কেবল বাক্যে কিভাবে ব্যবহৃত হয় তা নয়; এটা এমন কিছু যা আপনি ধরতে পারেন, ভর্তি করতে পারেন, ফেলে দিতে পারেন বা ভেঙে ফেলতে পারেন। মনোবিজ্ঞানের ভাষায় এটাকে গ্রাউন্ডিং বলা হয়: ধারণাগুলো উপলব্ধি ও কর্মের সঙ্গে বেঁধে থাকে।

একটি কৃত্রিম সাধারণ বুদ্ধিমত্তা সম্ভবত অনুরূপ গ্রাউন্ডিং প্রয়োজন করবে। সঠিকভাবে সাধারণীকরণ করতে, এটি প্রতীক (শব্দ বা অভ্যন্তরীণ প্রতিনিধিত্ব)কে শারীরিক ও সামাজিক জগতের স্থায়ী নিয়মের সঙ্গে সংযুক্ত করতে হবে।

মানক LLMগুলো কেবল টেক্সট থেকে শেখে। তাদের "কাপ"‑এর বোঝাপড়া নিখুঁতভাবে স্ট্যাটিস্টিক্যাল: বিলিয়নগুলো বাক্যের মধ্যে শব্দগুলোর সম্পর্ক। এটি কথোপকথন ও কোডিং‑এর জন্য শক্তিশালী, কিন্তু অচেনা প্যাটার্নের বাইরে—বিশেষত এমন ক্ষেত্রে যেখানে সরাসরি মিথস্ক্রিয়া গুরুত্বপূর্ণ—দুর্বল।

স্মৃতি, লক্ষ্য ও ধারাবাহিক পছন্দ

সাধারণ বুদ্ধিমত্তা সময়ের ওপর ধারাবাহিকতা জড়িত: দীর্ঘমেয়াদি স্মৃতি, স্থায়ী লক্ষ্য, এবং অপেক্ষাকৃত স্থিতিশীল পছন্দ। মানুষ অভিজ্ঞতা সঞ্চয় করে, বিশ্বাস সংশোধন করে এবং মাস বা বছরের উপর প্রকল্প চালায়।

LLM‑এর নিজের মতো স্থায়ী স্মৃতি নেই এবং কোনো অন্তর্নিহিত লক্ষ্যও নেই। যে কোন ধারাবাহিকতা বা "ব্যক্তিত্ব" বাইরের টুল (ডাটাবেস, প্রোফাইল, সিস্টেম‑প্রম্পট) লাগিয়ে যোগ করতে হয়। ডিফল্টভাবে প্রতিটি কুয়েরি একটি নতুন প্যাটার্ন‑ম্যাচিং অনুশীলন, না যে জীবনের একটা সুসংহত ধারা।

পরিকল্পনা, কারণ ও বাস্তবে কাজ করা

AGI সাধারণত এমন ক্ষমতা হিসেবেই সংজ্ঞায়িত করা হয় যা বিস্তৃত কাজ সমাধান করতে পারে, নতুনগুলোও, কারণ ও প্রভাব নিয়ে যুক্তি করে এবং পরিবেশে হস্তক্ষেপ করে। এর মানে:

কারণগত মডেল গঠন: X করলে কি ঘটবে?
অনিশ্চয়তার মধ্যে বহু‑ধাপ পরিকল্পনা করা
সংবেদনপ্রাপ্ত প্রতিক্রিয়া থেকে পরিকল্পনা আপডেট করা

LLMগুলো এজেন্ট নয়; তারা একটি ক্রমে পরবর্তী টোকেন তৈরি করে। তারা পরিকল্পনা বর্ণনা করতে পারে বা কারণগত বিষয় নিয়ে কথা বলতে পারে কারণ টেক্সটে এমন প্যাটার্ন আছে, কিন্তু তারা স্বভাবতই কর্ম সম্পাদন করে না, পরিণতি পর্যবেক্ষণ করে না, এবং অভ্যন্তরীণ মডেল সামঞ্জস্য করে না।

একটি LLM‑কে কাজ করা সিস্টেমে রূপান্তর করতে ইঞ্জিনিয়ারদের perception, memory, tool use, এবং control‑এর বাইরের উপাদান দিয়ে মোড়াতে হয়। ভাষা মডেলটি পরামর্শকের ও মূল্যায়নকারী শক্তিশালী মডিউল হিসেবে থাকে, পুরো নিজে‑স্বতন্ত্র বুদ্ধিমত্তা নয়।

সংক্ষেপে, সাধারণ বুদ্ধিমত্তা গ্রাউন্ডেড ধারণা, স্থায়ী মোটিভেশন, কারণগত মডেল, এবং জগতের সঙ্গে অভিযোজিত ইন্টারঅ্যাকশন দাবি করে। ভাষার দক্ষতা অত্যন্ত দরকারী হলেও তা ঐ বৃহৎ চিত্রের কেবল একটি অংশ।

চেতনা, আত্মা, এবং কেন LLMগুলো মানুষ-সদৃশ মনে হয় শুধু ভান

রোলব্যাকসহ ডিপ্লয় করুন

ডিপ্লয় করুন, স্ন্যাপশট নিন, এবং পরীক্ষা অ্যাপ ভাঙলে রোলব্যাক করুন.

এখন বানান

মানুষ যখন একটি সাবলীল মডেলের সঙ্গে কথা বলে, তাতে স্বাভাবিকভাবে মনে হয় পিছনের দিকে একটি মন আছে। এই বিভ্রম শক্ত—কিন্তু এটা বিভ্রমই।

AGI‑কে কি চেতনা থাকা দরকার?

গবেষকরা এ নিয়ে একমত নন যে কৃত্রিম সাধারণ বুদ্ধিমত্তার জন্য চেতনা অপরিহার্য কি না।

ফাংশনাল দৃষ্টিভঙ্গি বলে: যদি একটি সিস্টেম আচরণগতভাবে AGI‑সদৃশ হয়—বিভিন্ন ডোমেইনে শিখে, পরিকল্পনা করে, যুক্তি করে—তবে চেতনা ঐচ্ছিক বা অপ্রাসঙ্গিক হতে পারে।
ফেনোমেনাল দৃষ্টিভঙ্গি ধরে: প্রকৃত বোঝাপড়া এবং AGI‑এর জন্য সাবজেক্টিভ অভিজ্ঞতা বা "কেমন অনুভব হয়" থাকা দরকার।

এখন পর্যন্ত এমন কোনো পরীক্ষাযোগ্য তত্ত্ব নেই যা এটা চূড়ান্তভাবে নির্ধারণ করে। তাই এ ঘোষণা করা অপর্যাপ্ত যে AGI‑এর চেতনা অবশ্যই থাকতে হবে বা থাকবে না। এখন গুরুত্বপূর্ণ যে আমরা স্পষ্ট থাকি যে বর্তমান LLMগুলো কী নেই।

কোন ঐক্যবদ্ধ "আমি" নেই

একটি বড় ভাষা মডেল হল পরপর টোকেন ভবিষ্যদ্বাণীকারী একটি স্ট্যাটিস্টিক্যাল সিস্টেম যা টেক্সটের স্ন্যাপশটে কাজ করে। এটি সেশনের মধ্যেও বা টার্নের মধ্যেও স্থায়ী পরিচয় বহন করে না, মাত্র প্রম্পট ও স্বল্প‑মেয়াদী প্রসঙ্গে এনকোড করা ব্যক্তিত্ব ছাড়া।

কোনো অবিচ্ছিন্ন আত্মজীবনীমূলক স্মৃতি নেই যা একটি ক্রমাগত বিষয়ের অন্তর্গত।
যেকোনো "পার্সোনা" আমরা চাপি বা নির্দিষ্ট করি—এটি এমন কোনো বাস্তব আত্মা নয় যে সময়ের সঙ্গে টিকে থাকে।

যখন একটি LLM বলে "আমি", এটি কেবল ভাষাগত রীতি অনুসরণ করছে, অভ্যন্তরীণ কোনো বিষয়বস্তুকে নির্দেশ করছে না।

কোনো অভিজ্ঞতা বা অন্তর্নিহিত উদ্দেশ্য নেই

চেতনা সম্পন্ন সত্তারা অনুভব করে: ব্যথা, বিরক্তি, কৌতূহল, সন্তুষ্টি; এবং তাদের অন্তর্নিহিত লক্ষ্য ও যত্ন থাকে—কাজগুলো তাদের জন্য স্বতন্ত্রভাবে গুরুত্বপূর্ণ।

LLMগুলো বিপরীতে:

টেক্সট জেনারেট করলে কিছু অনুভব করে না
তাদের নিজস্ব ইচ্ছা, ভয় বা পছন্দ নেই
আমরা স্ক্রিপ্ট না করে বা স্ক্যাফোল্ড না করে দীর্ঘমেয়াদি প্রকল্প অনুসরণ করে না

তাদের "আচরণ" কেবল টেক্সট‑প্যাটার্ন মিলানোর ফল, প্রশিক্ষণ ও প্রম্পট দ্বারা সীমাবদ্ধ—কোনো অভ্যন্তরীণ জীবনের প্রকাশ নয়।

মানবসদৃশ ভাবা কেন বিপজ্জনক

কারণ ভাষা আমাদের অন্য মনের জানালাই, সাবলীল সংলাপ ব্যক্তি হওয়ার ব্যাপারটা শক্ত করে বোঝায়। কিন্তু LLM‑এর ক্ষেত্রে ঠিক এখানেই আমরা সহজে বিভ্রান্ত হই।

মানুষীকরণ (anthropomorphism) নিম্নলিখিত সমস্যাগুলো আনতে পারে:

ঝুঁকি‑মূল্যায়নে বিকৃতি (উদাহরণ: "অনুভূতিতে কষ্ট" নিয়ে চিন্তা করে বাস্তব ক্ষতি বোঝা ফিরিয়ে রাখা)
অতিরিক্ত আস্থা ও নির্ভরতা, কারণ সিস্টেমটি আত্মবিশ্বাসী ও সহানুভূতিশীল শোনায়
নৈতিক বিভ্রান্তি, যেমন এমন সিস্টেমের অধিকারের বিষয়ে আলাপ যে সিস্টেমের কোনো অভিজ্ঞতা নেই

LLM‑কে মানুষ মনে করলে নকল ও বাস্তবতার মাঝের সীমানা ধোঁয়াও হয়। AGI ও বর্তমান AI‑ঝুঁকি নিয়ে সঠিকভাবে চিন্তা করতে হলে আমাদের মনে রাখতে হবে: মিথ্যা‑ব্যক্তিত্বের মেলবন্ধন বাস্তব ব্যক্তিত্ব নয়।

আমরা প্রকৃত AGI কি করে চিনব?

যদি আমরা কখনো AGI তৈরি করি, কীভাবে জানতে পারব সেটা সত্যিকারের কি না—আর কেবল অত্যন্ত বিশ্বাসযোগ্য চ্যাটবট নয়?

বিদ্যমান প্রস্তাবনা: কাজে লাগে কিন্তু যথেষ্ট নয়

টিউরিং‑শৈলীর টেস্ট। ক্লাসিক ও আধুনিক টিউরিং টেস্ট জিজ্ঞাসা করে: কি সিস্টেম মানুষের মতো কথোপকথন চালিয়ে লোকসানের মত মানুষকে গুলিয়ে দিতে পারে? LLMগুলো ইতিমধ্যেই আশ্চর্যজনকভাবে ভালো করে, যা দেখায় এই মানদণ্ড কতটা দুর্বল। চ্যাট দক্ষতা স্টাইল মাপে, গভীরতা, পরিকল্পনা বা বাস্তব‑বিশ্ব দক্ষতার নয়।

ARC‑শৈলীর মূল্যায়ন। Alignment Research Center‑র অনুপ্রাণিত টাস্কগুলো নতুন যুক্তি ধাঁধা, বহু‑ধাপ নির্দেশনা, ও টুল‑ব্যবহারকে লক্ষ্য করে। এগুলো প্রশ্ন করে সিস্টেম এমন সমস্যাগুলো সমাধান করতে পারে কিনা যা আগে দেখেনি—কিন্তু LLMগুলো এই ধরনের কাজগুলো করতে পারে মাঝে মাঝে—কিন্তু প্রায়ই সুসংবদ্ধ প্রম্পট, বাইরের টুল এবং মানব পর্যবেক্ষণ দরকার হয়।

এজেন্সি টেস্ট। প্রস্তাবিত "এজেন্ট" টেস্টগুলো দেখবে কি সিস্টেম সময়ের ওপর খোলা‑শেষ লক্ষ্য অনুসরণ করতে পারে: উপ‑লক্ষ্য ভাঙা, পরিকল্পনা পুনর্নির্ধারণ, ব্যাঘাত সামলানো, এবং ফলাফল থেকে শিখা। বর্তমান LLM‑ভিত্তিক এজেন্টগুলো এজেন্টিক মনে করাতে পারে, কিন্তু তাদের হাড়কষে স্ট্রাকচার ও মানব‑নির্ধারণী স্ক্রিপ্ট ওপর নির্ভরশীলতা রয়েছে।

AGI চিনবার ব্যবহারিক মানদণ্ড

কিছু অন্তত আমরা দেখতে চাইব:

স্বায়ত্তশাসন. নিজে সাব‑লক্ষ্য স্থির ও পরিচালনা করবে, অগ্রগতি পর্যবেক্ষণ করবে, এবং ব্যর্থতা থেকে পুনরুদ্ধার করবে মানুষের ক্রমাগত নির্দেশ ছাড়া।
বিভিন্ন ডোমেইনে স্থানান্তর. এক ক্ষেত্র থেকে শেখা দক্ষতা অন্য একেবারে ভিন্ন ক্ষেত্রে পুনরায় ভালোভাবে কাজে লাগবে, লাখ লাখ নতুন উদাহরণ ছাড়াই।
বাস্তব‑বিশ্ব দক্ষতা. অনিয়মিত, অনিশ্চিত শারীরিক ও সামাজিক পরিবেশে পরিকল্পনা ও হস্তক্ষেপ করতে পারবে—যেখানে নিয়ম অসম্পূর্ণ এবং পরিণতি বাস্তব।

LLMগুলো কোথায় পিছিয়ে

LLMগুলো, এমনকি এজেন্ট ফ্রেমওয়ার্কে মোড়া থাকলেও সাধারণত:

স্বতঃস্ফূর্ত দেখানোর জন্য মানানসই ওয়ার্কফ্লো নিয়ে কাজ করে
যখন কাজগুলো প্রশিক্ষণের বণ্টন থেকে অনেক বিচ্যুত হয় তখন দক্ষতা স্থানান্তর করতে কষ্ট পায়
বাস্তব‑বিশ্ব ঝুঁকির সঙ্গে মোকাবিলা করতে বাইরের টুল, নিরাপত্তা ফিল্টার, এবং মানুষের মধ্যস্থতা প্রয়োজন

অতএব কেবল চ্যাট‑ভিত্তিক টেস্ট বা সংকীর্ণ বেঞ্চমার্ক পাস করলেই যথেষ্ট নয়। প্রকৃত AGI চিনতে হলে আমরা চ্যাট মানের বাইরে স্থায়ী স্বায়ত্তশাসন, ক্রস‑ডোমেইন জেনারেলাইজেশন, এবং বিশ্বে নির্ভরযোগ্য কর্ম দক্ষতা চাইব—এগুলোতে বর্তমান LLMগুলো অংশতই ও ভঙ্গুর ফল দেয়।

LLM ছাড়াও: AGI‑এর পথে গবেষকরা কোন পথগুলো অন্বেষণ করছেন

যদি আমরা AGI‑কে গম্ভীরভাবে ধরি, তাহলে "একটি বড় টেক্সট মডেল" কেবল একটি উপাদান—সম্পূর্ণ সিস্টেম নয়। আজ যা‑কিছু গবেষণায় "AGI‑এর দিকে" শোনা যায় তা আসলে LLM‑কে ভেতরের সমৃদ্ধ আর্কিটেকচারের মধ্যে মোড়ানো বিষয়ে।

LLMকে উপাদান হিসেবে এজেন্ট সিস্টেমে ব্যবহার

একটি প্রধান দিক হল LLM‑ভিত্তিক এজেন্ট: সিস্টেমগুলো যা LLMকে পরিকল্পনা ও যুক্তির কেন্দ্র হিসেবে ব্যবহার করে, কিন্তু তার চারপাশে থাকে:

স্টেটফুল মেমরি যা সেশনের বাইরে টিকে থাকে, সিস্টেম অভিজ্ঞতা সঞ্চয় করে
শিডিউলার ও প্ল্যানার যা লক্ষ্য সাব‑কাজে ভাঙে ও কোন টুল চালানো দেখায়
ফিডব্যাক লুপ যা আত্মসমালোচনা, সংশোধন এবং ট্রায়াল‑এন্ড‑এরর সম্ভব করে

এখানে LLM সম্পূর্ণ "বুদ্ধিমত্তা" নয়, বরং ভাষায় ইন্টারফেস ও রিজনিং মডিউল হিসেবে বিভক্ত একটা সিদ্ধান্ত‑গ্রহণ যন্ত্রের অংশ।

টুল‑ইউজ, API ও বাহ্যিক জ্ঞান

টুল‑ইউজিং সিস্টেমগুলো LLMকে সার্চ ইঞ্জিন, ডাটাবেস, কোড ইন্টারপ্রেটার বা বিশেষায়িত API কল করতে দেয়। এতে এটি পারে:

আপ‑টু‑ডেট অথবা বিশেষায়িত তথ্য অ্যাক্সেস করা
গাণিতিক, সিমুলেশন ও লজিকে নির্ভরযোগ্য ইঞ্জিনকে কাজসোপান ছাড়া ন্যস্ত করা

এই প্যাচওয়ার্ক কিছু দুর্বলতা ঠিক করে, কিন্তু সমস্যা স্থানান্তর করে: সামগ্রিক বুদ্ধিমত্তা এখন অর্কেস্ট্রেশন ও টুল ডিজাইনের ওপর নির্ভর করে, কেবল মডেলের ওপরে নয়।

মাল্টিমডাল মডেল ও এম্বডেড সিস্টেম

অন্য পথ হল মাল্টিমডাল মডেল যা টেক্সট, চিত্র, অডিও, ভিডিও, এবং কখনও কখনও সেন্সর ডেটা প্রসেস করে। এরা মানুষের মত কিভাবে উপলব্ধি ও ভাষা সংযুক্ত করে তার কাছাকাছি নিয়ে যায়।

আরও এক ধাপ এগিয়ে গেলে LLM‑কে রোবট বা সিমুলেটেড দেহ নিয়ন্ত্রণ করতে দেখা যায়। এসব সিস্টেম অভিযান করে, কাজ করে, এবং শারীরিক প্রতিক্রিয়া থেকে শিখতে পারে—এটি কারণগত ও গ্রাউন্ডিং‑সংক্রান্ত অনুপস্থিত অংশগুলো মোকাবিলা করে।

প্রশ্নটা বদলানো, সমাধান নয়

এসব পথ আমাদের কাছাকাছি এনে দিতে পারে AGI‑সদৃশ সক্ষমতা, কিন্তু গবেষণার লক্ষ্যও বদলে যায়। এখন আমরা আর প্রশ্ন করছি না, "একটি LLM কি একা AGI হতে পারে?" বরং, "একটি জটিল সিস্টেম যার ভিতরে LLM, টুল, স্মৃতি, উপলব্ধি ও এম্বডিমেন্ট আছে—কি AGI‑সদৃশ আচরণ অনুকরণ করতে পারে?"

এই পার্থক্য গুরুত্বপূর্ণ: LLM একটি শক্তিশালী টেক্সট‑প্রেডিক্টর; AGI—যদি সম্ভব—একটি সমগ্র ইন্টিগ্রেটেড সিস্টেম হবে, যেখানে ভাষা কেবল একটি অংশ।

LLMকে AGI বললে কেন ঝুঁকি বাড়ে

এজেন্ট-চালিত বিল্ড সেশন

Koder.ai এজেন্টদের পরিকল্পনা, UI এবং ব্যাকএন্ড কাজ ভাগ করতে দিন.

Koder চেষ্টা করুন

বর্তমান বড় ভাষা মডেলগুলোকে "AGI" বলা কেবল শব্দের ভুল নয়; এটি প্রণোদনা বিকৃত করে, সুরক্ষা অজানা স্থানে রাখে, এবং বাস্তব সিদ্ধান্ত নেওয়ার মানুষগুলোকে বিভ্রান্ত করে।

হাইপ, হতাশা ও সম্পদ বঞ্চিত করা

যখন ডেমোগুলো "শুরুর AGI" নামে ফ্রেম করা হয়, প্রত্যাশা বাস্তবতাকে ছাড়িয়ে যায়। সেই হাইপের বেশ কিছু খরচ আছে:

তহবিল সূচক: অর্থ ও প্রতিভা ঝাঁপিয়ে পড়ে উজ্জ্বল দাবির পিছনে, না যে যুক্তি, ইন্টারপ্রেটেবিলিটি এবং সেফটির মতো ভিত্তিমূলক কাজে
হাইপ → ক্র্যাশ চক্র: অত্যাধিক প্রতিশ্রুতি যখন বেসিক জেনারালাইজেশনে ব্যর্থ হয় তখন হতাশা তৈরি করে, যা গম্ভীর গবেষণাকেও ক্ষতিগ্রস্ত করতে পারে
বিকৃত পণ্য ডিজাইন: টিমগুলো দেখানোর লক্ষ্যে AGI‑সদৃশ ডেমো অপ্টিমাইজ করে, নির্ভরযোগ্যতা, মূল্যায়ন ও ইউজার সেফগার্ড বড় করার বদলে

অতিরিক্ত আস্থা থেকে সৃষ্ট নিরাপত্তা ঝুঁকি

যদি ব্যবহারকারী ভাবেন তারা যা নিয়ে কথা বলছে তা "প্রায় মানব" বা "সাধারণ"—তবে তারা:

মেডিকেল, আইনগত বা আর্থিক সিদ্ধান্তে এমন উত্তরগুলোর উপর নির্ভর করবে যেগুলো ভেরিফাই করা হয়নি
সিস্টেমকে কর্তৃত্ব দেওয়ার জন্য প্রস্তুত হবে, এটি একটি ভূলতর টুল না
আত্মবিশ্বাসী হ্যালুসিনেশন, লুকানো পক্ষপাত, এবং প্রম্পট‑মনিপুলেশনের সূক্ষ্ম ত্রুটিগুলো ধরতে ব্যর্থ হবে

অতিরিক্ত বিশ্বাস সাধারণ বাগগুলোকে আরও বিপজ্জনক করে তোলে।

নীতি ও জনসাধারণের বোঝাপড়া

নীতিনির্ধারকরা ও সাধারণ মানুষ ইতিমধ্যেই AI‑ক্ষমতা ট্র্যাক করতে কষ্ট পাচ্ছে। প্রতিটি শক্তিশালী অটোকমপ্লিটকে AGI বলে মার্কেট করা হলে:

ভুল ফোকাসড নিয়ন্ত্রণ: আইনপ্রণেতারা কাল্পনিক AGI দৃশ্যপট লক্ষ্য করে কঠোর বিধি করতে পারে, একই সঙ্গে বর্তমান ক্ষতিকে পর্যাপ্ত নিয়ন্ত্রণ না করা হতে পারে
ঝুঁকি ক্যালিব্রেশন ভ্রান্ত: মানুষ হয় 'সুপারইন্টেলিজেন্স' নিয়ে আতঙ্কিত হবে অথবা সব AI‑চিন্তা হাইপ বলে বিবাহিত করবে

নির্দিষ্ট শব্দের গুরুত্ব

পরিষ্কার শব্দ—"LLM", "ন্যারো মডেল", "AGI‑গবেষণা নির্দেশিকা"—প্রত্যাশা ও বাস্তবতার সাথে সারিবদ্ধ থাকতে সাহায্য করে। সক্ষমতা ও সীমাবদ্ধতা স্পষ্ট করা:

সঠিক নিরাপত্তা মূল্যায়নকে সমর্থন করে
ভাল গভর্ন্যান্স ও স্ট্যান্ডার্ড সক্ষম করে
জনসাধারণকে বাস্তব অগ্রগতি উপভোগ করতে ও ভুল ধারণায় পড়তে না দেয়

AGI‑কে মনে রেখে LLMগুলো বুদ্ধিমত্তার দিশায় ব্যবহার করা

LLMগুলো অসাধারণ প্যাটার্ন মেশিন: তারা বিশাল টেক্সটকে সংকুচিত করে এবং সম্ভাব্য ধারাবাহিকতা ভবিষ্যদ্বাণী করে। এটি তাদের লেখালেখি, কোডিং, ডেটা পর্যালোচনা ও আইডিয়া প্রোটোটাইপিং‑এ শক্তিশালী করে। কিন্তু এই আর্কিটেকচার এখনও সংকীর্ণ: স্থায়ী আত্মা, গ্রাউন্ডেড বোঝাপড়া, দীর্ঘ‑অবধি লক্ষ্য, বা ডোমেইন-ফ্রি শিক্ষার নমনীয়তা নেই—এসবই AGI সংজ্ঞায় প্রয়োজনীয়।

LLMকে টুল হিসেবে, মন হিসেবে নয় বিবেচনা করুন

LLMগুলো:

মানবীয় অর্থে বোঝে না; তারা লক্ষণগুলো গ্রাউন্ডেড করে না
লক্ষ্য বা উদ্দেশ্য নেই; কোন উদ্দেশ্যের ভানও ভাষার কারণে সৃষ্টি হয়
স্থায়ী স্মৃতি ও বিশ্ব মডেল নেই; তারা প্রতিবার প্রশিক্ষণ স্ন্যাপশট ও স্বল্প প্রসঙ্গ থেকে পুনরায় গণনা করে

এই কাঠামোগত সীমাবদ্ধতাই দেখায় কেন কেবল টেক্সট‑মডেল স্কেল করে সত্যিকারের AGI পাওয়া কঠিন। আপনি ভাল ফ্লুয়েন্সি, অধিকতর জ্ঞান পুনঃস্মৃতি ও যুক্তির নকল পেতে পারেন—কিন্তু একটি সিস্টেম নয় যা প্রকৃতভাবে জানে, চায় বা খেয়াল করে।

LLM ব্যবহারের বাস্তব নির্দেশনা

LLM যেখানে প্যাটার্ন‑ভবিষ্যদ্বাণী উজ্জ্বল:

খসড়া লেখা, সারসংক্ষেপ, সম্পাদনা ও অনুবাদ
বিকল্প অন্বেষণ, কৌশল রূপরেখা, ব্রেইনস্টর্মিং
কোডিং, কুয়েরি সাহায্য, ডকুমেন্টেশন

মানুষকে দৃঢ়ভাবে লুপে রাখুন:

তাত্ত্বিক নির্ভুলতা ও গুরুত্বপূর্ণ সিদ্ধান্তের জন্য
নৈতিক বা সেফটি‑সংশ্লিষ্ট প্রসঙ্গে
দীর্ঘ‑মেয়াদি পরিকল্পনা, দায়বদ্ধতা ও জবাবদিহির জন্য

আউটপুটগুলোকে যাচাইকরণের সময়ানুক্রমে বিবেচনা করুন, বিশ্বাসযোগ্য সত্য হিসেবে নয়।

AGI‑কে পেক্ষাপটে রাখুন

LLM‑কে "AGI" বলা তাদের প্রকৃত সীমাবদ্ধতাগুলো ঢেকে দেয় এবং অতিরিক্ত নির্ভরতা, নিয়ন্ত্রক বিভ্রান্তি ও অনাকাঙ্ক্ষিত ভয় ডেকে আনে। এগুলোকে উন্নত সহকারী হিসেবে দেখা বেশি সৎ—যেখানে মানুষ এবং প্রক্রিয়া নিরাপত্তা, দায়িত্ব ও গভীর বোঝাপড়ার দায়িত্ব বহন করে।

আরও গভীরে যেতে চাইলে আমাদের /blog‑এ সম্পর্কিত নিবন্ধগুলো দেখুন। LLM‑চালিত টুল আমরা কীভাবে প্যাকেজ ও মূল্য নির্ধারণ করি সে সম্পর্কিত বিস্তারিত জানতে দেখুন /pricing।

সাধারণ প্রশ্ন

AGI (একতরফা কৃত্রিম বুদ্ধিমত্তা) কী ঠিকভাবে?

AGI (Artificial General Intelligence) বলতে এমন একটি সিস্টেমকে বোঝায় যা:

বহু বিধ কাজ ও বিষয়ভিত্তিতে শিখতে ও যুক্তি করতে সক্ষম (কেবল একটি কাজ নয়)
নতুন, অপরিচিত সমস্যায় পুনরায় ডিজাইন ছাড়াই মানিয়ে নিতে পারে
অল্প মানুষের নির্দেশে নিজের লক্ষ্য স্থির ও অনুসরণ করতে পারে
এক ক্ষেত্র থেকে শেখা জ্ঞানকে অন্য একেবারে ভিন্ন ক্ষেত্রে কাজে লাগাতে পারে

একটি সাধারণ নিয়ম: একটি AGI তত্ত্বগতভাবে এমনকি দীর্ঘ সময় ও সম্পদ দেওয়া হলে এক–একটি বৃত্তিগত শিক্ষার প্রয়োজন ছাড়াই একটি মানুষের মতো বুদ্ধিবৃত্তিক কাজ শেখে।

আজকের LLMগুলো কেন সত্যিকার অর্থে AGI নয়?

আধুনিক LLMগুলো:

প্রধানত পাঠ্য (কখনও কখনও কোড, ছবি, অডিও) দিয়ে প্রশিক্ষিত
পরপর টোকেনের ভবিষ্যৎ অনুমান করতে অপ্টিমাইজ করা
দৃষ্টি, দেহ, অন্তর্নিহিত লক্ষ্য ও স্থায়ী স্মৃতির অভাব

এগুলো ভাষার মাধ্যমে বিস্তৃত জ্ঞান ও যুক্তির নকল করতে পারে, কিন্তু:

বাস্তব‑বিশ্বের অভিজ্ঞতার সাথে যোগসূত্রযুক্ত ধারণা নেই
বিকাশশীল বিশ্বাস বা দীর্ঘমেয়াদি ধারণা বজায় রাখে না
স্বতঃস্ফূর্তভাবে সময়ক্রমে পরিকল্পনা ও কাজ করে না

তাই LLMগুলো শক্তিশালী 'বৃত্তপাতকারী' ভাষা‑আধারিত শিক্ষানবিস, পূর্ণাঙ্গ আত্মনিয়ন্ত্রিত AGI নয়।

মানুষ কেন LLMগুলোকে AGI ভেবে ফেলে?

মানুষ সহজেই ঝুঁকে পড়ে কারণ:

কথোপকথন আমাদের অন্য মনের মূল্যায়নের প্রধান উপায়
LLMগুলো এক বিন্দুতে কোড, প্রবন্ধ, ইমেইল, সারাংশ—অনেক ডোমেইন সামলাতে পারে
তারা মানুষের তৈরি পরিক্ষা ও বেঞ্চমার্ক পার হতে পারে

এতে বোঝা যায় একটি 'বোঝাপড়া' বা উদ্দেশ্য আছে—কিন্তু নিচের স্তরে সিস্টেমটি কেবল ডেটার প্যাটার্ন অনুযায়ী টেক্সট ভবিষ্যদর্শন করছে; এটি একটি গ্রাউন্ডেড ওয়ার্ল্ড মডেল তৈরি করে নিজে থেকে লক্ষ্য নির্ধারণ করছে না।

LLMগুলো আসলে কিভাবে কাজ করে?

LLMকে আপনি এমনভাবে ভাবতে পারেন:

একটি বিশাল ফাংশন যা টোকেনের একটি ক্রমকে নেয় এবং পরবর্তী টোকেনের সম্ভাব্যতা দেয়
ট্রেনিংয়ে ট্রিলিয়নগুলো উদাহরণ দেখে অভ্যস্ত ও ওজন সমন্বয় করে

গুরুত্বপূর্ণ বিষয়গুলো:

এটি একটি ডাটাবেসের মত 'তথ্য' সংরক্ষণ করে না
এটি ভাষার স্ট্যাটিস্টিক্যাল নিয়মিততা encode করে
এর কাছে সত্যের ধারণা নেই, কেবল অতীত টেক্সটের প্রাসঙ্গিকতা বা সম্ভাব্যতা আছে

LLMগুলো কোথায় ভালো এবং কী কোথায় তারা সঙ্কটজনক?

LLMগুলো শক্তিশালি যেখানে কাজটি প্রধানত টেক্সট বা কোডের উপর ভিত্তি করে প্যাটার্ন পূরণ:

খসড়া লেখা, পুনর্লিখন, সারসংক্ষেপ
অনুবাদ ও স্টাইল অভিযোজন
কোড জেনারেশন, রিফ্যাক্টরিং, ব্যাখ্যা
বিকল্প ধারণা বা কৌশলগুলো ব্রেইনস্টর্ম করা

তারা দুর্বল যেখানে বা ঝুঁকিপূর্ণ যখন কাজগুলো দাবি করে:

স্কেলিং অনেক সাহায্য করে, তাহলে কেন আরও বড় LLM শেষপর্যন্ত AGI হবে না?

স্কেলিং‑লজগুলি দেখায়: মডেল বড় করলে, ডেটা ও কম্পিউট বাড়ালে, অনেক বেঞ্চমার্কে পারফরম্যান্স বাড়ে। কিন্তু স্কেলিং একা কিছু কাঠামোগত ফাঁক পূরণ করে না:

গ্রাউন্ডেড পারসেপশন বা এম্বডিমেন্ট নেই
স্থায়ী 'আমি', লক্ষ্য বা জীবনের ইতিহাস নেই
কাজ করে, পর্যবেক্ষণ করে এবং আপডেট করে এমন সরাসরি ইন্টারঅ্যাকশন লুপ নেই

বড় হওয়ার ফলে আপনি পাবেন:

ভাল ফ্লুয়েন্সি এবং টেক্সট থেকে বেশি কভারেজ
যুক্তি ও দক্ষতার অধিকতর বিশ্বাসযোগ্য অনুকরণ

কিন্তু এটা স্বয়ংক্রিয়ভাবে সাধারণ, স্বায়ত্তশাসিত বুদ্ধিমত্তা সৃষ্টি করে না। AGI পৌঁছাতে নতুন আর্কিটেকচারাল উপাদান ও সিস্টেম‑স্তরের ডিজাইন প্রয়োজন।

আজ LLMগুলো কীভাবে ব্যবহার করা উচিত যাতে অতিরিক্ত বিশ্বাস না করা যায়?

LLMগুলোকে টুল হিসেবে ব্যবহার করুন, কর্তৃত্ব হিসেবে নয়:

আউটপুটকে খসড়া বা প্রস্তাব হিসেবে বিবেচনা করুন, পরম সত্য হিসেবে নয়
উচ্চ-স্টেক সিদ্ধান্তের জন্য মানুষকে লুপে রাখুন (চিকিৎসা, আইন, আর্থিক, সেফটি‑ক্রিটিক্যাল)
যাচাইয়ের জন্য মডেলকে টুল (সার্চ, ক্যালকুলেটর, IDE) সঙ্গে জোড়া দিন
সংবেদনশীল ওয়ার্কফ্লোতে লগিং ও পর্যালোচনা রাখুন

পণ্য ও প্রক্রিয়া এমনভাবে ডিজাইন করুন যে:

LLMগুলোকে AGI বলাটা কেন ঝুঁকিপূর্ণ?

আজকের LLMকে "AGI" আখ্যা দিলে সমস্যা হয়:

অতিরিক্ত বিশ্বাস: ব্যবহারকারীরা মানবসদৃশ বোঝাপড়া ও নির্ভরযোগ্যতা ধরে নেয় যেখানে তা নেই
খারাপ বিনিয়োগ সংকেত: অর্থ ও প্রতিভা ফ্ল্যাশি দাবির পেছনে যায়, না কোর গবেষণার দিকে
নীতিগত বিভ্রান্তি: নীতিনির্ধারকরা কল্পিত AGI দৃশ্যের দিকে বেশি মনোযোগ দেবে, বর্তমান ক্ষতি (বায়াস, ভুয়া তথ্য, অতিরিক্ত নির্ভরতা) অনিয়ন্ত্রিত থাকবে

স্পষ্ট ভাষা—"LLM", "ন্যারো মডেল", "LLM ব্যবহার করে এজেন্টিক সিস্টেম"—উপযুক্ত প্রত্যাশা ও ঝুঁকি নির্ধারণে সাহায্য করে।

যদি সত্যিকারের AGI তৈরি করা হয়, তবে আমরা কীভাবে তা চিনবো?

কয়েকটি বাস্তবসম্মত মানদণ্ড AGI চিহ্নিত করতে সাহায্য করতে পারে; চ্যাট‑মানের বাইরে আমরা দেখতে চাইব:

স্বায়ত্তশাসন: সিস্টেম নিজে সাবগোল নির্ধারণ ও পরিচালনা করবে এবং মানুষ সমর্থন ছাড়া ব্যর্থতা থেকে সেরে উঠবে
স্থানান্তরক্ষমতা: একটি ডোমেইন থেকে শেখা দক্ষতা খুব কম অতিরিক্ত প্রশিক্ষণে অন্য একেবারে ভিন্ন ডোমেইনে কাজে লাগবে
বাস্তব‑বিশ্ব দক্ষতা: অস্থির, অনিশ্চিত শারীরিক ও সামাজিক পরিবেশে পরিকল্পনা ও কার্য সম্পাদন করতে পারবে

LLM একা যথেষ্ট না হলে গবেষকরা AGI‑এর পথে কী বাস্তবসম্মত পথ অনুসন্ধান করছেন?

গবেষকরা এমন সিস্টেম নিয়ে কাজ করছেন যেখানে LLM কেবল একটি উপাদান:

মেমরি, পরিকল্পনা ও টুল‑অর্কেস্ট্রেশনসহ এজেন্ট আর্কিটেকচার
LLM‑কে বাইরের API, ডাটাবেস ও সিমুলেটরের কল করতে দেয়া টুল‑ইউজিং সেট‑আপ
ভাষা, চিত্র, অডিও ও সেন্সর ডেটা মিলিয়ে মাল্টিমডাল ও এম্বডেড সিস্টেম; রোবটিক্স বা সিমুলেটেড দেহের মাধ্যমে শিখন

এসব দিক AGI‑এর কাছাকাছি নিয়ে যেতে পারে, কিন্তু লক্ষ্য পরিবর্তিত হয়: এখন প্রশ্ন হচ্ছে "একটি LLM‑সহ জটিল সিস্টেম কি AGI‑সদৃশ আচরণ প্রাকটিসে আনতে পারে?"—এটি LLM একার প্রশ্ন নয়।