Andrej Karpathy डीप लर्निंग: AI को प्रोडक्ट में उतारने के सबक

Q: Why does a deep learning demo look great but fail in a real product?

क्योंकि डेमो आमतौर पर साफ-सुथरे, हाथ से चुने हुए इनपुट्स पर बनते हैं और भावनाओं/प्रभाव के आधार पर जज किए जाते हैं, जबकि प्रोडक्ट्स में गंदे इनपुट, यूज़र दबाव और बार-बार उपयोग जैसी चुनौतियाँ आती हैं। गैप बंद करने के लिए इनपुट/आउटपुट का कॉन्ट्रैक्ट परिभाषित करें, प्रतिनिधि डेटा पर क्वालिटी नापें, और टाइमआउट या लो-कॉन्फिडेंस केस के लिए फॉलबैक्स डिजाइन करें।

Q: What should my baseline be before adding AI?

वह सबसे सरल विकल्प जो वास्तविक रूप से शिप हो सकता है: - टेम्पलेट्स + नियम - सर्च + स्निपेट्स - एक छोटा/सस्ता मॉडल - बेहतर UI के साथ “नो AI” भी अगर AI आपकी मुख्य मीट्रिक पर बेसलाइन को नहीं हराता (और लेटेंसी/कास्ट तोड़ता भी नहीं), तो अभी शिप मत करें।

Q: What guardrails should I add for safety and policy issues?

सरल, टेस्टेबल गार्डरैलों से शुरू करें: - आउट-ऑफ-स्कोप रिक्वेस्ट पर इंकार या क्लियरिंग सवाल - संवेदनशील डेटा पैटर्न को रेडैक्ट या ब्लॉक करना - आउटपुट फॉर्मैट (लंबाई, टोन, आवश्यक फ़ील्ड) पर प्रतिबंध - रिस्की केस को टेम्पलेट या ह्यूमन रिव्यू पर भेजना गार्डरैलों को ऑप्शनल पॉलिश न मानें—उन्हें प्रोडक्ट रिक्वायरमेंट की तरह लें।

Q: What should I monitor after I ship an AI feature?

सिस्टम हेल्थ और आउटपुट क्वालिटी दोनों पर मॉनिटर करें: - लेटेंसी, एरर रेट, टाइमआउट रेट - प्रति अनुरोध लागत (टोकन/कम्प्यूट) - क्वालिटी संकेत (स्वीकृति दर, एडिट डिस्टेंस, थंब्स अप/डाउन) - सुरक्षा फ़्लैग (पॉलीसी उल्लंघन, संवेदनशील डेटा लीक) इनपुट/आउटपुट को लॉग करें (प्राइवेसी नियंत्रण के साथ) ताकि आप फेल्यर्स को पुनरुत्पादित कर सकें और टॉप पैटर्न्स ठीक कर सकें।

Q: How do I control latency and cost without killing quality?

पहले से अधिकतम बजट तय करें: लक्ष्य लेटेंसी और प्रति अनुरोध अधिकतम लागत । फिर अनुमान लगाने के बजाय खर्च घटाएँ: - प्रॉम्प्ट छोटा करें और अनउपयोगी संदर्भ हटाएँ - दोहराए जाने वाले परिणामों को कैश करें - आसान केस के लिए सस्ता मॉडल और मुश्किल केस के लिए मजबूत मॉडल का उपयोग करें - टाइमआउट और तेज फॉलबैक जोड़ें छोटी क्वालिटी बढ़ोतरी आमतौर पर बड़े कॉस्ट या स्पीड हिट के लायक नहीं होती।

लॉग इन शुरू करें

Andrej Karpathy डीप लर्निंग: AI को प्रोडक्ट में उतारने के सबक | Koder.ai

क्यों डीप लर्निंग असल प्रोडक्ट्स में इस्तेमाल करना मुश्किल लगता है

एक डीप लर्निंग डेमो जादू जैसा लग सकता है। एक मॉडल साफ़ पैराग्राफ लिख देता है, किसी ऑब्जेक्ट को पहचान लेता है, या एक मुश्किल सवाल का जवाब दे देता है। फिर आप उस डेमो को रोज़ाना दबाए जाने वाले बटन में बदलने की कोशिश करते हैं, और चीज़ें उलझ जाती हैं। वही प्रॉम्प्ट अलग तरह से व्यवहार करता है, एज केस बढ़ जाते हैं, और वो "वाह" का पल सपोर्ट टिकट बन जाता है।

यही फर्क है जिसकी वजह से Andrej Karpathy का काम बिल्डर्स के बीच गूंजता है। उन्होंने एक माइंडसेट को बढ़ावा दिया जहाँ नयूरल नेट रहस्यमयी वस्तुएँ नहीं हैं। वे सिस्टम हैं जिन्हें आप डिज़ाइन, टेस्ट और मेंटेन कर सकते हैं। मॉडल बेकार नहीं होते—प्रोडक्ट्स सिर्फ़ स्थिरता मांगते हैं।

जब टीमें कहती हैं वे “प्रैक्टिकल” AI चाहती हैं, तो आमतौर पर वे चार चीज़ें चाहती हैं:

दोहराए जाने योग्य: यह सामान्य इनपुट पर पूर्वानुमानित रूप से बर्ताव करे, सिर्फ़ क्यूरेट किए गए डेमो पर नहीं।
मापनीय: आप “अच्छा” को किसी संख्या से परिभाषित कर सकें, कोई आभास नहीं।
मेंटेनेबल: आप डेटा, प्रॉम्प्ट या मॉडल अपडेट कर सकें बिना सब कुछ तोड़े।
ऑपरेबल: रिलीज़ के बाद आप फेल्यर्स, लागत, लेटेंसी और क्वालिटी मॉनिटर कर सकें।

टीमें इसलिए संघर्ष करती हैं क्योंकि डीप लर्निंग संभाव्य और संदर्भ-संवेदी है, जबकि प्रोडक्ट्स भरोसेमंदता पर आँके जाते हैं। एक चैटबॉट जो 80% सवालों का सही जवाब देता है, तब भी टूटे हुए जैसा लग सकता है अगर बाकी 20% आत्मविश्वासी, गलत और पता लगाने में कठिन हों।

एक "ऑटो-रिप्लाई" असिस्टेंट लें ग्राहक सपोर्ट के लिए। यह कुछ चुनिंदा टिकटों पर शानदार दिखता है। प्रोडक्शन में ग्राहक स्लैंग लिखते हैं, स्क्रीनशॉट दें, भाषाएँ मिलाएँ, या नीति के एज केस पूछें। अब आपको गार्डरैलों, स्पष्ट इनकार व्यवहार, और मापने का तरीका चाहिए कि क्या ड्राफ्ट ने वास्तव में एजेंट की मदद की।

आरंभिक काम: नयूरल नेट्स को जादू नहीं बल्कि इंजीनियरिंग की तरह मानना

कई लोगों ने Karpathy के काम को व्यावहारिक उदाहरणों के जरिए देखा, न कि अमूर्त गणित के जरिए। शुरुआती प्रोजेक्ट्स भी एक साधारण बात बताते थे: नयूरल नेट तब उपयोगी होते हैं जब आप उन्हें उस सॉफ्टवेयर की तरह मानते हैं जिसे आप टेस्ट, तोड़ और फिक्स कर सकें।

"मॉडल काम करता है" पर रुकने की बजाय ध्यान इसे गंदे, असली डेटा पर चलाने पर शिफ्ट होता है। इसमें डेटा पाइपलाइन्स, ट्रेनिंग रन जो नॉन-ग्लैमरस कारणों से फेल होते हैं, और नतीजे जो एक छोटे बदलाव से बदल जाते हैं, सब आते हैं। उस दुनिया में डीप लर्निंग रहस्यमयी लगना बंद कर देता है और इंजीनियरिंग जैसा महसूस होने लगता है।

Karpathy-शैली का तरीका रहस्यमयी ट्रिक्स के बारे में कम और आदतों के बारे में अधिक है:

सबसे पहले एक बेसलाइन रखें जिसे आप हरा सकें, भले ही वह सरल हो।
"बेहतर" बनाम "खराब" तय करने के लिए एक मीट्रिक चुनें।
एक बार में एक ही चीज बदलिए ताकि आप जानें किस वजह से नतीजा आया।
केवल फाइनल स्कोर नहीं, गलतियों और उदाहरणों का निरीक्षण करें।

यह नींव बाद में मायने रखती है क्योंकि प्रोडक्ट AI मूल रूप से वही खेल है, बस दांव ज़्यादा बड़े होते हैं। अगर आप शुरु में क्राफ्ट नहीं बनाते (साफ़ इनपुट, साफ़ आउटपुट, दोहराए जाने योग्य रन), तो AI फीचर शिप करना अटकलबाज़ी बन जाता है।

नयूरल नेटवर्क्स को काम करने वाले इंजीनियरों के लिए समझने योग्य बनाना

Karpathy का बड़ा प्रभाव यह था कि उन्होंने नयूरल नेट्स को ऐसी चीज़ माना जिसे आप तर्कसंगत बना सकें। स्पष्ट व्याख्याएँ काम को "विश्वास प्रणाली" से इंजीनियरिंग में बदल देती हैं।

यह टीमों के लिए इसलिए महत्वपूर्ण है क्योंकि जो व्यक्ति पहला प्रोटोटाइप शिप करता है अक्सर वही व्यक्ति नहीं होता जो उसे मेंटेन करे। अगर आप यह समझा नहीं सकते कि मॉडल क्या कर रहा है, तो आप शायद उसे डिबग नहीं कर पाएँगे, और निश्चित रूप से आप प्रोडक्शन में उसका समर्थन नहीं कर पाएँगे।

इसे ऐसे समझाइए मानो आपको इसे मेंटेन करना है

जल्दी स्पष्टता ज़बरदस्ती लागू करें। फीचर बनाने से पहले लिख दीजिए कि मॉडल क्या देखता है, क्या आउटपुट देता है, और आप कैसे बताएँगे कि यह बेहतर हो रहा है। अधिकतर AI प्रोजेक्ट्स बेसिक्स पर फेल होते हैं, गणित पर नहीं।

एक छोटा चेकलिस्ट जो बाद में फायदा देता है:

सटीक इनपुट और आउटपुट क्या हैं (फॉर्मैट, सीमाएँ, रेडैक्शन्स)?
आपको कौन सी बेसलाइन हरानी है (रूल्स, सर्च, टेम्पलेट्स, या छोटा मॉडल)?
"अच्छा" कैसा दिखता है (एक संख्या, एक रूपरेखा, या दोनों)?
कौन से फेल्यर अस्वीकार्य हैं (सुरक्षा, प्राइवेसी, ब्रांड टोन)?
कौन परिणामों की समीक्षा करता है, और कितनी बार?

पुनरुत्पाद्यता व्याख्या का हिस्सा है

स्पष्ट सोच अनुशासित प्रयोगों में दिखती है: एक स्क्रिप्ट जिसे आप फिर से चला सकें, फिक्स्ड इवैल्यूएशन डेटासेट, वर्शन किए हुए प्रॉम्प्ट, और लॉग किए हुए मीट्रिक्स। बेसलाइन्स आपको ईमानदार रखते हैं और प्रगति को दिखाई देता बनाते हैं।

प्रोटोटाइप से प्रोडक्शन तक: शिप होने पर क्या बदलता है

एक प्रोटोटाइप यह साबित करता है कि किसी आइडिया पर काम किया जा सकता है। एक शिप्ड फीचर यह साबित करता है कि यह रोज़ाना, गंदे हालात में लोगों के लिए काम करता है। यही वह गैप है जहाँ कई AI प्रोजेक्ट अटक जाते हैं।

एक रिसर्च डेमो धीमा, महंगा और नाज़ुक हो सकता है, जब तक वह क्षमता दिखाता रहे। प्रोडक्शन में प्राथमिकताएँ उलट जाती हैं। सिस्टम को पूर्वानुमेय, देखे जाने योग्य और सुरक्षित होना चाहिए — भले ही इनपुट अजीब हों, यूज़र्स अधीर हों, और ट्रैफ़िक स्पाइक हो।

वे सीमाएँ जिनकी आपको अचानक परवाह होती है

प्रोडक्शन में लेटेंसी एक फीचर है। अगर मॉडल को 8 सेकंड लगते हैं, तो यूज़र्स इसे छोड़ देते हैं या बटन स्पैम करते हैं, और हर रीट्राई का पैसा लगता है। लागत भी एक प्रोडक्ट निर्णय बन जाती है, क्योंकि एक छोटा प्रॉम्प्ट बदलाव आपके बिल को दोगुना कर सकता है।

मॉनिटरिंग अनिवार्य है। आपको सिर्फ सेवा चलने की जानकारी ही नहीं चाहिए, बल्कि यह भी जानना चाहिए कि आउटपुट समय के साथ स्वीकार्य क्वालिटी के भीतर बने रहें। डेटा शिफ्ट, नए यूज़र बिहेवियर, और अपस्ट्रीम बदलाव बिना किसी एरर के परफॉर्मेंस को चुपचाप तोड़ सकते हैं।

सुरक्षा और पॉलिसी चेक "अच्छा होने" से "ज़रूरी" बन जाते हैं। आपको हानिकारक अनुरोधों, निजी डेटा, और एज केस्स को इस तरह हैंडल करना होगा जो सुसंगत और टेस्टेबल हो।

टीमें आमतौर पर एक ही सेट के सवालों का जवाब देती हैं:

अधिकतम स्वीकार्य रिस्पॉन्स टाइम और प्रति अनुरोध लागत क्या है?
जब मॉडल फेल करे या टाइमआउट हो तो फॉलबैक क्या है?
किस मीट्रिक्स से क्वालिटी परिभाषित होती है और कौन से थ्रेशहोल्ड अलर्ट ट्रिगर करते हैं?
आप गैर-सुरक्षित या गैर-अनुपालन आउटपुट कैसे रोकते हैं?
अगर क्वालिटी गिरी तो आप कैसे जल्दी रोलबैक करेंगे?

सिर्फ मॉडल स्किल से काम नहीं चलता

एक प्रोटोटाइप एक व्यक्ति बना सकता है। शिपिंग के लिए आमतौर पर प्रोडक्ट को सफलता परिभाषित करनी होती है, डेटा वर्क से इनपुट और इवैल्यूएशन सेट वैलिडेट होते हैं, इंफ्रास्ट्रक्चर इसे भरोसेमंद चलाती है, और QA फेल्योर मोड्स टेस्ट करती है।

"माई मशीन पर काम कर रहा है" रिलीज़ का मानदंड नहीं है। एक रिलीज़ का मतलब है कि यह लोड के तहत यूज़र्स के लिए काम करता है, लॉगिंग, गार्डरैल्स, और एक तरीका होता है यह नापने का कि यह मदद कर रहा है या नुकसान।

इंजीनियरिंग संस्कृति: मान्यताएँ, बेसलाइन और इटरेशन

ड्रामे के बिना पायलट करें

फ्लैग के पीछे रोलआउट करें, अपनी बेसलाइन से तुलना करें और सुरक्षित रूप से बढ़ाएँ।

पायलट शुरू करें

Karpathy का प्रभाव तकनीकी नहीं बल्कि सांस्कृतिक है। उन्होंने नयूरल नेट्स को उसी अनुशासन के साथ बनाया, टेस्ट किया और सुधारा जैसे किसी भी इंजीनियरिंग सिस्टम के साथ करेंगे।

यह कोड लिखने से पहले मान्यताएँ लिखने से शुरू होता है। अगर आप यह नहीं बता सकते कि फीचर के काम करने के लिए क्या सच होना चाहिए, तो बाद में आप उसे डिबग नहीं कर पाएँगे। उदाहरण:

“यूज़र्स एक सुझाया गया उत्तर स्वीकार करेंगे अगर वह सही हो और उनके टोन से मेल खाये।”
“800 ms से कम लेटेंसी चाहिए वरना लोग इसे प्रयोग करना बंद कर देंगे।”

ये टेस्टेबल स्टेटमेंट्स हैं।

बेसलाइन्स इसके बाद आते हैं। बेसलाइन वह सबसे सरल चीज़ है जो काम कर सकती है, और यह आपकी रियलिटी चेक है। यह नियम, सर्च टेम्पलेट, या अच्छा UI के साथ "कुछ न करना" भी हो सकता है। मजबूत बेसलाइन्स आपको एक शानदार मॉडल पर हफ्तों बर्बाद करने से बचाती हैं जो कुछ सरल से बेहतर नहीं है।

इंस्ट्रुमेंटेशन इटरेशन को संभव बनाती है। सिर्फ़ डेमो देखकर आप मूड से चल रहे होते हैं। कई AI फीचर्स के लिए कुछ संख्याएँ ही बता देती हैं कि आप सुधार कर रहे हैं या नहीं:

अपनाना (कौन इसे आज़माता है और इस्तेमाल करता रहता है)
गुणवत्ता (स्वीकृति दर, भेजने से पहले किए गए एडिट्स, थंब्स अप/डाउन)
गति (लेटेंसी और उपयोगी आउटपुट मिलने का समय)
लागत (टोकन, कम्प्यूट, मानव समीक्षा समय)
सुरक्षा (पॉलिसी उल्लंघन, संवेदनशील डेटा लीक, जैलब्रेक प्रयास)

फिर तंग लूप में इटरेट करें। एक चीज बदलिए, बेसलाइन से तुलना करें, और आपने क्या आज़माया और क्या बदला इसकी सरल लॉग रखें। अगर प्रगति असली है, तो वह ग्राफ़ पर दिखती है।

चरण-दर-चरण: AI फीचर शिप करने के लिए सरल वर्कफ़्लो

AI शिप करना सबसे अच्छा तब काम करता है जब आप इसे इंजीनियरिंग की तरह ट्रीट करें: स्पष्ट लक्ष्य, एक बेसलाइन, और तेज़ फीडबैक लूप्स।

एक वाक्य में यूज़र समस्या बताइए। इसे ऐसे लिखें जैसे असली व्यक्ति की शिकायत: “सपोर्ट एजेंट सामान्य सवालों के जवाब ड्राफ्ट करने में बहुत समय लगाते हैं।” अगर आप इसे एक वाक्य में नहीं कह सकते, तो फीचर शायद बहुत बड़ा है।
एक मापनीय परिणाम चुनें। एक संख्या चुनें जिसे आप साप्ताहिक ट्रैक कर सकें। अच्छे विकल्पों में समय की बचत प्रति टास्क, फर्स्ट-ड्राफ्ट स्वीकृति दर, एडिट्स में कमी, या टिकट डिफ्लेक्शन रेट शामिल हैं। निर्माण से पहले "पर्याप्त अच्छा" तय करें।
उस बेसलाइन को परिभाषित करें जिसे आपको हराना है। एक सरल टेम्पलेट, नियम-आधारित तरीका, या "केवल इंसान" के खिलाफ तुलना करें। अगर AI आपकी चुनी हुई मीट्रिक पर बेसलाइन को नहीं हरा पा रहा, तो शिप मत करें।
प्राकृतिक डेटा के साथ एक छोटा टेस्ट डिजाइन करें। वास्तविकता से मेल खाने वाले उदाहरण इकट्ठा करें, जिसमें गंदे केस भी हों। एक छोटा इवैल्यूएशन सेट रखें जिसे आप रोज़ाना "ट्रेïn" न करें। पास क्या गिना जाएगा और फेल क्या होगा, लिख दें।
फ्लैग के पीछे शिप करें, फीडबैक इकट्ठा करें, और इटरेट करें। पहले एक छोटा इंटर्नल ग्रुप या यूज़र्स का छोटा प्रतिशत चुनें। इनपुट, आउटपुट और क्या मदद मिली उसे लॉग करें। सबसे बड़े फेल्योर मोड को पहले ठीक करें, फिर वही टेस्ट दोहराएँ ताकि प्रगति साफ़ दिखे।

ड्राफ्टिंग टूल्स के लिए एक व्यावहारिक पैटर्न: “सेंड करने तक सेकंड” और “माइ너 एडिट्स के साथ इस्तेमाल किए गए ड्राफ्ट का प्रतिशत” मापें।

स्पष्ट मान्यताएँ और मापनीय आउटपुट (क्या लिखें)

कई AI फीचर विफलताएँ मॉडल की विफलता नहीं होतीं। ये "हमने कभी सहमति नहीं की कि सफलता कैसी दिखेगी" वाली विफलताएँ होती हैं। अगर आप चाहते हैं कि डीप लर्निंग प्रैक्टिकल लगे, तो प्रॉम्प्ट या मॉडल ट्रेन करने से पहले मान्यताएँ और माप लिखें।

ऐसी मान्यताएँ लिखें जो असली उपयोग में आपके फीचर को तोड़ सकें। सामान्यत: ये डेटा और लोगों के बारे में होती हैं: इनपुट टेक्स्ट एक भाषा में है, यूज़र्स एक समय में एक ही इरादा पूछते हैं, UI पर्याप्त संदर्भ देता है, एज केस दुर्लभ हैं, और कल का पैटर्न अगले महीने भी सच रहेगा (ड्रिफ्ट)। साथ ही यह भी लिखें कि आप अभी क्या नहीं संभालेंगे—जैसे व्यंग्य, कानूनी सलाह, या लंबे दस्तावेज़।

हर मान्यता को कुछ टेस्टेबल में बदल दें। एक उपयोगी फॉर्मेट है: “यदि X दिया गया, तो सिस्टम Y करे, और हम इसे Z से सत्यापित कर सकें।” ठोस रखें।

एक पन्ने पर लिखने लायक पाँच चीज़ें:

इनपुट्स: मॉडल क्या देखता है (फ़ील्ड्स, सीमाएँ, रेडैक्शन्स) और "पर्याप्त साफ" का क्या मतलब है
आउटपुट कॉन्ट्रैक्ट: उसे क्या लौटाना चाहिए (फॉर्मैट, टोन, अनुमत कार्रवाइयाँ)
ऑफ़लाइन इवैल्यूएशन: स्कोरिंग नियमों के साथ एक छोटा लेबल्ड सेट (पास/फेल और एक मीट्रिक)
ऑनलाइन मीट्रिक: यूज़र्स क्या करते हैं (स्वीकृति दर, एडिट्स, समय बचत, टिकट रीओपन)
गार्डरैलब्स: कब इनकार करना है, सवाल पूछना है, या सरल फ्लो पर फॉलबैक करना है

ऑफलाइन और ऑनलाइन को अलग रखें जानबूझ कर। ऑफलाइन मीट्रिक्स बताते हैं कि सिस्टम ने टास्क सीखा या नहीं। ऑनलाइन मीट्रिक्स बताते हैं कि फीचर मानवों की मदद कर रहा है या नहीं। एक मॉडल ऑफलाइन अच्छा स्कोर कर सकता है और फिर भी यूज़र्स को परेशान कर सकता है क्योंकि वह धीमा है, बहुत आत्मविश्वासी है, या उन मामलों में गलत है जो मायने रखते हैं।

"पर्याप्त अच्छा" को थ्रेशहोल्ड और नतीजों के रूप में परिभाषित करें। उदाहरण: “ऑफलाइन: इवैल सेट पर कम से कम 85% सही; ऑनलाइन: 30% ड्राफ्ट्स कम एडिट्स के साथ स्वीकार किए गए।” अगर आप किसी थ्रेशहोल्ड को मिस करते हैं, तो पहले से तय करें क्या होगा: इसे टॉगल के पीछे रखें, रोलआउट घटाएँ, कम-कॉनफ़िडेंस केस को टेम्पलेट पर भेजें, या रोककर और डेटा इकट्ठा करें।

टीमें अक्सर AI जोड़ते समय होने वाली सामान्य गलतियाँ

डेमो से आगे बनाएं

अपनी AI फीचर आइडिया को काम करने वाले ऐप में बदलें, फिर स्पष्ट मीट्रिक्स के साथ इटररेट करें।

नि:शुल्क शुरू करें

टीमें अक्सर AI फीचर को सामान्य UI बदलाव जैसा समझती हैं: शिप करें, देखें क्या होता है, बाद में एडजस्ट करें। यह जल्दी विफल कर देता है क्योंकि मॉडल बिहेवियर प्रॉम्प्ट्स, ड्रिफ्ट, और छोटे कॉन्फ़िगरेशन एडिट्स से बदल सकता है। नतीजा बहुत मेहनत और कोई स्पष्ट सबूत नहीं कि इससे फायदा हुआ।

एक व्यावहारिक नियम साधारण है: अगर आप बेसलाइन और माप नहीं बता सकते, तो आप अभी शिप नहीं कर रहे।

सबसे आम फेल्योर मोड्स:

बिना नॉन-AI बेसलाइन के लॉन्च करना, इसलिए सुधार सिद्ध नहीं होता
लेटेंसी और लागत की अनदेखी करते हुए क्वालिटी का पीछा करना (3% लाभ 5x धीमा होने के लायक नहीं)
अस्पष्ट फीडबैक पर निर्भर रहना ("यूज़र्स को पसंद आया") बजाय इंस्ट्रुमेंटेशन के
बहुत छोटे या चॉइस किए गए टेस्ट सेट पर ट्यून करना जो असली ट्रैफ़िक से मेल नहीं खाता
जब प्रॉम्प्ट या मॉडल अपडेट अजीब आउटपुट दे, तो कोई रोलबैक योजना न होना

एक ठोस उदाहरण: आप सपोर्ट रिप्लाइ ड्राफ्ट करने के लिए AI जोड़ते हैं। अगर आप केवल थम्ब्स-अप ट्रैक करते हैं, तो आप यह देख न पाएँगे कि एजेंट ड्राफ्ट की समीक्षा करने में ज़्यादा समय ले रहे हैं, या जवाब सही तो हैं पर बहुत लंबे हैं। बेहतर माप हैं “कम एडिट्स के साथ भेजे गए प्रतिशत” और “मीडियन समय टू सेंड”।

रिलीज़ से पहले त्वरित चेकलिस्ट

रिलीज़ डे को एक इंजीनियरिंग हैंडऑफ की तरह ट्रीट करें, न कि एक डेमो की तरह। आप चाहें तो सरल शब्दों में समझा सकें कि फीचर क्या करता है, आप कैसे जानते हैं कि यह काम करता है, और यह टूटने पर आप क्या करेंगे।

शिप करने से पहले सुनिश्चित करें कि आपके पास है:

एक पैराग्राफ में समस्या का कथन और स्पष्ट लक्षित उपयोगकर्ता
एक मापा हुआ बेसलाइन (भले ही वह सरल हो)
एक प्राथमिक ऑनलाइन मीट्रिक जो यूज़र वैल्यू से जुड़ा हो, साथ में इनपुट, आउटपुट और परिणाम लॉग करने के लिए लॉग्स
एक सुरक्षा समीक्षा: संभावित फेल्यर मोड्स, किसे नुकसान हो सकता है, और UI क्या करता है (वार्न, ब्लॉक, कन्फर्मेशन मांगना)
एक रोलबैक योजना और उसका मालिक: क्या ट्रिगर रोलबैक करेगा और पहले घंटे में आप क्या जांचेंगे

साथ ही एक ऑफलाइन इवैल्यूएशन सेट रखें जो असली ट्रैफ़िक जैसा दिखे, एज केस शामिल हों, और सप्ताह दर सप्ताह तुलना के लिए पर्याप्त स्थिर रहे। जब आप प्रॉम्प्ट, मॉडल, या डेटा क्लीनिंग बदलते हैं, तो वही सेट फिर से चलाएं और देखें क्या बदला।

उदाहरण परिदृश्य: AI सपोर्ट ड्राफ्टिंग फीचर शिप करना

डिजाइन से गार्डरैलों जोड़ें

रिजेक्शन, फॉलबैक्स और आउटपुट फॉर्मैट सीधे प्रोडक्ट फ्लो में जोड़ें।

फ्लो बनाएं

एक सपोर्ट टीम चाहती है कि टिकट व्यू में एक असिस्टेंट ड्राफ्ट प्रस्ताव करे। एजेंट खुद संदेश नहीं भेजता—यह ड्राफ्ट सुझाता है, उसने जिन मुख्य तथ्यों का उपयोग किया उन्हें हाइलाइट करता है, और एजेंट से भेजने से पहले समीक्षा व संपादन करने को कहता है। यह एक निर्णय जोखिम कम रखता है जबकि आप सीखते हैं।

शुरू करें यह तय करके कि "बेहतर" अंकों में क्या मतलब है। ऐसे आउटपुट चुनें जिन्हें आप पहले दिन से मौजूदा लॉग्स से माप सकें:

औसत हैंडल टाइम (ओपन से सॉल्व तक)
एडिट दर (एजेंट ड्राफ्ट में कितना बदलते हैं)
एस्केलेशन रेट (टिकट ऊपर के स्तर पर कैसे जाते हैं)
रीओपन रेट (7 दिनों में फिर से खुले केस)
कस्टमर सैटिस्फैक्शन स्कोर (यदि आप पहले से ट्रैक करते हैं)

मॉडल लाने से पहले एक बोरिंग पर वास्तविक बेसलाइन रखें: सेव्ड टेम्पलेट्स प्लस सरल रूल्स लेयर (रिफंड vs शिपिंग vs पासवर्ड रिसेट का पता लगाएं और सबसे अच्छा टेम्पलेट प्रीफिल करें)। अगर AI वह बेसलाइन नहीं हराता, तो यह तैयार नहीं है।

एक छोटा पायलट चलाएँ। कुछ एजेंटों के लिए ऑप्ट-इन बनाएं, पहले एक टिकट कैटेगरी तक सीमित रखें (मान लीजिए ऑर्डर स्टेटस)। हर ड्राफ्ट पर त्वरित फीडबैक जोड़ें: “हैल्पफुल” या “नॉट हैल्पफुल,” साथ में एक छोटा कारण। केवल यह कैप्चर करें कि एजेंट ने क्या बदला, सिर्फ़ बटन क्लिक नहीं।

शिप मानदंड पहले से तय करें ताकि बाद में अनुमान न करना पड़े। उदाहरण: हैंडल टाइम 10% सुधरे बिना एस्केलेशन या रीओपन रेट न बढ़े, और एजेंट कम एडिट्स के साथ कम से कम 30% ड्राफ्ट्स स्वीकार करें।

यह भी तय करें क्या ट्रिगर रोलबैक करेगा: एस्केलेशन्स का स्पाइक, सैटिस्फैक्शन में गिरावट, या बार-बार नीति त्रुटियाँ।

अगले कदम: इन सबक को अपने अगले AI रिलीज़ में लागू करें

एक AI आइडिया चुनें जिसे आप 2 से 4 हफ्तों में शिप कर सकें। इसे इतना छोटा रखें कि आप इसे माप सकें, डिबग कर सकें, और बिना ड्रामे के रोलबैक कर सकें। लक्ष्य मॉडल की बुद्धिमत्ता साबित करना नहीं है—लक्ष्य यह है कि यूज़र आउटपुट विश्वसनीय रूप से उस चीज़ से बेहतर हो जो आपके पास पहले थी।

आइडिया को एक पन्ने की योजना में बदलें: फीचर क्या करता है, क्या नहीं करता, और आप कैसे जानेंगे कि यह काम कर रहा है। एक बेसलाइन और ठीक वही मीट्रिक शामिल करें जिसे आप ट्रैक करेंगे।

यदि आप तेजी से इम्प्लिमेंट करना चाहते हैं, तो Koder.ai (koder.ai) वेब, सर्वर, और मोबाइल ऐप्स को चैट इंटरफ़ेस से बनाने के इर्द-गिर्द बना है, साथ में स्नैपशॉट्स/रोलबैक और स्रोत कोड एक्सपोर्ट जैसी सुविधाएँ जब आपको गहरी पकड़ चाहिए।

रखने की आदत सरल है: हर AI बदलाव के साथ एक लिखी हुई मान्यता और एक मापनीय आउटपुट होना चाहिए। इस तरह डीप लर्निंग जादू लगना बंद करती है और ऐसा काम बन जाती है जिसे आप शिप कर सकते हैं।

अक्सर पूछे जाने वाले प्रश्न

Why does a deep learning demo look great but fail in a real product?

क्योंकि डेमो आमतौर पर साफ-सुथरे, हाथ से चुने हुए इनपुट्स पर बनते हैं और भावनाओं/प्रभाव के आधार पर जज किए जाते हैं, जबकि प्रोडक्ट्स में गंदे इनपुट, यूज़र दबाव और बार-बार उपयोग जैसी चुनौतियाँ आती हैं।

गैप बंद करने के लिए इनपुट/आउटपुट का कॉन्ट्रैक्ट परिभाषित करें, प्रतिनिधि डेटा पर क्वालिटी नापें, और टाइमआउट या लो-कॉन्फिडेंस केस के लिए फॉलबैक्स डिजाइन करें।

What’s a good “measurable outcome” for an AI feature?

ऐसा मेट्रिक चुनें जो यूज़र वैल्यू से जुड़ा हो और आप साप्ताहिक रूप से ट्रैक कर सकें। अच्छे डिफ़ॉल्ट:

ड्राफ्टिंग टूल्स: कम एडिट के साथ भेजे गए प्रतिशत या मीडियन टाइम टू सेंड
सर्च/Q&A: टास्क सक्सेस रेट या डिफ्लेक्शन रेट
क्लासीफिकेशन: स्पष्ट थ्रेशहोल्ड के साथ प्रिसिशन/रिकॉल

प्रॉम्प्ट या मॉडल ट्यून करने से पहले “पर्याप्त अच्छा” लक्ष्य तय कर लें।

What should my baseline be before adding AI?

वह सबसे सरल विकल्प जो वास्तविक रूप से शिप हो सकता है:

टेम्पलेट्स + नियम
सर्च + स्निपेट्स
एक छोटा/सस्ता मॉडल
बेहतर UI के साथ “नो AI” भी

अगर AI आपकी मुख्य मीट्रिक पर बेसलाइन को नहीं हराता (और लेटेंसी/कास्ट तोड़ता भी नहीं), तो अभी शिप मत करें।

How do I build an evaluation set that actually helps?

छोटी लेकिन वास्तविक evaluation सेट रखें जो असल ट्रैफ़िक जैसा दिखे, सिर्फ बेहतरीन-केस के उदाहरण नहीं।

व्यवहारिक नियम:

एज केस शामिल करें (स्लैंग, मिली-जुली भाषा, अधूरी जानकारी)
हर उदाहरण के लिए पास/फेल मापदंड लिखें
सेट को फ्रीज़ रखें ताकि आप सप्ताह-दर-सप्ताह तुलना कर सकें
रोज़-रोज़ उसे "मानसिक रूप से ट्रेन" मत करें

यह प्रगति दिखने लायक बनाता है और अनजाने रिग्रेशन कम करता है।

What guardrails should I add for safety and policy issues?

सरल, टेस्टेबल गार्डरैलों से शुरू करें:

आउट-ऑफ-स्कोप रिक्वेस्ट पर इंकार या क्लियरिंग सवाल
संवेदनशील डेटा पैटर्न को रेडैक्ट या ब्लॉक करना
आउटपुट फॉर्मैट (लंबाई, टोन, आवश्यक फ़ील्ड) पर प्रतिबंध
रिस्की केस को टेम्पलेट या ह्यूमन रिव्यू पर भेजना

गार्डरैलों को ऑप्शनल पॉलिश न मानें—उन्हें प्रोडक्ट रिक्वायरमेंट की तरह लें।

What should I monitor after I ship an AI feature?

सिस्टम हेल्थ और आउटपुट क्वालिटी दोनों पर मॉनिटर करें:

लेटेंसी, एरर रेट, टाइमआउट रेट
प्रति अनुरोध लागत (टोकन/कम्प्यूट)
क्वालिटी संकेत (स्वीकृति दर, एडिट डिस्टेंस, थंब्स अप/डाउन)
सुरक्षा फ़्लैग (पॉलीसी उल्लंघन, संवेदनशील डेटा लीक)

इनपुट/आउटपुट को लॉग करें (प्राइवेसी नियंत्रण के साथ) ताकि आप फेल्यर्स को पुनरुत्पादित कर सकें और टॉप पैटर्न्स ठीक कर सकें।

How do I control latency and cost without killing quality?

पहले से अधिकतम बजट तय करें: लक्ष्य लेटेंसी और प्रति अनुरोध अधिकतम लागत।

फिर अनुमान लगाने के बजाय खर्च घटाएँ:

प्रॉम्प्ट छोटा करें और अनउपयोगी संदर्भ हटाएँ
दोहराए जाने वाले परिणामों को कैश करें
आसान केस के लिए सस्ता मॉडल और मुश्किल केस के लिए मजबूत मॉडल का उपयोग करें
टाइमआउट और तेज फॉलबैक जोड़ें

छोटी क्वालिटी बढ़ोतरी आमतौर पर बड़े कॉस्ट या स्पीड हिट के लायक नहीं होती।

What’s the safest way to roll out AI changes and avoid regressions?

फ्लैग के पीछे शिप करें और धीरे-धीरे रोलआउट करें।

एक व्यावहारिक रोलआउट प्लान:

इंटरनल यूज़र्स या ट्रैफ़िक का छोटा प्रतिशत से शुरू करें
परिणामों और प्रमुख फेल्योर मोड्स को लॉग करें
रोलबैक ट्रिगर्स सेट करें (क्वालिटी ड्रॉप, कॉस्ट स्पाइक, सुरक्षा घटनाएँ)
एक-क्लिक फॉलबैक रखें (टेम्पलेट्स, ह्यूमन-ओनली, पिछला प्रॉम्प्ट/मॉडल)

रोलबैक कोई विफलता नहीं है; यह AI को मेंटेनेबल बनाने का हिस्सा है।

Who needs to be involved to ship AI features successfully?

न्यूनतम भूमिकाएँ जो कवर होनी चाहिए (भले ही एक ही व्यक्ति कई रोल निभा रहा हो):

Product: सफलता मीट्रिक और अस्वीकार्य फेल्योर परिभाषित करे
Data/ML: eval सेट बनाए और त्रुटियों की व्याख्या करे
Engineering/Infra: इसे विश्वसनीय, तेज और देखे जाने लायक बनाये
QA/Support: अजीब मामलों का परीक्षण करे और वास्तविक फेल्योर पैटर्न रिपोर्ट करे

जब हर कोई मीट्रिक, बेसलाइन और रोलबैक प्लान पर सहमत होता है तब शिपिंग बेहतर होती है।

How can Koder.ai help me ship an AI feature faster without losing control?

इसे तब उपयोग करें जब आप आइडिया से एक काम करने वाले ऐप तक तेज़ी से बढ़ना चाहें, पर इंजीनियरिंग अनुशासन नहीं खोना चाहें।

एक व्यावहारिक वर्कफ़्लो:

चैट के जरिए फीचर बनाएं, फिर इनपुट/आउटपुट कॉन्ट्रैक्ट लागू करें
अपने चुने हुए एक मुख्य मीट्रिक के लिए इंस्ट्रुमेंटेशन जोड़ें
प्रॉम्प्ट, फ्लोज़ और मॉडलों पर सुरक्षित इटरेशन्स के लिए स्नैपशॉट्स/रोलबैक का उपयोग करें
जब गहरी नियंत्रण की जरूरत हो तो स्रोत कोड एक्सपोर्ट करें

टूल आपको तेजी से इटरेट करने में मदद करता है; फिर भी आपको स्पष्ट मान्यताएँ और मापनीय आउटपुट चाहिए।