बाउंडरी-केस परीक्षणों के लिए Claude Code टेस्ट जनरेशन प्रॉम्प्ट

Q: What should I write down before asking an AI to generate tests?

Start with a tiny contract you can read in one breath: - Inputs: types, allowed ranges, what counts as empty/missing - Outputs: success shape and error shape - Side effects: what can be written/changed (DB, files, network) - “Must never happen”: crash, silent data loss, double charge, partial writes Then generate tests from that contract, not from examples alone.

Q: Which boundary cases are usually worth testing?

Test these first: - Min/max values (0, 1, max, max+1) - Empty vs present ("", [], null/nil) - Off-by-one (n-1, n, n+1) - Formatting edges (whitespace-only strings, leading zeros) - Time cutoffs (just before/after expiry) Pick one or two per input dimension so each test covers a unique risk.

Q: How do I write a good “failure mode” test instead of a shallow one?

A good failure-mode test proves two things: 1) The function returns a clear, expected error (type/message/status). 2) It fails safely : - no partial state changes - no leaked internal details - no retries or side effects you didn’t intend If there’s a database write involved, always check what happened in storage after the failure.

Q: How do I turn an invariant into a test assertion?

Default approach: turn the invariant into an assertion on observable outcomes . Examples: - “Total never negative” → - “On error, no state changes” → assert no new rows / no flags flipped - “Idempotent” → call twice and assert the second call doesn’t change state Prefer checking both return value and side effects , because many bugs hide in “returned OK but wrote the wrong thing.”

Q: What should I ask the model to output before generating test code?

Push for PHASE 1: plan only first. Require the model to provide: - 6–10 proposed tests max - For each: intent, setup, input, expected result, why it’s high-signal - A small boundary matrix - A failure-mode list - 3–5 invariants and how to assert them Only after you approve the plan should it generate code. This prevents “20 look-alike tests” output.

Q: How can I quickly tell if an AI-generated test is low-value?

Use a simple deletion test: - If you delete the test and lose no boundary , no failure mode , and no invariant , it didn’t earn its place. Also scan for duplicates: - If two tests would fail for the same bug, keep the one with the stronger assertion. - If assertions are just “not null” or “status 200,” strengthen them or remove the test.

लॉग इन शुरू करें

बाउंडरी-केस परीक्षणों के लिए Claude Code टेस्ट जनरेशन प्रॉम्प्ट | Koder.ai

क्यों सिर्फ़ happy-path टेस्ट समय बर्बाद करते हैं

ऑटो-जनरेटेड टेस्ट सूट अक्सर प्रभावशाली दिखते हैं: दर्जनों टेस्ट, बहुत सारा सेटअप कोड, और हर फ़ंक्शन नाम कहीं न कहीं दिख जाता है। लेकिन उनमे से कई टेस्ट सिर्फ “जब सब कुछ सामान्य है तो यह काम करता है” वाले चेक होते हैं। ये आसानी से पास होते हैं, विरल रूप से बग पकड़ते हैं, और इन्हें पढ़ने और बनाए रखने में अभी भी समय लगता है।

एक सामान्य Claude Code टेस्ट जनरेशन प्रॉम्प्ट के साथ मॉडल दिखाए गए उदाहरण इनपुट का प्रतिबिंब बनने की प्रवृत्ति दिखाता है। आपको परिवर्तन मिलते हैं जो दिखने में अलग हैं लेकिन वही व्यवहार कवर करते हैं। परिणाम एक बड़ा सूट होता है जिसमें महत्वपूर्ण जगहों पर पतला कवरेज होता है।

हाई-सिग्नल टेस्ट अलग होते हैं। वे वही छोटे सेट होते हैं जो पिछले महीने की घटना पकड़ते। वे जोखिम वाले बदलावों पर फेल होते हैं, और बेकार रीफैक्टर के समय स्थिर रहते हैं। एक हाई-सिग्नल टेस्ट बीस “अपेक्षित मान लौटाता है” चेकों के बराबर हो सकता है।

कम-मूल्य वाले happy-path जनरेशन के सामान्य लक्षण:

कई टेस्ट केवल इनपुट लेबल में अलग हैं, न कि उन चीज़ों में जो टूट सकती हैं।
Assertions उथले हैं ("null नहीं", "status 200 है") बजाय अर्थ की जाँच के।
सेटअप उस व्यवहार से भारी है जिसे टेस्ट किया जा रहा है, इसलिए लोग टेस्ट अपडेट करना बंद कर देते हैं।
कवरेज अधिक दिखता है, पर एज केस अनछुए रहते हैं।

कल्पना कीजिए एक फ़ंक्शन जो डिस्काउंट कोड लागू करता है। Happy-path टेस्ट पुष्टि करते हैं कि “SAVE10” कीमत घटाता है। असली बग कहीं और छिपते हैं: 0 या नकारात्मक कीमतें, समाप्त कोड, राउंडिंग किनारों, या अधिकतम डिस्काउंट कैप। ये वे केस हैं जो गलत टोटल, नाराज़ ग्राहक, और आधी रात के रोलबैक का कारण बनते हैं।

लक्ष्य "अधिक टेस्ट" से "बेहतर टेस्ट" पर जाना है—तीन लक्ष्यों को निशाना बनाकर: boundaries, failure modes, और invariants।

तीन लक्ष्य: boundaries, failure modes, invariants

अगर आप हाई-सिग्नल यूनिट टेस्ट चाहते हैं, तो “और टेस्ट” माँगना बंद करें और तीन विशिष्ट प्रकार माँगना शुरू करें। यह वही कोर है एक Claude Code टेस्ट जनरेशन प्रॉम्प्ट का जो उपयोगी कवरेज पैदा करता है बजाय "सामान्य इनपुट पर काम करता है" चेक के ढेर के।

1) Boundaries (जहाँ बग छिपते हैं)

बाउंडरी वे किनारे हैं जिन्हें कोड स्वीकार करता या उत्पन्न करता है। कई वास्तविक दोष ऑफ-बाय-वन, खाली-स्थिति, या टाइमआउट समस्याएँ हैं जो कभी happy path में नहीं दिखती।

सोचें न्यूनतम और अधिकतम के संदर्भ में (0, 1, अधिकतम लंबाई), खाली बनाम मौजूद ("", [], nil), ऑफ-बाय-वन (n-1, n, n+1), और समय सीमाएँ (कटऑफ के पास)।

उदाहरण: अगर एक API “100 आइटम तक” स्वीकार करती है, तो 100 और 101 टेस्ट करें, केवल 3 नहीं।

2) Failure modes (सुरक्षित ढंग से फेल होना साबित करें)

Failure modes वे तरीके हैं जिनसे सिस्टम टूट सकता है: खराब इनपुट, गायब निर्भरताएँ, आंशिक परिणाम, या अपस्ट्रीम त्रुटियाँ। अच्छे failure mode टेस्ट तनाव के नीचे व्यवहार की जाँच करते हैं, न कि केवल आदर्श परिस्थितियों में आउटपुट।

उदाहरण: जब डेटाबेस कॉल विफल हो, क्या फ़ंक्शन एक स्पष्ट त्रुटि लौटाता है और आंशिक डेटा लिखने से बचता है?

3) Invariants (नियम जो हमेशा होने चाहिए)

इनवेरिएंट्स वे सत्य हैं जो कॉल से पहले और बाद में सदा सत्य बने रहने चाहिए। वे अस्पष्ट सहीपन को स्पष्ट assertions में बदल देते हैं।

उदाहरण:

"विथड्रॉल के बाद बैलेंस कभी नकारात्मक नहीं होता।"
"IDs अद्वितीय हैं" भले ही आप आइटम तेजी से बनाते हों।
"त्रुटि पर कोई स्टेट परिवर्तन नहीं" (कोई नई पंक्ति नहीं, कोई फ्लैग नहीं बदला)।

इन तीन लक्ष्यों पर ध्यान देने से आपको कम लेकिन अधिक प्रभावी टेस्ट मिलते हैं।

तैयारी: टेस्ट लिखने से पहले एक छोटा कॉन्ट्रैक्ट निकालें

यदि आप बहुत जल्दी टेस्ट माँगते हैं, तो आमतौर पर आपको विनम्र "अपेक्षित के अनुसार काम करता है" चेकों का ढेर मिल जाता है। एक सरल समाधान है पहले एक छोटा कॉन्ट्रैक्ट लिखना, फिर उससे टेस्ट जनरेट करना। यह Claude Code टेस्ट जनरेशन प्रॉम्प्ट को असली बग खोजने वाला बनाना का सबसे तेज़ तरीका है।

एक उपयोगी कॉन्ट्रैक्ट इतनी छोटी हो कि एक साँस में पढ़ा जा सके। 5 से 10 पंक्तियों का लक्ष्य रखें जो तीन प्रश्नों का जवाब दें: क्या इनपुट है, क्या आउटपुट आता है, और और क्या बदलता है।

5–10 पंक्ति कॉन्ट्रैक्ट टेम्पलेट

कॉन्ट्रैक्ट सादा भाषा में लिखें, कोड में नहीं, और केवल वही शामिल करें जिसे आप टेस्ट कर सकते हैं।

Inputs: प्रकार, अनुमत रेंज, और क्या "खाली" या "गायब" माना जाएगा।
Output: रिटर्न वैल्यू या एरर शेप, और "सफलता" क्या गारंटीकृत करती है।
Side effects: स्टेट, डेटाबेस पंक्तियाँ, नेटवर्क कॉल, फ़ाइलें, लॉग में क्या बदलता है।
Assumptions: वे चीज़ें जो कॉलर अक्सर गलत करते हैं (टाइमज़ोन, एन्कोडिंग, auth, ordering)।
“Must never happen”: क्रैश, साइलेंट डेटा लॉस, डबल चार्ज, आंशिक लिखाई।

एक बार जब आपके पास यह हो, तो स्कैन करें कि वास्तविकता कहाँ आपकी मान्यताओं को तोड़ सकती है। वे बन जाते हैं बाउंडरी केस (min/max, zero, overflow, empty strings, duplicates) और failure modes (timeouts, permission denied, unique constraint violations, corrupted input)।

यहाँ reserveInventory(itemId, qty) जैसी फीचर के लिए एक ठोस उदाहरण है:

कॉन्ट्रैक्ट कह सकता है कि qty को सकारात्मक पूर्णांक होना चाहिए, फ़ंक्शन एटोमिक होना चाहिए, और यह कभी नकारात्मक स्टॉक नहीं बनाये। इससे तुरंत हाई-सिग्नल टेस्ट सुझते हैं: qty = 0, qty = 1, qty उपलब्धता से अधिक, समवर्ती कॉल, और बीच में मजबूर डेटाबेस त्रुटि।

यदि आप Koder.ai जैसे चैट-आधारित टूल का उपयोग कर रहे हैं, तो वही वर्कफ़्लो लागू होता है: पहले कॉन्ट्रैक्ट लिखें, फिर ऐसे टेस्ट जनरेट करें जो BOUNDARIES, FAILURE MODES, और "Must never happen" सूची पर सीधे हमला करें।

प्रॉम्प्ट पैटर्न: हाई-सिग्नल टेस्ट ब्लूप्रिंट

जब आप कम परन्तु प्रभावी टेस्ट चाहते हैं तो यह Claude Code टेस्ट जनरेशन प्रॉम्प्ट उपयोग करें। मुख्य चाल यह है कि पहले एक टेस्ट प्लान ज़बरदस्ती कराएँ, फिर प्लान APPROVE होने के बाद ही टेस्ट कोड जनरेट करें।

You are helping me write HIGH-SIGNAL unit tests.

Context
- Language/framework: <fill in>
- Function/module under test: <name + short description>
- Inputs: <types, ranges, constraints>
- Outputs: <types + meaning>
- Side effects/external calls: <db, network, clock, randomness>

Contract (keep it small)
1) Preconditions: <what must be true>
2) Postconditions: <what must be true after>
3) Error behavior: <how failures are surfaced>

Task
PHASE 1 (plan only, no code):
A) Propose 6-10 tests max. Do not include “happy path” unless it protects an invariant.
B) For each test, state: intent, setup, input, expected result, and WHY it is high-signal.
C) Invariants: list 3-5 invariants and how each will be asserted.
D) Boundary matrix: propose a small matrix of boundary values (min/max/empty/null/off-by-one/too-long/invalid enum).
E) Failure modes: list negative tests that prove safe behavior (no crash, no partial write, clear error).
Stop after PHASE 1 and ask for approval.

PHASE 2 (after approval):
Generate the actual test code with clear names and minimal mocks.

एक व्यावहारिक चाल है boundary matrix को compact तालिका के रूप में माँगना, ताकि गैप स्पष्ट हों:

मापदंड	वैध सीमा	ठीक बाहर	असामान्य मान	अपेक्षित व्यवहार
लंबाई	0	-1	10,000	त्रुटि बनाम क्लैंप बनाम स्वीकार

अगर Claude 20 टेस्ट सुझाता है, तो वापस धकेलें। इसे समान मामलों को मर्ज करने और केवल उन टेस्टों को रखने के लिए कहें जो असली बग पकड़ेंगे (off-by-one, गलत एरर टाइप, साइलेंट डेटा लॉस, टूटा इनवेरिएंट)।

चरण-दर-चरण: प्रॉम्प्ट चलाएँ और आउटपुट को टेस्ट में बदलें

Get fewer, stronger tests

Ask for 6-10 tests that target boundaries, failure modes, and invariants.

Generate Tests

एक छोटे, ठोस कॉन्ट्रैक्ट के साथ शुरू करें। फ़ंक्शन सिग्नेचर, इनपुट और आउटपुट का संक्षिप्त वर्णन, और किसी मौजूद टेस्ट को पेस्ट करें (भले ही वे सिर्फ happy-path हों)। इससे मॉडल को असल कोड के आस-पास एंकर रखने में मदद मिलती है।

अगला, किसी भी टेस्ट कोड माँगने से पहले एक रिस्क टेबल माँगें। तीन कॉलम आवश्यक करें: boundary cases (इन्पुट की सीमाएँ), failure modes (खराब इनपुट, गायब डेटा, टाइमआउट), और invariants (नियम जो हमेशा सही होने चाहिए)। हर पंक्ति के लिए एक वाक्य जोड़ें: "क्यों यह टूट सकता है।" एक साधारण तालिका गैप्स को अधिक तेज़ी से दिखाती है।

फिर सबसे छोटे टेस्ट सेट का चयन करें जहाँ प्रत्येक टेस्ट का एक अनूठा बग-पकड़ने वाला उद्देश्य हो। यदि दो टेस्ट एक ही कारण से फेल होंगे, तो मजबूत वाले को रखें।

एक व्यावहारिक चयन नियम:

उन टेस्टों को रखें जो अलग-अलग बाउंडरी को हिट करते हैं (min, max, empty, off-by-one)।
उन टेस्टों को रखें जो failure के दौरान सुरक्षित व्यवहार साबित करते हैं (सुस्पष्ट एरर, कोई आंशिक लिखावट नहीं, कोई क्रैश नहीं)।
उन टेस्टों को रखें जो किसी इनवेरिएंट को सत्यापित करते हैं (ordering, totals, idempotency, no duplicates)।
उन टेस्टों को काटें जो सिर्फ़ "सामान्य इनपुट के साथ काम करता है" दोहराते हैं।

अंत में, हर टेस्ट के लिए एक छोटा स्पष्टीकरण माँगें: यदि यह फेल होता है तो किस बग को यह पकड़ेगा। अगर स्पष्टीकरण सामान्य है ("व्यवहार को मान्य करता है"), तो टेस्ट संभवतः कम-सिग्नल का है।

इनवेरिएंट्स को Assertions में कैसे एन्कोड करें

इनवेरिएंट एक नियम है जो किसी भी वैध इनपुट पर भी सत्य रहना चाहिए। इनवेरिएंट-आधारित टेस्टिंग में आप पहले नियम सादा भाषा में लिखते हैं, फिर उसे एक ऐसा Assertion बनाते हैं जो ज़ोरदार तरीके से फेल कर सके।

1-2 इनवेरिएंट चुनें जो वाकई आपको असली बग से बचाते हैं। अच्छे इनवेरिएंट अक्सर सुरक्षा (कोई डेटा लॉस नहीं), संगति (एक ही इनपुट = एक ही आउटपुट), या सीमाएँ (कभी भी कैप पार न करे) के बारे में होते हैं।

इनवेरिएंट को प्रूफ़ करने योग्य चेक में बदलना

इनवेरिएंट को एक छोटे वाक्य में लिखें, फिर तय करें कि आपका टेस्ट कौन से प्रमाण देख सकता है: रिटर्न वैल्यू, स्टोर किया गया डेटा, उत्सर्जित इवेंट्स, या निर्भरता कॉल। मज़बूत assertions आउटकम और साइड-इफेक्ट दोनों की जाँच करते हैं, क्योंकि कई बग उन मामलों में छिपते हैं जहाँ "OK लौटाया गया लेकिन गलत लिखा गया"।

उदाहरण के लिए, किसी ऑर्डर पर कूपन लागू करने वाले फ़ंक्शन के लिए:

Invariant: अंतिम कुल कभी नकारात्मक न हो।
Invariant: एक ही कूपन दो बार लागू करने पर दो बार डिस्काउंट न लगे।

अब इन्हें ठोस assertions में बदलें:

expect(result.total).toBeGreaterThanOrEqual(0)
expect(db.getOrder(orderId).discountCents).toBe(originalDiscountCents)

धुंदले asserts जैसे "अपेक्षित परिणाम लौटता है" से बचें। विशिष्ट नियम (non-negative), और विशिष्ट साइड-इफेक्ट (discount एक बार ही स्टोर हो) को असर्ट करें।

टेस्ट को तेज़ रखने के लिए काउंटरएक्ज़ाम्पल नोट जोड़ें

हर इनवेरिएंट के लिए टेस्ट में एक छोटा नोट जोड़ें कि कौन सा डेटा इसे तोड़ देगा। इससे टेस्ट बाद में happy-path चेक में बदलकर धुंधला नहीं होगा।

एक सरल पैटर्न जो समय के साथ मजबूती से चलता है:

टेस्ट नाम में इनवेरिएंट रखें।
आउटपुट पर इनवेरिएंट असर्ट करें।
मुख्य साइड-इफेक्ट (या उसकी अनुपस्थिति) असर्ट करें।
एक कमेंट जोड़ें जो एक violating केस बताता है (जैसे बहुत बड़ा कूपन मान या डुप्लीकेट एप्लिकेशन)।

Failure modes: सुरक्षित व्यवहार साबित करने वाले टेस्ट लिखें

हाई-सिग्नल टेस्ट अक्सर वे होते हैं जो पुष्टि करते हैं कि आपका कोड सुरक्षित ढंग से फेल करता है। अगर किसी मॉडल को केवल happy-path टेस्ट लिखने के लिए कहें तो आप यह नहीं जान पाएँगे कि फीचर इनपुट और निर्भरताओं के गड़बड़ होने पर कैसे व्यवहार करता है।

शुरू करें यह तय करके कि इस फीचर के लिए "सुरक्षित" का क्या अर्थ है। क्या यह एक टाइप्ड एरर लौटाता है? क्या यह एक डिफ़ॉल्ट पर फॉल बैक करता है? क्या यह एक बार retry करता है और फिर रुक जाता है? उस अपेक्षित व्यवहार को एक वाक्य में लिखें, फिर टेस्ट उसे साबित करें।

जब आप Claude Code से failure mode टेस्ट माँगते हैं, तो लक्ष्य सख्त रखें: सिस्टम के टूटने के तरीकों को कवर करें, और वह सटीक प्रतिक्रिया असर्ट करें जो आप चाहते हैं। एक उपयोगी लाइन है: "कमी टेस्ट लेकिन मजबूत assertions को प्राथमिकता दें बनाम बहुत सारे उथले टेस्ट।"

उत्पादक failure श्रेणियाँ जो बेहतर टेस्ट देती हैं:

खराब इनपुट: invalid formats, missing required fields, out-of-range values
निर्भरता विफलताएँ: timeouts, 500s, खाली responses, corrupted payloads
ordering समस्याएँ: out-of-order events, duplicates, partial writes
concurrency: racing updates, idempotency checks
recovery व्यवहार: जब आप एरर लौटाते हैं बनाम fallback करते हैं बनाम retry करते हैं

उदाहरण: आपके पास एक endpoint है जो यूज़र बनाता है और वेलकम ईमेल भेजने के लिए ईमेल सर्विस को कॉल करता है। एक कम-मूल्य टेस्ट सिर्फ़ "returns 201" चेक कर सकता है। एक हाई-सिग्नल failure टेस्ट यह जाँचता है कि यदि ईमेल सर्विस टाइमआउट हो जाए तो आप या (a) फिर भी यूज़र बनाते हैं और 201 के साथ "email_pending" फ्लैग लौटाते हैं, या (b) स्पष्ट 503 लौटाते हैं और यूज़र नहीं बनाते। एक व्यवहार चुनें, फिर प्रतिक्रिया और साइड-इफेक्ट दोनों को असर्ट करें।

यह भी टेस्ट करें कि आप क्या लीक नहीं करते। यदि वैलिडेशन फेल करता है, तो सुनिश्चित करें कि कुछ भी डेटाबेस में नहीं लिखा गया। यदि किसी निर्भरता ने खराब payload लौटाया, तो सुनिश्चित करें कि आप अनहैंडल्ड exception न फेंकें या कच्चा स्टैक ट्रेस न लौटाएँ।

सामान्य जाल जो कम-मूल्य टेस्ट बनाते हैं

Plan before you generate

Draft a clear contract and test matrix first, then generate code with confidence.

Use Planning

कम-मूल्य टेस्ट सेट आमतौर पर तब बनते हैं जब मॉडल को मात्रा के लिए पुरस्कृत किया जाता है। अगर आपका Claude Code टेस्ट जनरेशन प्रॉम्प्ट “20 यूनिट टेस्ट” माँगता है, तो आपको अक्सर छोटे-छोटे वैरिएशन मिलते हैं जो दिखने में गहन हैं पर कुछ नया नहीं पकड़ते।

सामान्य जाल:

दिखने में एक जैसे टेस्ट: वही "वैध इनपुट" टेस्ट विभिन्न स्ट्रिंग या नंबर के साथ दोहराना।
कोड की नकल करने वाले टेस्ट: प्राइवेट स्टेप्स या हेल्पर कॉल्स का assertion बजाय व्यवहार के।
सब कुछ मॉक कर देना: डेटाबेस, क्लॉक, नेटवर्क और कॉन्फ़िग को एक साथ बदल देना।
कमजोर assertions: केवल "कोई एरर नहीं", "null नहीं", या "status 200" जाँचना।
गंदा साझा स्टेट: रेशेड डेटा छोड़ना, मॉडिफ़ाइड ग्लोबल्स, या कैश्ड मान।

उदाहरण: एक "create user" फ़ंक्शन की कल्पना करें। दस happy-path टेस्ट ईमेल स्ट्रिंग बदलकर भी महत्वपूर्ण चीज़ें मिस कर सकते हैं: duplicate emails को reject करना, खाली पासवर्ड संभालना, और गारंटी देना कि रिटर्न किए गए user IDs अद्वितीय और स्थिर हैं।

रिव्यू में मददगार गार्डरैलों:

प्रत्येक टेस्ट को जोखिम नामित करवाएँ (boundary, failure mode, या invariant)।
केवल implementation-only checks से बचें जब तक वे observable behavior नहीं बदलते।
mocks को न्यूनतम रखें, और छोटे संख्या में ऐसे टेस्ट रखें जो असली इंटीग्रेशन को हिट करें जब वह व्यवहार्य हो।
मजबूत assertions माँगें: सटीक आउटपुट, स्टेट परिवर्तन, और एरर प्रकार/संदेश।
क्लीनअप नियम जोड़ें ताकि टेस्ट क्रम पर निर्भर न हों।

उदाहरण: एक फीचर को छोटे, मजबूत टेस्ट सेट में बदलना

कल्पना कीजिए एक फीचर: चेकआउट पर कूपन कोड लागू करना।

कॉन्ट्रैक्ट (छोटा और टेस्टेबल): एक कार्ट सबटोटल सेंट में और वैकल्पिक कूपन लेकर अंतिम टोटल सेंट में लौटाना। नियम: प्रतिशत कूपन निकटतम सेंट की ओर नीचे राउंड करते हैं, फिक्स्ड कूपन एक निश्चित राशि घटाते हैं, और टोटल कभी 0 से नीचे नहीं जाना चाहिए। एक कूपन अमान्य, समाप्त, या पहले से उपयोग किया जा चुका हो सकता है।

"applyCoupon() के लिए टेस्ट लिखो" न माँगें। बाउंडरी केस टेस्टिंग, failure mode टेस्ट, और कॉन्ट्रैक्ट से जुड़े इनवेरिएंट्स माँगें।

एज व्यवहार को ज़ोर देकर बाउंडरी

ऐसे इनपुट चुनें जो गणित या वेलिडेशन तोड़ते हैं: खाली कूपन स्ट्रिंग, subtotal = 0, न्यूनतम खर्च के ठीक नीचे और ऊपर, एक फिक्स्ड डिस्काउंट जो subtotal से बड़ा हो, और 33% जैसे प्रतिशत जो राउंडिंग पैदा करे।

सुरक्षित व्यवहार साबित करने के लिए failure modes

मान लीजिए कूपन लुकअप विफल हो सकता है और स्टेट गलत हो सकता है: कूपन सेवा डाउन है, कूपन समाप्त है, या यह पहले ही उपयोग किया जा चुका है। टेस्ट को यह साबित करना चाहिए कि इसके बाद क्या होता है (कूपन रिजेक्ट किया गया साफ़ एरर के साथ, टोटल अपरिवर्तित)।

एक न्यूनतम, हाई-सिग्नल टेस्ट सेट (5 टेस्ट) और वे क्या पकड़ते हैं:

खाली या whitespace-only कोड रिजेक्ट करें: "ब्लैंक को वैध मानता है" बग और खराब ट्रिमिंग पकड़ता है।
प्रतिशत कूपन राउंडिंग (subtotal 101, 33%): राउंडिंग गलतियों और सेंट्स में ऑफ-बाय-वन को पकड़ता है।
फिक्स्ड डिस्काउंट जो subtotal से बड़ा हो (subtotal 500, discount 1000): कुल कभी नकारात्मक न होने का इनवेरिएंट सत्यापित करता है।
न्यूनतम खर्च बाउंडरी (subtotal 999 बनाम 1000): गलत तुलना लॉजिक (< बनाम <=) पकड़ता है।
कूपन लुकअप विफलता या टाइमआउट: सुरक्षित फॉलबैक (कोई डिस्काउंट लागू नहीं) और स्थिर त्रुटि हैंडलिंग को साबित करता है।

यदि ये पास हो गए, तो आपने सामान्य ब्रेकपॉइंट्स कवर कर लिए बिना सूट को duplicate happy-path टेस्ट से भर दिया।

हाई-सिग्नल AI-जनरेटेड टेस्ट के लिए त्वरित चेकलिस्ट

Build and test in one flow

Create your app and generate boundary and failure tests as you build features.

Start Project

मॉडल द्वारा जो कुछ भी जनरेट किया गया उसे स्वीकार करने से पहले एक तेज़ गुणवत्ता पास करें। लक्ष्य ऐसे टेस्ट हैं जो प्रत्येक किसी विशिष्ट, संभावित बग से आपको बचाते हैं।

इस चेकलिस्ट को गेट की तरह उपयोग करें:

इनपुट के अनुसार बाउंडरी: हर इनपुट फील्ड के लिए कम से कम एक एज केस शामिल करें (खाली बनाम whitespace-only, अधिकतम लंबाई, शून्य बनाम नकारात्मक, मिssing वैकल्पिक फ़ील्ड, सीमा के एक कदम आगे)।
निर्भरता विफलताएँ: कम से कम एक टेस्ट शामिल करें जहाँ कोई निर्भरता गड़बड़ करे (DB timeout, तीसरे पक्ष की API 500, expired auth token)। सुरक्षित व्यवहार साबित करें (साफ एरर, कोई आंशिक लिखावट नहीं)।
इनवेरिएंट्स के साथ मजबूत assertions: 1–3 नियम चुनें जो हमेशा रखने हैं और उन्हें सीधे असर्ट करें। "response ok" जैसे धुंधले asserts से बचें।
प्रत्येक टेस्ट एक अनूठा बग: हर टेस्ट शीर्षक पढ़ें और पूछें, “यह किस सटीक बग को पकड़ेगा?” यदि दो टेस्ट एक ही प्रश्न का उत्तर देते हैं, तो उन्हें मर्ज करें।
हटाने का टेस्ट: एक टेस्ट हटाने की कोशिश करें। अगर कुछ मायने नहीं रखता (कोई बाउंडरी, कोई failure mode, कोई invariant नहीं खोता), तो उसने अपनी जगह नहीं कमाई।

एक त्वरित व्यावहारिक चाल: जनरेट किए गए टेस्ट का नाम बदलकर "should <behavior> when <edge condition>" और "should not <bad outcome> when <failure>" बनाएं। यदि आप उन्हें साफ़ तौर पर नहीं बदल पा रहे हैं, तो वे फोकस्ड नहीं हैं।

यदि आप Koder.ai के साथ ऐप बनाते हैं, तो यह चेकलिस्ट snapshots और rollback के साथ भी अच्छी तरह फिट बैठती है: टेस्ट जनरेट करें, उन्हें चलाएँ, और अगर नया सेट शोर जोड़ता है बिना कवरेज बढ़ाए, तो रोल बैक करें।

अगले कदम: इसे दोहराने योग्य वर्कफ़्लो बनाना

अपने प्रॉम्प्ट को एक एक-बार इस्तेमाल वाली चीज़ न मानें—इसे एक पुन: उपयोग योग्य हैर्नेस बनाएं। सीमाएँ, failure modes, और invariants को मजबूर करने वाला वह ब्लूप्रिंट प्रॉम्प्ट सहेजें और हर नए फ़ंक्शन, endpoint, या UI फ्लो के लिए दोहराएँ।

एक सरल आदत जो परिणामों को जल्दी सुधारेगी: हर टेस्ट के लिए एक वाक्य माँगें जो बताये कि यदि यह फेल हुआ तो यह किस बग को पकड़ता। अगर वह वाक्य सामान्य है, तो टेस्ट शायद शोर है।

अपना डोमेन इनवेरिएंट्स की एक जीवित सूची रखें। इसे अपने दिमाग में न रखें। जब भी आप वास्तविक बग पाते हैं, उसमें जोड़ें।

एक हल्का वर्कफ़्लो जिसे आप दोहरा सकते हैं:

एक छोटा कॉन्ट्रैक्ट निकालें: इनपुट, आउटपुट, एरर हैंडलिंग, और 3–5 इनवेरिएंट्स।
ब्लूप्रिंट प्रॉम्प्ट चलाएँ और सीमाएँ, failure modes, और इनवेरिएंट्स साथ में एक-लाइन जस्टिफिकेशन माँगें।
केवल शीर्ष 5–10 टेस्ट लागू करें जो अलग-अलग जोखिम कवर करते हैं।
रीफ़ैक्टर करें, फिर प्रॉम्प्ट को फिर चलाएँ यह देखने के लिए कि क्या नए जोखिम दिखाई देते हैं।
डुप्लीकेट्स को प्रून करें और उन्हीं टेस्टो को रखें जिन्होंने पिछले घटनाओं को पकड़ने की क्षमता दिखाई हो।

यदि आप चैट के जरिए ऐप बनाते हैं, तो यह चक्र Koder.ai (koder.ai) के अंदर चलाएँ ताकि कॉन्ट्रैक्ट, प्लान, और जनरेट किए गए टेस्ट एक ही जगह पर रहें। जब कोई रीफ़ैक्टर अप्रत्याशित रूप से व्यवहार बदलता है, तो snapshots और rollback की मदद से तुलना करना और इटरेट करना आसान हो जाता है जब तक आपका हाई-सिग्नल सेट स्थिर न हो।

अक्सर पूछे जाने वाले प्रश्न

How many unit tests should I generate per function?

Default: aim for a small set that would catch a real bug.

A quick cap that works well is 6–10 tests per unit (function/module). If you need more, it usually means your unit is doing too much or your contract is unclear.

What’s wrong with generating lots of happy-path tests?

Happy-path tests mostly prove that your example still works. They tend to miss the stuff that breaks in production.

High-signal tests target:

Boundaries (0/1/max, empty/null, off-by-one)
Failure modes (timeouts, invalid inputs, dependency errors)
Invariants (rules that must always hold, like “no partial write on error”)

What should I write down before asking an AI to generate tests?

Start with a tiny contract you can read in one breath:

Inputs: types, allowed ranges, what counts as empty/missing
Outputs: success shape and error shape
Side effects: what can be written/changed (DB, files, network)
“Must never happen”: crash, silent data loss, double charge, partial writes

Then generate tests from that contract, not from examples alone.

Which boundary cases are usually worth testing?

Test these first:

Min/max values (0, 1, max, max+1)
Empty vs present ("", [], null/nil)
Off-by-one (n-1, n, n+1)
Formatting edges (whitespace-only strings, leading zeros)
Time cutoffs (just before/after expiry)

Pick one or two per input dimension so each test covers a unique risk.

How do I write a good “failure mode” test instead of a shallow one?

A good failure-mode test proves two things:

The function returns a clear, expected error (type/message/status).
It fails safely:

no partial state changes
no leaked internal details
no retries or side effects you didn’t intend

If there’s a database write involved, always check what happened in storage after the failure.

How do I turn an invariant into a test assertion?

Default approach: turn the invariant into an assertion on observable outcomes.

Examples:

“Total never negative” → expect(total).toBeGreaterThanOrEqual(0)
“On error, no state changes” → assert no new rows / no flags flipped
“Idempotent” → call twice and assert the second call doesn’t change state

Prefer checking both and , because many bugs hide in “returned OK but wrote the wrong thing.”

When is a happy-path test still worth writing?

It’s worth keeping a happy-path test when it protects an invariant or a critical integration.

Good reasons to keep one:

It asserts a key invariant on normal input (e.g., rounding rules)
It locks down an API contract that callers rely on
It guards against a past incident regression

Otherwise, trade it for boundary/failure tests that catch more classes of bugs.

What should I ask the model to output before generating test code?

Push for PHASE 1: plan only first.

Require the model to provide:

6–10 proposed tests max
For each: intent, setup, input, expected result, why it’s high-signal
A small boundary matrix
A failure-mode list
3–5 invariants and how to assert them

Only after you approve the plan should it generate code. This prevents “20 look-alike tests” output.

How do I avoid tests that are brittle because they mock too much?

Default: mock only the boundary you don’t own (DB/network/clock), and keep everything else real.

To avoid over-mocking:

Don’t mock internal helpers just to mirror implementation
Use a real in-memory version when feasible, or a small fake with clear behavior
Mock the clock/randomness only when it affects the assertion

If a test breaks on refactor but behavior didn’t change, it’s often over-mocked or too implementation-coupled.

How can I quickly tell if an AI-generated test is low-value?

Use a simple deletion test:

If you delete the test and lose no boundary, no failure mode, and no invariant, it didn’t earn its place.

Also scan for duplicates:

If two tests would fail for the same bug, keep the one with the stronger assertion.
If assertions are just “not null” or “status 200,” strengthen them or remove the test.