अध्याय ५ · खण्ड I · 14 मिनेट
भ्रम (Hallucination)
जेनेरेटिभ मोडेलले विश्वासका साथ तथ्य किन आविष्कार गर्छन् — र तपाईंलाई हानि नपुर्याउँदै तिनलाई समात्ने व्यावहारिक बानी।
पुल्चोकमा पहिलो वर्षको राजनीतिशास्त्र विद्यार्थीले चाटजीपीटीलाई “नेपाली एकताबारे भानुभक्त आचार्यका पाँच उद्धरण” सोध्छन्। चाटजीपीटीले पाँच मीठा, राम्रोसँग श्रेय दिइएका उद्धरण निकाल्छ। विद्यार्थीले तिनलाई निबन्धमा टाँस्छन्। शिक्षण सहायकले उद्धरण हेर्दा तेस्रोलाई भानुभक्तले कहिल्यै नलेखेको चिन्छन्। पाँचैमध्ये एउटै वास्तविक छैन।
यो भ्रम हो — जेनेरेटिभ एआईको सबैभन्दा छलफल हुने असफलता मोड, र चुपचाप सबैभन्दा बढी हानि गराउने। मोडेलले झूट बोलेन। चुकेन। यसले ठ्याक्कै आफूलाई तालिम दिइएको काम गर्यो: प्रम्प्टले मागेको प्रकारको पाठजस्तो सुनिने पाठ उत्पादन गर्ने। उद्धरण वाक्यगत रूपमा सही, विषयगत रूपमा उपयुक्त, र पूर्ण रूपमा आविष्कारित छन्।
भ्रम किन हुन्छ
अध्याय १ बाट सम्झनुहोस्: भाषा मोडेल अर्को-शब्द भविष्यवक्ता हो। यसँग सत्य सङ्केत छैन — “यो थाहा भएको तथ्य हो” र “यो अनुमान हो” बीच कुनै आन्तरिक झण्डा छैन। प्रत्येक आउटपुट, यान्त्रिक रूपमा, अर्को के आउँछ भन्ने अनुमान हो।
विषयमा तालिम डाटा धनी र निरन्तर हुँदा (न्यूटनका नियमको आधार, सामान्य पाइथन वाक्यविन्यास, राम्रोसँग कागजात गरिएका ऐतिहासिक घटना), सबैभन्दा सम्भावित अर्को शब्द सामान्यतया सही अर्को शब्द हो। मोडेलले सही पाठ उत्पादन गर्छ — सही जान्दछ भनेर होइन तर सही पाठका ढाँचा यसले सिकेका छन् भन्ने हो।
विषयमा तालिम डाटा पातलो, विरोधाभासी, वा साधारण रूपमा अनुपस्थित हुँदा, मोडेलले अझै विश्वासका साथ अर्को शब्द उत्पादन गर्छ — तर यसले निकाल्ने ढाँचा कमजोर हुन्छन्। यो इन्टरपोलेसन गर्छ। सम्बन्धित विषयबाट सामान्यीकरण गर्छ। यसले विधामा सही सुनिने पाठ उत्पादन गर्छ कुनै अन्तर्निहित तथ्यले समर्थन नगर्दा पनि।
यो भ्रम हो। यो बग होइन। यो सिस्टमलाई अनिश्चितता फ्ल्याग गर्ने तरिका नदिईकनै सरल पाठ उत्पादन गर्न तालिम दिनुको पूर्वानुमेय परिणाम हो।
भ्रम कहाँ सबैभन्दा बढी देखा पर्छ
अपेक्षा गर्नुपर्ने केही ढाँचा:
विशिष्ट उद्धरण। लेखकलाई दिइएका उद्धरण, जर्नललाई दिइएका पत्र शीर्षक, पुस्तकका पृष्ठ नम्बर, सटीक तथ्याङ्क। मोडेलहरूले यी सबै विश्वासका साथ आविष्कार गर्छन्। ढाँचा विश्वसनीय छ (लेखक, वर्ष, जर्नल नाम, खण्ड); उद्धरित कामको अस्तित्व प्राय: होइन।
सूक्ष्म तथ्य। प्रमुख तालिम वितरणबाहिर कुनै पनि कुरा — विशिष्ट नेपाली गाउँ, व्यक्तिगत पेसेवर, व्यापक रूपमा अनुक्रमित अंग्रेजी स्रोतमा नदेखिने ऐतिहासिक घटना। मोडेलले केही उत्पादन गर्नेछ र त्यो केही सही सुनिनेछ।
उत्पन्न पाठ बीचमा अंक। तथ्याङ्क, मिति, मूल्य। मोडेल प्राय: सही वा नजिक-तर-गलत हुन्छ — आउटपुटबाट कुन हो थाहा पाउने तरिका छैन।
कानुनी र चिकित्सा विशिष्टता। लागू हुने मुलुकी देवानी संहिताको ठ्याक्कै दफा, नेपाली ब्रान्ड-नाम औषधिको खुराक, कुनै अधिकारिक प्रक्रिया चलाउने सटीक नियम। विश्वास उच्च छ, सटीकता परिवर्तनशील।
अपरिचित लाइब्रेरी प्रयोग गर्ने कोड। मोडेलले अस्तित्वमा नभएको प्रकार्य कल गर्ने कोड, वा अप्रचलित गरिएको प्यारामिटर प्रयोग गर्ने कोड, सम्पूर्ण रूपमा विश्वसनीय देखिने तरिकामा उत्पादन गर्नेछ।
वास्तविक नाम + विश्वसनीय जीवनी। तपाईंले थोरै चिनेका विशिष्ट नेपाली पेसेवरबारे मोडेललाई सोध्दा प्राय: सत्य र आविष्कारित तथ्यको मिश्रण निरन्तर प्रस्तुत गरिनेछ।
भ्रम कसरी समात्ने
काम गर्ने प्लेबुक:
नियम १ — सबै विशिष्ट तथ्यलाई प्रमाणित नभएसम्म असत्यापित मान्नुहोस्। उद्धरण, उद्धरण, तथ्याङ्क, मिति, नाम: प्रत्येकलाई प्रमाणीकरण आवश्यक हुने अनुमान मान्नुहोस्।
नियम २ — मोडेललाई तपाईंको स्रोत सामग्रीमा आधार दिनुहोस्। रिपोर्टको सारांश चाहनुहुन्छ भने रिपोर्ट टाँस्नुहोस्। उद्धरण चाहनुहुन्छ भने स्रोत टाँस्नुहोस्। मोडेल आफ्नो अगाडिको पाठलाई सन्दर्भ गर्न सक्दा तालिम-डाटा स्मृतिमा निर्भर हुँदा भन्दा धेरै सटीक हुन्छ।
नियम ३ — मोडेललाई आफ्नै अनिश्चितता फ्ल्याग गर्न भन्नुहोस्। सरल प्रम्प्ट थप: “आफ्नो उत्तरपछि, तपाईं उच्च विश्वास नभएका कुनै पनि विशिष्ट तथ्य (अंक, मिति, नाम, उद्धरण) सूचीबद्ध गर्नुहोस्, र किन व्याख्या गर्नुहोस्।” मोडेल आश्चर्यजनक रूपमा प्राय: आफ्ना कुन दाबीहरू अस्थिर छन् सही हुन्छ।
नियम ४ — दाउ उच्च भएको ठाउँमा रिट्रिभल सहितको मोडेल प्रयोग गर्नुहोस्। आधुनिक उपकरण (ब्राउजिङसहितको ChatGPT, Perplexity, कागजातसहितको Claude) ले वास्तविक स्रोत खोज्न र उद्धरण गर्न सक्छन्। तथ्यगत अनुसन्धानका लागि सादा LLM भन्दा यिनलाई प्राथमिकता दिनुहोस्।
नियम ५ — दोस्रो स्रोतसँग क्रस-चेक गर्नुहोस्। मोडेलले विश्वासका साथ उद्धरण दिँदा पनि शीर्षक Google Scholar मा वा लेखक विकिपिडियामा चलाउनुहोस्। प्रमाणीकरणको पाँच सेकेन्डले पछि लज्जाभन्दा कम लागत लिन्छ।
उदाहरण: बनाइएको उद्धरण समात्ने
हाम्रो विद्यार्थीमा फर्किनुहोस्। मोडेलका उद्धरणमा विश्वास गर्नुको साटो उनीहरूले सोधेका भए:
नेपाली एकताबारे भानुभक्त आचार्यका पाँच उद्धरण देऊ। प्रत्येकका लागि: ठ्याक्कै स्रोत (पाठ र पृष्ठ), र यो उद्धरण वास्तविक हो भन्ने तपाईंको विश्वास (१-१०)। वास्तविक स्रोत फेला पार्न सक्नुहुन्न भने स्पष्ट भन्नुहोस्।
२०२६ मा राम्रोसँग संरेखित मोडेलले बढी इमानदार उत्तर दिनेछ: सायद एक-दुई विश्वासी उद्धरण (राम्ररी प्रमाणित), तीन-चार “भानुभक्तको कामको विषयगत प्रतिनिधि तर ठ्याक्कै शब्द पुष्टि गर्न सक्दिनँ” भनेर फ्ल्याग गरिएका, र विशिष्ट सङ्ग्रह परामर्श गर्ने सिफारिस। उही मोडेल, उही कार्य, धेरै राम्रो आउटपुट — किनकि प्रम्प्टले अनिश्चितता लाई पहिलो-दर्जाको चिन्ता बनायो।
यो अध्यायको गहिरो पाठ हो: अधिकांश भ्रम मोडेलले तपाईंले मागेको कुरा दिँदै हो, तपाईंलाई वास्तवमा आवश्यक नभएको विश्वासका साथ। क्यालिब्रेट गरिएको आउटपुट माग्नु सबैभन्दा उच्च-लिभरेज परिवर्तन हो।
भ्रम कहिले सबैभन्दा महत्त्वपूर्ण
विषम सावधानी आवश्यक तीन श्रेणी:
-
तपाईंले प्रकाशित गर्ने वा श्रेय दिने कुनै पनि कुरा। सम्पादकीय, शैक्षिक काम, पत्रकारिता, आधिकारिक सञ्चार। प्रिन्टमा भ्रमित तथ्य तपाईंको प्रतिष्ठा हो, मोडेलको होइन।
-
उच्च-दाउको निर्णय चलाउने कुनै पनि कुरा। चिकित्सा, कानुनी, वित्तीय। यहाँ गलत तथ्यले पैसा, स्वास्थ्य, वा स्वतन्त्रता खर्चन्छ।
-
वास्तविक, नामिएको मानिस समावेश गर्ने कुनै पनि कुरा। वास्तविक मानिसका जीवनी, उद्धरण, वा कार्य भ्रमित गर्दा बदनामी जोखिम र व्यक्तिगत हानि सिर्जना गर्छ।
यी श्रेणीका लागि नियम: तथ्यको स्रोतका रूपमा जेनेरेटिभ एआई आउटपुटमा विश्वास नगर्नुहोस्। तपाईंले प्रमाणित गरेको सामग्री मस्यौदा, संरचना, सारांश गर्न प्रयोग गर्नुहोस्। अन्तर्निहित तथ्य आविष्कार गर्न प्रयोग नगर्नुहोस्।
कम-दाउका प्रयोगका लागि — मन्थन, आन्तरिक नोट, वार्तालाप, सामान्य लेखन — खुकुलो प्रमाणीकरण ठीक छ। तपाईंको मन्थनमा मोडेलको कहिलेकाहीं गलत तथ्यले तपाईंलाई हानि गर्दैन। उही गलत तथ्य अदालत फाइलिङमा गर्छ।
सुधारमा टिप्पणी
२०२२ र २०२६ बीच भ्रम महत्त्वपूर्ण रूपमा घटेको छ, तर समाधान भएको छैन। फ्रन्टियर मोडेलले पहिलेका भन्दा कम र साँघुरो दायराका विषयमा भ्रम गर्छन्। पुनःप्राप्ति-संवर्धित प्रणाली (वेब वा तपाईंका कागजात खोज्ने) ले तथ्यगत क्वेरीमा धेरै कम भ्रम गर्छन्। तर अन्तर्निहित संयन्त्र — आन्तरिक सत्य सङ्केत बिना पाठ उत्पादन — बदलिएको छैन।
यो बिस्तारै सुधार जारी रहने अपेक्षा गर्नुहोस्। कहिल्यै नहराउने अपेक्षा गर्नुहोस्। सबैभन्दा विश्वसनीय बानी तपाईंको आफ्नै प्रमाणीकरण हो, उपकरणको सटीकता होइन।
आफ्नो बुझाइ जाँच्नुहोस्
छोटो जाँच
—विद्यार्थीले चाटजीपीटीलाई "नेपाली एकताबारे भानुभक्त आचार्यका पाँच वास्तविक उद्धरण" सोध्छन् र पाँच मीठा, राम्रोसँग श्रेय दिइएका उद्धरण प्राप्त गर्छन्। के भइरहेको छ भन्ने सबैभन्दा सटीक विवरण के हो?
छोटो जाँच
—भ्रमको क्षति कम गर्न एकल सबैभन्दा उच्च-लिभरेज बानी के हो?
अब के?
हामीले सबैभन्दा छलफल हुने असफलता मोड ढाक्यौं। अर्को खण्ड चुप एकबारे हो — पूर्वाग्रह र सांस्कृतिक अन्धा क्षेत्र। जहाँ मोडेलले प्राविधिक रूपमा सही आउटपुट उत्पादन गर्छ जुन तर पनि नेपाललाई गलत बुझ्छ, किनकि तालिम डाटा नेपाल-विशिष्ट ढाँचामा पातलो थियो।