एलएलएम र फाउन्डेसन मोडेल

जेनेरेटिभ एआई राम्रोसँग प्रयोग गर्न तपाईं इन्जिनियर हुनुपर्दैन। तपाईंलाई च्याट बक्सपछाडि के छ भन्ने मानसिक मोडेल चाहिन्छ, किनकि एक पटक तपाईंसँग यो भयो भने मोडेलको व्यवहार धेरै अर्थपूर्ण हुन थाल्छ।

यो खण्ड त्यही मानसिक मोडेल हो — छोटो, जानीजानी अप्रत्यक्ष जहाँ सटीकताले तपाईंलाई सहयोग नगर्ने थियो, र तपाईंले आफै प्रमाणित गर्न सक्ने कुरामा आधारित।

ठूलो भाषा मोडेल अर्को-शब्द भविष्यवक्ता हो

चाटजीपीटी, क्लड, जेमिनाई, र तिनको वर्गको हरेक चाटबटको आधारमा ठूलो भाषा मोडेल (LLM) हुन्छ: न्यूरल नेटवर्क जुन एउटा काम गर्न तालिम पाएको छ — अघिल्लो सबै दिँदा अर्को शब्द (प्राविधिक: अर्को टोकन) अनुमान गर्ने।

यो हास्यास्पद सरल सुनिन्छ। यी प्रणालीले निबन्ध लेख्न, सम्झौता सारांश गर्न, वा नेपाली इमेल मस्यौदा बनाउन सक्ने पूरै कारण हो — यदि तपाईंले अर्को शब्द पर्याप्त भरोसायोग्य अनुमान गर्न सक्नुहुन्छ भने, अनुमान गरिराख्न र अनियमित लामो, सुसंगत पाठ उत्पादन गर्न सकिन्छ।

मोडेलले कहिल्यै “अनुच्छेद लेख्दैन।” यसले एक शब्द लेख्छ। अनि अहिलेसम्म लेखिएको पढ्छ — आफूले भर्खर निकालेको शब्द सहित — र अर्को शब्द लेख्छ। अनि अर्को। अनि अर्को। उद्देश्यको भ्रम, अनुच्छेद संरचना, तर्क पनि — यी सबै यो लूपबाट निस्किन्छन्।

“ठूलो” को वास्तविक अर्थ

LLM मा “ठूलो” दुई अंकको कुरा हो: प्यारामिटर र तालिम डाटा।

मोडेलसँग प्यारामिटर हुन्छन् — न्यूरल नेटवर्कभित्र सिकिएको भार। २०१९ मा GPT-2 सँग लगभग १.५ अर्ब थिए। २०२५ मा GPT-4 वर्गका मोडेलमा सयौं अर्ब वा बढी छन्।
मोडेल टोकन मा तालिम पाएको हुन्छ — पाठका टुक्रा। आधुनिक मोडेल खर्बौं टोकनमा तालिम पाउँछन्।

बढी प्यारामिटर + बढी तालिम डाटा + बढी गणना = फराकिलो दायराको कार्य अझ क्षमतापूर्वक सञ्चालन गर्ने मोडेल। यो ढाँचा — स्केलिङ — विगत पाँच वर्षको एआई अनुसन्धानको केन्द्रीय अन्तर्ज्ञान हो। यो यी मोडेल निर्माण गर्न महँगो हुने कारण पनि हो: फ्रन्टियर मोडेल तालिम दिन दशौं देखि सयौं करोड अमेरिकी डलर लाग्छ।

व्यावहारिक प्रभाव: तपाईंले यिनलाई तालिम दिन सक्नुहुन्न। लगभग कसैले सक्दैन। तपाईंले के गर्न सक्नुहुन्छ — र यो पाठ्यक्रमले के सिकाउँछ — एउटालाई राम्रोसँग प्रयोग गर्ने।

फाउन्डेसन मोडेल: एक मोडेल, धेरै प्रयोग

फाउन्डेसन मोडेल शब्दले फरक विचार वर्णन गर्छ। तालिमपछि उही आधार LLM लाई फेरि शून्यबाट तालिम नदिई धेरै विशेष प्रयोगका लागि अनुकूलन गर्न सकिन्छ।

आधार GPT-4 ले चाटजीपीटी, Microsoft Copilot, GitHub कोडिङ सहायक, दर्जनौं ग्राहक सेवा चाटबट, र Word भित्रको अनुवाद सुविधा चलाउँछ।
उही क्लड मोडेलले अनुसन्धान उपकरण, कोड सम्पादक, ग्राहक सेवा तैनाथी, र थुप्रै कम्पनीको आन्तरिक ज्ञान आधार चलाउँछ।

यो एक मोडेल, धेरै प्रयोग गुण नै “फाउन्डेसन” ले बताउँछ। यही कारण नेपाली उच्च माविका विद्यार्थीलाई इतिहास निबन्ध लेख्न सहयोग गर्ने उही मोडेलले खल्तीको इन्जिनियरलाई SQL क्वेरी लेख्न पनि सहयोग गर्न सक्छ। फाउन्डेसन दुवैलाई समर्थन गर्न पर्याप्त फराकिलो छ।

मोडेलले धेरै कुरा “किन” जान्दछ

आधुनिक LLM को तालिम डाटामा सार्वजनिक वेबको ठूलो अंश, पुस्तक, शैक्षिक पत्र, कोड रिपोजिटरी, र विविध सन्दर्भ सामग्री समावेश छ। तालिमको क्रममा मोडेलले कुनै पनि मानवले पढ्न सक्नेभन्दा बढी पाठ पढेको छ।

यो तथ्य जान्नु समान होइन। मोडेलले तथ्यको संरचित डाटाबेस भण्डारण गरेको छैन। यसले तथ्याङ्कीय ढाँचा भण्डारण गरेको छ — कुन शब्द सामान्यतया कुन पछि आउँछ, कुन प्रकारको अनुच्छेद कुन प्रकारको प्रश्न पछि आउँछ, कुन स्वर कहिले उपयुक्त हुन्छ। तपाईंले “भानुभक्त आचार्य को थिए?” सोध्दा मोडेलले उपयोगी उत्तर निकाल्छ किनभने यसले तालिम डाटामा भानुभक्तबारे धेरै छलफल देखेको छ, र ढाँचा उपयोगी सारांशका लागि पर्याप्त छन्।

परिणाम: विषयमा तालिम डाटा पातलो थियो — मानौं विशिष्ट नेवारी परिवारको वंशावली, वा कर्णालीको सानो गाउँका घटना — मोडेलसँग कुनै आधार छैन। यसले अझै उत्तर दिन कोशिस गर्नेछ, किनकि त्यो तालिम भएको हो। उत्तर आंशिक वा पूर्ण रूपमा रचित हुन सक्छ। अध्याय ५ मा फर्कनेछौं।

मोडेल धेरै भाषामा सरल किन छ

नेपाली विद्यार्थीले प्राय: सोध्ने प्रश्न: चाटजीपीटीले ज्यादातर अंग्रेजीमा तालिम पाएको हुनुपर्ने हो भने नेपालीमा कसरी राम्रो छ?

उत्तर दुई भागको हो। पहिलो, केही नेपाली पाठ तालिम डाटामा छ — विकिपिडिया, समाचार साइट, सरकारी कागजात, ब्लग पोस्ट। अंग्रेजी पाठभन्दा धेरै कम, तर शून्य होइन। दोस्रो, मोडेलले सङ्क्षेपी संरचना — व्याकरण, अर्थशास्त्र, अवधारणाबीचको सम्बन्ध — एक भाषाबाट केही, अर्कोबाट केही सिक्छ। संरचना सर्छ।

यसैले मोडेलले अंग्रेजीमा ज्यादातर तालिम पाएको शङ्का गर्दा पनि विश्वासयोग्य नेपाली इमेल लेख्न सक्छ। यही कारण मोडेल लिम्बू वा थारूजस्ता कम-स्रोत भाषामा खराब छ — अंग्रेजीबाट संरचनात्मक ढाँचा सर्छ, विशिष्ट शब्दभण्डार सर्दैन।

यी उपकरण प्रयोग गर्ने अर्थ के?

केही कुरा तपाईंले अब अपेक्षा गर्नुपर्छ:

मोडेल राम्रो-स्रोत भाषा (अंग्रेजी, र नेपाली सहित केही) मा धेरै राम्रो छ। कम-स्रोत भाषामा घट्छ।
मोडेल व्यापक छलफल भएको विषयमा धेरै राम्रो छ, साँघुरामा होइन। भानुभक्त, हो; तामाङ गाउँको विशिष्ट इतिहास, होइन।
मोडेल विशेषतालाई नक्कल गर्नमा धेरै राम्रो छ — विशिष्ट कुरा तथ्यगत रूपमा सही हुनुभन्दा। इमेल मस्यौदा — सजिलो। मुलुकी देवानी संहिताको ठ्याक्कै दफा उद्धरण — प्रमाणीकरण बिना जोखिमपूर्ण।

ती तीन ढाँचा दिमागमा राख्नुभयो भने यो पाठ्यक्रमको धेरैजसो आउने कुरा आश्चर्यभन्दा विस्तार जस्तो लाग्नेछ।

आफ्नो बुझाइ जाँच्नुहोस्

छोटो जाँच

—

चाटजीपीटी वा क्लडको मूलमा के छ?

पूर्व-लेखिएका उत्तरको डाटाबेस
रियल-टाइममा वेब स्क्र्याप गर्ने खोजी इन्जिन
अघिल्लो सबै दिँदा अर्को शब्द अनुमान गर्न तालिम पाएको न्यूरल नेटवर्क
प्रश्नको उत्तर दिन हाते-लिखित नियमको सेट

अब के?

हामीले इन्जिन हेर्‍यौं। अर्को खण्ड इन्जिनमा के राख्न सकिन्छ र के निस्किन्छ बारे हो — मोडालिटी: पाठ, छवि, अडियो, भिडियो, कोड। प्रत्येकको आफ्नो शक्ति, कमजोरी, र सबैभन्दा परिचित उपकरण छन्।