अध्याय २ · खण्ड I · 20 मिनेट
नेपाली एनएलपी कहाँ छ
आज ठूला भाषा मोडेलले नेपालीसँग के गर्न सक्छन् र के सक्दैनन् — शब्दभण्डार, टोकनाइजेसन, कोड-मिक्सिङ, सम्मानार्थी रूप, र अंग्रेजी-केन्द्रित टोकनाइजरको लुकेको मूल्य — को इमानदार दृष्टिकोण।
आधुनिक भाषा मोडेललाई नेपालीमा इमेल लेख्न भन्नुहोस् — पहिलो नजरमा अचम्म लाग्ने राम्रो परिणाम पाउनुहुनेछ। विराम चिह्न ठाउँमा, व्याकरण मूलतः सही, वाक्य संरचना चल्ने। नजिकबाट पढ्नुहोस् — सिलाइ देखिन थाल्छ। सम्मानार्थी तह डगमगिन्छन्। मुहावरा शब्दशः अनुवाद हुन्छन्। दिपावलीलाई आरामसँग चिन्ने मोडेलले कहिलेकाहीँ तिहारलाई होलीसँग रुलाउँछ। यो खण्ड किन हो भन्ने हो।
इमानदार आधार
करिब २०२६ का लागि, प्रमुख व्यावसायिक मोडेलमा नेपालीको मोटो अवस्था यस्तो छ:
- दैनिक प्रयोगका लागि उत्पादन सक्षम छ — इमेल, सारांश, मैत्रीपूर्ण कुराकानी, साधारण अनुवाद।
- छोटो, राम्रो ढाँचाको इनपुटमा नेपाली प्रश्नको बुझाइ प्रायः ठीक छ; इनपुट लामो हुँदा, अंग्रेजीसँग कोड-मिक्स हुँदा, वा प्राविधिक शब्दभण्डारमा पस्दा छिट्टै बिग्रन्छ।
- नेपालबारे तथ्यगत ज्ञान — इतिहास, भूगोल, वर्तमान राजनीति, संघीय संरचना — अधूरो छ, र अन्य कम-स्रोत विषयमा जति आत्मविश्वासका साथ गलत हुन्छ।
- सांस्कृतिक धारा — सम्मानार्थी, नाता शब्द, चाडको समय, क्षेत्रीय भाषागत भिन्नता — सबैभन्दा कमजोर तह हो, र सबैभन्दा बढी “विनम्र देखिने तर गलत” उत्तर दिने यही नै हो।
यहाँ सुधारको रेखा कडा छ। एक वर्षपछि आउने मोडेल उल्लेखनीय रूपमा राम्रा हुनेछन्। तर खाडलको आकार — रूपमा बलियो, तथ्यमा कमजोर, संस्कृतिमा अन्धो — केही समय कायम रहन सक्छ।
टोकनाइजर किन चुपचाप महँगो छ
हरेक व्यावसायिक एलएलएमभित्र एउटा टोकनाइजर लुकेको हुन्छ — जसले तपाईंको इनपुट पाठलाई मोडेलले उपभोग गर्ने टुक्रामा बाँड्छ। टोकनाइजरहरू पाठ कोर्पसमा तालिम पाएका हुन्छन्, र यो पाइपलाइनको हरेक कुरा जस्तै, ती कोर्पस मुख्यतया अंग्रेजी हुन्।
व्यावहारिक परिणाम: नेपाली वाक्य प्रायः अंग्रेजी समानको तुलनामा धेरै बढी टोकनमा टुक्रिन्छ। जहाँ "How are you?" ४ टोकन हुन सक्छ, "तपाईंलाई कस्तो छ?" १२ देखि २० — कहिलेकाहीँ बढी — किनकि प्रत्येक देवनागरी अक्षर (र प्रत्येक संयुक्त मात्रा) ले आफ्नै टोकनको खर्च लाग्न सक्छ।
समाधान छन्। केही प्रदायकले देवनागरीलाई अरूको तुलनामा अधिक कुशलतापूर्वक सम्हाल्ने टोकनाइजर पठाउँछन् — मापन गर्न लायक छ। ल्लामा र क्वेन जस्ता खुला-वजन मोडेललाई नेपाली-सचेत टोकनाइजरसहित फाइन-ट्यून गर्न सकिन्छ, र खाडल उल्लेखनीय रूपमा साँघुरो हुन्छ। तर अन्तर्निहित मोडेलहरूमा थप नेपाली समावेश गरेर पूर्व-तालिम नभएसम्म कर बाँकी रहन्छ।
कोड-मिश्रित नेपाली — नेपाली + अंग्रेजी + हिन्दी
वास्तविक नेपाली, विशेष गरी लेखन र शहरमा, विरलै शुद्ध हुन्छ। एउटा सामान्य शहरी ह्वाट्सएप सन्देश यस्तो हुन्छ: "yaar kasto छ aja, plan के छ?" — तीन भाषा, दुई लिपि, एक वाक्य। यो सामान्य सञ्चार हो, स्लाङ होइन — र यो सम्हाल्न नसक्ने नेपाली एनएलपी उत्पादन प्रयोगयोग्य हुँदैन।
मोडेलले पहिलेभन्दा कोड-मिश्रित नेपाली अब राम्रोसँग सम्हाल्छन्, तर अझै पनि सफा एक-भाषीय आउटपुटमा “सुधार” गर्ने प्रवृत्ति छ। प्रयोगकर्ताले एपमा रोमनाइज्ड नेपाली टाइप गर्छन्; मोडेलले औपचारिक देवनागरीमा जवाफ दिन्छ। प्रयोगकर्तालाई भाषण सुनेजस्तो लाग्छ, र उत्पादन प्रयोग गर्न छाड्छन्।
सम्मानार्थी रूप — खस्ने ढोका
नेपालीमा “तिमी” का लागि कम्तीमा तीन सम्मानार्थी तह छन् — तँ, तिमी, तपाईं — साथै आदरार्थी हजुर। गलत तह छनोट गर्नु विनम्रताको गल्ती होइन; धेरै सन्दर्भमा यो सामाजिक गल्ती हो — वक्ताले नचाहेको हेला वा निकटता संकेत गर्छ।
विदेशी एलएलएमहरूले सम्मानार्थी रूप अनुमानले सम्हाल्छन्, र त्यो अनुमान प्रायः तपाईं हुन्छ — औपचारिक रूपमा सुरक्षित, धेरैजसो अप्ठ्यारो ढङ्गले। आफ्नो परम जिगरी साथीलाई एआई-उत्पन्न जवाफ शुद्ध तपाईं रूपमा पठाउने प्रयोगकर्तालाई साथीले अपरिचित ठान्नेछ। नेपाली-सचेत उत्पादन निर्माण भनेको प्रायः आधार मोडेलमाथि स्पष्ट सम्मानार्थी तह थप्नु, सन्दर्भबाट सही तह छानेर अनुसार पुनर्लेख्नु हो।
उत्पादन निर्माताका लागि यसको अर्थ
नेपाली-भाषाको उत्पादन बनाउनेका लागि तीन व्यावहारिक परिणाम:
१. अनूदित अंग्रेजी होइन, वास्तविक नेपालीमा परीक्षण गर्नुहोस्। अनूदित अंग्रेजी बेन्चमार्कमा राम्रो स्कोर गर्ने मोडेल तपाईंका प्रयोगकर्ताले लेख्ने वास्तविक सन्देशमा चुक्न सक्छ। प्रामाणिक नेपालीमा मूल्याङ्कन सेट बनाउनुहोस् — कोड-मिश्रित, रोमन-र-देवनागरी, तपाईंका प्रयोगकर्ता बोल्ने सम्मानार्थी तहमा।
२. टोकनाइजर कर बजेटमा राख्नुहोस्। सुविधाको मूल्य तोक्दा प्रति सन्देश अंग्रेजी सुविधाको तुलनामा ३–५ गुणा खर्च मान्नुहोस्। त्यो गुणकमा एकाइ अर्थशास्त्र काम गर्दैन भने पठाउनुअघि पुनः डिजाइन गर्नुहोस्।
३. फाइन-ट्यून गर्ने योजना बनाउनुहोस्। केही हजार उच्च गुणस्तरका नेपाली उदाहरणमा सानो फाइन-ट्यून — तपाईंकै उत्पादनको स्वर, तपाईंकै सम्मानार्थी पूर्वनिर्धारित — ले कुनै पनि प्रम्प्ट-इन्जिनियरिङ चालभन्दा बढी गुणस्तर फर्काउँछ। खुला-वजन मोडेलका लागि क्षमता कम मूल्यमा छ; बीचमा बाधा भनेको सक्रियता ऊर्जा मात्र हो।
आफ्नो बुझाइ जाँच्नुहोस्
Quick check
—एक काठमाडौंको स्टार्टअपले नेपालीमा प्रयोग हुने एआई च्याटबट सुविधाको मूल्य निर्धारण गर्दैछ। तिनले अंग्रेजीमा प्रति सन्देश $०.०१ को बेन्चमार्क पाएका छन्। कुनै पनि अप्टिमाइजेसनभन्दा अघि नेपालीमा त्यही सुविधाका लागि सबैभन्दा उचित प्रारम्भिक बजेट मान्यता के हो?
Quick check
—नेपाली सम्हाल्दा आधुनिक एलएलएम कुन तरिकाले *सबैभन्दा कमजोर* छन्?
अब के?
नेपाली देशको बोलिने र टाइप गरिने पदार्थ हो भने, लेखिएको पदार्थ — धेरैजसो अझै कागजमा, अदालतका फारम, जग्गा-धनी प्रमाणपत्र, विद्यालय रजिस्टर — आफ्नै समस्या हो। अर्को खण्ड देवनागरी ओसीआरबारे हो: देशको कागजी अभिलेखलाई मेसिनले पढ्न मिल्ने बनाउने।