अध्याय २ · खण्ड III · 17 मिनेट
नेपाली वाणी — एएसआर र टीटीएस
देशको आधा भन्दा बढी जनसङ्ख्याका लागि पढ्ने-लेख्ने सफ्टवेयरसँग अन्तरक्रियाको सजिलो माध्यम होइन। नेपालीमा वाणीलाई फोनमा, कम ब्यान्डविथमा काम गराउन के चाहिन्छ।
करिब एक-तिहाइ वयस्क नेपालीले पाठ इन्टरफेस आराम संग प्रयोग गर्न सक्ने गरी पढ्न सक्दैनन्। अझ ठूलो हिस्साले पढ्न सक्छन् तर फोनमा टाइप गर्नु सुस्त र त्रुटिपूर्ण लाग्छ — विशेष गरी देवनागरीमा। यी प्रयोगकर्ताका लागि वाणी सुविधा होइन — यो उनीहरूले सफ्टवेयर प्रयोग गर्ने प्राथमिक माध्यम हो। यो खण्ड नेपाली वाणीमा आज के काम गर्छ र के छुटेको छ भन्ने हो।
वाणी समस्याका दुई पाटा
वाणी एआईका दुई पक्ष छन्: एएसआर (स्वचालित वाणी पहिचान) ले अडियोलाई पाठमा फेर्छ; टीटीएस (पाठ-देखि-वाणी) ले पाठलाई अडियोमा फेर्छ। संवादात्मक एपका लागि दुवै चाहिन्छ — एएसआरले प्रयोगकर्ताको वाणी प्रश्न लिने, टीटीएसले प्रणालीको जवाफ बोलेर सुनाउने। नेपालीमा दुवैको कठिनाइ रेखा फरक छ।
नेपालीका लागि एएसआर छिटो सुधार हुँदैछ। ओपनएआईको व्हिस्पर मोडेलले बक्सबाहिर नेपाली सहनयोग्य रूपमा ट्रान्स्क्राइब गर्न सक्छ — विशेष गरी ठूला साइजमा। डिस्टिल-व्हिस्पर र अन्य समुदाय भेरियन्ट सहनयोग्य विलम्बतामा फोनमै चल्छन्। सफा पढिएको वाणीका लागि — पत्रकारले स्क्रिप्ट पढिरहेको, शिक्षकले पाठ पढिरहेको — शुद्धता अब साँच्चै उपयोगी छ।
संवादात्मक नेपालीका लागि एएसआर धेरै गाह्रो छ। कोड-मिश्रण, क्षेत्रीय उच्चारण (सुदूरपश्चिमी नेपाली, तराई-प्रभावित हिन्दी-नेपाली, नेवारी-प्रभावित काठमाडौंको नेपाली), पृष्ठभूमि हल्ला, धेरै वक्ता, वा छिटो अनौपचारिक भाषण भन्ने बित्तिकै त्रुटि दर बढ्छ। बसमा क्लिनिकल नोट बोलिरहेका स्वास्थ्यकर्मी कठिन समस्या हो; उनै स्वास्थ्यकर्मीले शान्त कोठामा क्लिपबोर्डबाट पढ्दा सजिलो समस्या हो।
नेपालीका लागि टीटीएस अझ असमान छ। गुगलको टेक्स्ट-टु-स्पीच र थोरै खुला स्रोत परियोजनाले बुझिने नेपाली उत्पादन गर्छन्, तर वाणी सपाट हुने प्रवृत्ति छ — तटस्थ पिच, तटस्थ सम्मानार्थी रजिस्टर, ऋण शब्दमा हल्का दक्षिण एसियाली अंग्रेजी उच्चारण देखिने। औसत गाउँको रेडियो उद्घोषक जस्तो सुनिने व्यापक रूपमा तैनात नेपाली स्वर छैन। बजार अहिले यो खाडल पुर्न लागत आकर्षण गर्ने आकारको भइसकेको छैन।
फोनले वास्तवमा के गर्न सक्छ
तपाईंसँग रहेकै फोनमा उपयोगी वाणी यस्तो देखिन्छ। व्हिस्पर-स्मल (करिब २४.४ करोड प्यारामिटर) अन-डिभाइस इन्फरेन्ससहित मध्यम-स्तरको एन्ड्रोइडमा आरामसँग चल्छ, छोटा वाक्यांश करिब १–२ सेकेन्डमा ट्रान्स्क्राइब गर्छ। डिस्टिल्ड टीटीएस इन्जिनले सर्भरमा फर्किनै नपरी छोटा जवाफ बोलेर सुनाउन सक्छ।
परिणाम स्पष्ट छ। ग्रामीण नियुक्तिमा भएकी स्वास्थ्यकर्मीले आज नै आफ्नो फोनमा नेपालीमा भिजिट नोट बोलेर रेकर्ड गर्न सक्छिन्, स्थानीय रूपमा ट्रान्स्क्राइब गराएर भण्डारण गर्न सक्छिन्, र टावर पुगेपछि सिङ्क गर्न सक्छिन्। क्लाउड निर्भरता छैन, मासिक शुल्क छैन, बिरामीको डाटा फोनबाट बाहिर जाँदैन। प्रविधि छ। उत्पादन छैन।
डाटासेट खाडल
भोलि देशको नेपाली वाणी एआईमा उल्लेखनीय सुधार ल्याउन चाहनुहुन्छ भने तपाईंले गर्न सक्ने एउटा सबैभन्दा उच्च-लिभरेज काम भनेको राम्रो सार्वजनिक नेपाली वाणी कोर्पस बनाउनु हो। मोजिल्ला कमन भ्वाइस परियोजनामा नेपाली खण्ड छ, तर यो हिन्दी वा बङ्गाली समानको तुलनामा निकै सानो छ, र संवादात्मक भन्दा पढिएको वाणीतर्फ झुकेको छ।
गम्भीर कोर्पसमा यी हुनुपर्छ:
- धेरै क्षेत्रीय बोली — पूर्वी, पश्चिमी, सुदूरपश्चिमी, मधेसी, नेवार-प्रभावित काठमाडौंको — साथमा देशका प्रमुख गैर-नेपाली भाषा (मैथिली, भोजपुरी, तामाङ, थारू) जसका लागि वाणी एआई अझ कम सेवित छ।
- दुवै लिङ्ग, सबै वयस्क उमेर समूह। अधिकांश युवा पुरुष आवाजमा बनाइएको वाणी मोडेलले अरू सबैलाई बढी गलत पहिचान गर्छ — यो विश्वव्यापी ज्ञात निरन्तर निष्कर्ष हो।
- दुवै सफा पढिएको वाणी र हल्लाजनित संवादात्मक वाणी, करिब बराबर अनुपातमा।
- प्रति-वाक्यांश मेटाडाटा — जिल्ला, उमेर समूह, लिङ्ग, रेकर्डिङ उपकरण, परिवेशीय हल्ला अवस्था — जसले अनुसन्धाताहरूलाई मोडेल कहाँ चुक्छ मापन गर्न दिन्छ।
यो महिनादेखि वर्षौंको केन्द्रित काम हो। यो ठीकठीकै गैरसरकारी संस्था–विश्वविद्यालय साझेदारीले राम्रोसँग गर्न सक्ने काम पनि हो, र देशमा अहिले ठूलो स्तरमा नचलिरहेको सम्भवतः सबैभन्दा उपयोगी एआई-नजिकको परियोजना हो।
आफ्नो बुझाइ जाँच्नुहोस्
Quick check
—एक टोलीले इन्जिनियरिङ प्रयास लगानी गर्ने तीन विकल्पबीच छनोट गर्दैछ: (i) सफा पढिएको वाणीका लागि राम्रो नेपाली एएसआर, (ii) हल्लाजनित संवादात्मक वाणीका लागि राम्रो नेपाली एएसआर, वा (iii) स्थानीय सुनिने राम्रो नेपाली टीटीएस। २०२६ मा प्रविधिको अवस्थाका आधारमा, प्रभावकारी नयाँ कामका लागि सबैभन्दा ठाउँ कुनमा छ?
अब के?
भाषा र लेखाइ यहीँ बन्द हुन्छ। अध्याय ३ ले क्षेत्र पूर्ण रूपमा फेर्छ — पैसामा। देश विप्रेषण, मोबाइल भुक्तानी, र अनौपचारिक ऋणमा चल्छ; पहिलो दुईभित्र एआई पहिले नै गहिरो छ र तेस्रोमा झन्डै-झन्डै अनुपस्थित। हामी एआई पहिले नै कहाँ बस्छ र कहाँ बस्न सक्छ हेर्नेछौं।