देवनागरी पढ्ने — ओसीआर र डिजिटाइजेसन

भाषा नेपालको बोलिने र डिजिटल पदार्थ हो भने, लेखाइ अभिलेख पदार्थ हो — र अधिकांश अझै पनि कागजमै छ। कुनै पनि मालपोत कार्यालय, कुनै पनि मन्त्रालय, कुनै पनि जिल्ला अदालतभित्र पस्नुहोस् — फारम, धनी प्रमाणपत्र, फैसला, रजिस्टरले भरिएका दराज भेट्नुहुनेछ। यो देशको सञ्चित लिखित ज्ञानलाई मोडेलले पढ्न मिल्ने बनाउन तपाईंलाई पहिलो प्रविधि चाहिन्छ — राम्रो देवनागरी ओसीआर।

देवनागरी ल्याटिनभन्दा किन गाह्रो छ

ल्याटिन ओसीआर मूलतः समाधान भइसकेको समस्या हो। टेसरेक्ट — खुला स्रोत मेसिन — ले छापिएको अंग्रेजीलाई सफा स्क्यानमा झन्डै-झन्डै शतप्रतिशत शुद्धतामा सम्हाल्छ। आधुनिक ट्रान्सफर्मर-आधारित इन्जिनले हस्तलेखन, बहु-स्तम्भ लेआउट, र घुमेका तस्बिरसँग पनि त्यही काम गर्छन्।

देवनागरी गाह्रो छ — विशिष्ट कारणले।

लिपि जोडिन्छ। अंग्रेजीमा book का अक्षर एक-अर्काको नजिक स्वतन्त्र रूपमा बस्छन्। नेपालीमा पुस्तक का अक्षर निरन्तर माथिल्लो रेखाले (शिरोरेखाले) बाँधिएका छन्, र धेरै अक्षर मिलेर संयुक्त अक्षर बन्छन् (पुस्तक को स्त यस्तै एक संयुक्त हो)। अंग्रेजीमा तालिम पाएको चरित्र-विभाजन एल्गोरिदम सजिलै बिग्रन्छ।

मात्रा माथि र तल बस्छन्। स्वर चिह्न — ि, ी, े, ै, ो, ौ, ं, ः — आफूले परिमार्जन गर्ने व्यञ्जनमाथि, तल, अघि वा पछि जोडिन्छन्। मोडेलले आधार अक्षर मात्र होइन, त्यसमा झुन्डेको सानो आभूषण पनि पत्ता लगाउनुपर्छ — जुन ध्वस्त फोटोकपीमा प्रायः केही पिक्सेल मात्र हुन्छ।

संयुक्त अक्षरले वर्णमालालाई गुणक बनाउँछन्। अंग्रेजीमा २६ अक्षर छन्। देवनागरीमा करिब ५० आधार चिह्न छन् — तर संयुक्त अक्षर र मात्रा सँगै, पहिचान मोडेलले सिक्नुपर्ने दृश्य एकाइको संख्या हजारौंमा पुग्छ। मोडेलले आफ्नो अंग्रेजी समकक्षीको तुलनामा कठिन वर्गीकरण समस्या समाधान गरिरहेको हुन्छ।

२०२६ मा के काम गर्छ

आज तीन परिवारका उपकरण प्रयोगयोग्य छन्:

१. गुगलको क्लाउड भिजन एपीआई देवनागरी समर्थनसहित सफा आधुनिक छपाइ राम्रोसँग सम्हाल्छ — उदाहरणका लागि छापिएको सरकारी परिपत्र वा प्रकाशित पुस्तक। हस्तलेखन, ध्वस्त फोटोकपी, र जटिल बहु-स्तम्भ सरकारी फारमसँग संघर्ष गर्छ।

२. इन्डिकओसीआर / भारत ओसीआर परिवारका खुला स्रोत मोडेल, प्रायः ट्रान्सफर्मर ब्याकबोनबाट फाइन-ट्यून, छापिएको नेपालीमा सम्मानजनक प्रदर्शन गर्छन् र तपाईंकै हार्डवेयरमा चलाउन सकिने सुविधा छ। गम्भीर आन्तरिक प्रयासका लागि पूर्वनिर्धारित प्रारम्भिक बिन्दु यिनै हुन्।

३. विशेष फाइन-ट्यून मोडेल — खुला ब्याकबोन लिएर तपाईंको विशिष्ट कागजात प्रकार (अदालत फैसला, जग्गा-धनी प्रमाणपत्र, नागरिकता) का केही हजार लेबल गरिएका नमुनामा तालिम। उच्च-मात्राको ऊर्ध्वाधर एप्लिकेसनका लागि यो दृष्टिकोणले सामान्य विकल्पलाई स्पष्ट रूपमा हराउँछ। सानो एक-पटकीय परियोजनाका लागि अति हो।

हस्तलिखित नेपालीका लागि — जुन देशको पुरानो कागजको अधिकांश हो — यिनै कुनै पनि समाधान भइसकेका छैनन्। लालपूर्जा (जग्गा-धनी प्रमाणपत्र) मा हस्तलिखित रकम, विद्यालय रजिस्टरको किनारामा टिपोट, अदालतको फाइलिङमा हस्ताक्षर: त्रुटि दर अझै यति उच्च छ कि बीचमा मानव अनिवार्य छ।

महत्त्वपूर्ण कागजी अभिलेख

नेपाली सार्वजनिक-हितको एआईलाई दशक पछाडि धकेल्न चाहनुहुन्छ भने तपाईंले केही कागजी अभिलेखको पहुँच गुमाउनुहोस्। उल्टो, यिनलाई राम्रोसँग डिजिटाइज गर्नु देशले गर्न सक्ने सबैभन्दा उच्च-लिभरेज कामहरूमध्ये एक हो। अपूर्ण सूची:

सर्वोच्च अदालत र उच्च अदालत फैसला अभिलेख — ५० वर्षभन्दा बढीको केस लो, मुख्यतया विविध गुणस्तरका स्क्यान पीडीएफ। खोज-योग्य, संरचित कोर्पसले नेपाली कानुनी अनुसन्धानलाई एकै रातमा रूपान्तरण गर्नेछ।
जग्गा राजस्व रेकर्ड (मालपोत कार्यालय) — हरेक जिल्लाले आफ्नै कागजी मोठ रजिस्टर राख्छ, साथमा नयाँ स्क्यान खाका। केही जिल्ला आंशिक डिजिटाइज छन्; धेरै छैनन्।
राष्ट्रिय अभिलेखालय, संस्कृति मन्त्रालय — पाण्डुलिपि, राजकीय अभिलेख, ऐतिहासिक कागजात।
विद्यालय र विश्वविद्यालयका लब्धाङ्क पत्र — देशको शैक्षिक इतिहास हुलाक र छापमार्फत व्यक्तिगत रूपमा प्रमाणित हुने हजारौं कागजी प्रमाणपत्रमा बस्छ।
स्वास्थ्य चौकी रजिस्टर — सार्वजनिक स्वास्थ्य प्रणालीको अग्रिम-पंक्ति डाटा, सुविधा-स्तरमा कागजमा राखिएको।
पुराना अखबार — गोरखापत्र सन् १९०१ देखि निरन्तर छापिँदै आएको छ। गोरखापत्रको स्क्यान, ओसीआर, खोज-योग्य कोर्पस अहिले अस्तित्वमा रहेका सबैभन्दा मूल्यवान् नेपाली-भाषाका पाठ स्रोतमध्ये एक हुनेछ।

व्यावहारिक कार्यप्रवाह

२०२६ मा एउटा काम गर्ने देवनागरी ओसीआर पाइपलाइन प्रायः यस्तो हुन्छ:

१. पूर्व-प्रशोधन — झुकाव सच्याउने, हल्ला हटाउने, कन्ट्रास्ट बढाउने। शुद्धताको ३०% लडाइँ यहीँ लडिन्छ, र मोडेलमा बढी रुचि राख्ने अनुसन्धाताले प्रायः यहाँ कम लगानी गर्छन्। २. लेआउट पहिचान — पृष्ठलाई पाठ ब्लक, तालिका, छाप, हस्ताक्षर, किनाराका टिप्पणीमा विभाजन। ३. पहिचान — प्रत्येक पाठ ब्लकमा देवनागरी-सचेत ओसीआर मोडेल चलाउने। ४. उत्तर-प्रशोधन — स्पष्ट गलत-पहिचान सच्याउन नेपाली भाषा मोडेल लगाउने (“रामलाल” लाई “रागलाल” पढिएको यस्तै त्रुटि एलएलएमले सफा गर्छ)। ५. मानव प्रमाणीकरण — कम्तीमा उच्च-दाँवको प्रयोगका लागि, मूल स्क्यानसँग आउटपुटको नमुना जाँच।

अन्तिम चरण आकर्षक छैन र प्रायः नछुटेको चरण हो। काम गर्ने पाइपलाइनलाई विश्वसनीय पाइपलाइनबाट छुट्याउने पनि त्यही नै हो।

आफ्नो बुझाइ जाँच्नुहोस्

Quick check

—

देवनागरी ओसीआर अंग्रेजी ओसीआरभन्दा प्राविधिक रूपमा गाह्रो हुनुको वास्तविक कारण कुन हो?

देवनागरी दायाँबाट बायाँ लेखिन्छ, अरबी जस्तै।
अक्षरहरू निरन्तर माथिल्लो रेखाले जोडिएका हुन्छन्, र स्वर मात्रा आधार चरित्रमाथि, तल, र वरिपरि जोडिन्छन् — जसले मोडेलले सिक्नुपर्ने दृश्य एकाइको संख्या गुणक बनाउँछ।
देवनागरीले गैर-मानक युनिकोड एन्कोडिङ प्रयोग गर्छ जुन धेरै ओसीआर पुस्तकालयले समर्थन गर्दैनन्।
धेरैजसो देवनागरी कागजात गैर-मानक मसीमा छापिएका हुन्छन् जुन क्यामेराले पक्रन गाह्रो हुन्छ।

अब के?

लेखाइ भाषाको एक रूप हो भने, बोलाइ अर्को — र नेपालको धेरै ग्रामीण भागका लागि अझ महत्त्वपूर्ण। अर्को खण्ड नेपाली एएसआर (स्वचालित वाणी पहिचान) र टीटीएस (पाठ-देखि-वाणी) बारे हो: फोनमा आज के काम गर्छ, र सार्वजनिक-हितको नेपाली स्वर कोर्पसले के खुलाउन सक्छ।