ailiteracynepal 🇳🇵
पाठ आकार

अध्याय १ · खण्ड III · 14 मिनेट

पाठ, छवि, अडियो, भिडियो

जेनेरेटिभ एआईले आज सञ्चालन गर्ने चार मुख्य "मोडालिटी" — प्रत्येक केमा राम्रो छ, उत्तम परिचित उपकरण के हुन्, र प्रत्येक कहाँ चुक्छ।

“जेनेरेटिभ एआई” एक उपकरण होइन। यो एक श्रेणी हो, मोडेलले उत्पादन गर्ने आउटपुटको प्रकार को वरिपरि खुकुलो रूपमा व्यवस्थित। आउटपुट प्रकारलाई मोडालिटी भनिन्छ, र कुन उपकरण प्रयोग गर्ने भन्ने लगभग हरेक व्यावहारिक प्रश्न यसैमा आउँछ: मलाई कुन मोडालिटी चाहिन्छ?

यो खण्ड भ्रमण हो। चार मोडालिटी, प्रत्येक केमा राम्रो छ, र २०२६ मा कलाको स्थिति।

पाठ

सबैभन्दा परिपक्व र सबैभन्दा उपयोगी मोडालिटी। तपाईंले चिन्नुहुने उपकरण:

  • चाटजीपीटी (OpenAI), क्लड (Anthropic), जेमिनाई (Google) — ठूला सामान्य-उद्देश्य च्याट मोडेल। तीनै नेपालीलाई क्षमतापूर्वक र अंग्रेजीलाई असाधारण रूपमा सञ्चालन गर्छन्।
  • Microsoft Copilot — GPT वरिपरिको Microsoft-ब्रान्डेड वर्‍यापर, Office मा एकीकृत।
  • साना र खुला-स्रोत: Llama, Mistral, Qwen — प्रयोगयोग्य तर बढी प्राविधिक सेटअप चाहिन्छ; डाटा आफ्नै सर्भरमा राख्नुपर्ने सङ्गठनका लागि सान्दर्भिक।

पाठ मोडेल केमा राम्रा छन्:

  • मस्यौदा (इमेल, रिपोर्ट, पोस्ट, सारांश)।
  • सम्पादन (कस्ने, पुनर्संरचना, स्वर बदल्ने)।
  • अनुवाद, विशेष गरी प्रमुख भाषाबीच।
  • फोहोर पाठबाट संरचित डाटा निकाल्ने।
  • त्रुटि स्वीकार्य भएको सामान्य ज्ञान प्रश्नको उत्तर।
  • सामान्य कार्यका लागि कोड उत्पादन।

कहाँ चुक्छन्:

  • तालिम डाटाबाहिरका विशिष्ट व्यक्ति, स्थान, घटनाका विशिष्ट तथ्य। तिनले विश्वासका साथ बनाउँछन्।
  • केही चरणभन्दा बढी गणित। तिनले प्राय: विश्वासका साथ गलत अंकगणित निकाल्छन्।
  • उपकरणसँग लाइभ वेब पहुँच नभए नवीनतम जानकारी चाहिने कुनै पनि कुरा।
  • लामो शृङ्खलामा निरन्तर तर्क।

पाठ मोडेल कामका भारवाहक हुन्। यो पाठ्यक्रमले सिकाउने धेरैजसो यिनैमा लागू हुन्छ।

छवि

सबैभन्दा प्रभावशाली मोडालिटी। २०२६ मा तीन प्रमुख खेलाडी:

  • Midjourney — सबैभन्दा बलियो सौन्दर्य; सदस्यता-आधारित; आफ्नै एपमा चल्छ।
  • DALL·E 3 — चाटजीपीटी प्लसमा निर्मित; सौन्दर्यका हिसाबले Midjourney भन्दा कमजोर तर पाठ मोडेलसँग कडाइले एकीकृत।
  • Stable Diffusion (र धेरै खुला-स्रोत संस्करण) — चाहनुहुन्छ भने आफ्नै हार्डवेयरमा चल्छ, अनन्त अनुकूलन योग्य, बढी सेटअप चाहिन्छ।

दर्जनौं अरू छन् — Ideogram, Flux, Imagen, Adobe र Canva भित्रको छवि जनरेटर — तर ढाँचा एउटै हो। तपाईंले प्रम्प्ट लेख्नुहुन्छ, मोडेलले छवि उत्पादन गर्छ।

छवि मोडेल केमा राम्रा छन्:

  • शैलीकृत कला, चित्रण, मूड बोर्ड।
  • अवधारणा डिजाइन र दृश्य अन्वेषण।
  • विवरण ठ्याक्कै हुनुनपर्ने स्टक-फोटो शैलीका छवि।

कहाँ चुक्छन्:

  • छविभित्र पाठ। अधिकांशले पोस्टर वा साइनमा पाठ राख्न भन्दा देवनागरी (र अंग्रेजी समेत) गलत हिज्जे गर्छन्।
  • हात र औंला। प्रसिद्ध असफलता मोड — पाँच औंला छ हुन्छ, चार हुन्छ — अनौठो असङ्गति।
  • विशिष्ट व्यक्ति। “नेपालका २०२४ का प्रधानमन्त्री” सोध्दा अस्पष्ट नेपाली-जस्ता तर वास्तविक व्यक्ति होइन निकाल्छ।
  • सांस्कृतिक विशिष्टता। “परम्परागत नेवारी घर” भन्दा नेवारी अनुभव भएको छवि निकाल्छ तर वास्तुकलात्मक विवरण प्राय: गलत हुन्छ।

अडियो: वाक् र स्वर

अडियो केही उप-मोडालिटीमा फैलिन्छ, प्रत्येकका आफ्ना उपकरण।

वाक्-देखि-पाठ (ट्रान्स्क्रिप्सन)। रेकर्डिङ भित्र, पाठ बाहिर। प्रमुख उपकरण OpenAI Whisper हो, जुन नेपाली पनि आश्चर्यजनक रूपमा राम्रो सञ्चालन गर्छ। पत्रकारिता, बैठक ट्रान्स्क्रिप्सन, पोडकास्ट सबटाइटल, र पहुँचयोग्यताका लागि व्यापक प्रयोग।

पाठ-देखि-वाक् (स्वर संश्लेषण)। पाठ भित्र, अडियो बाहिर। ElevenLabs सबैभन्दा परिचित स्वर क्लोनिङ सेवा; OpenAI, Google, र धेरै साना सेवाले पनि यो प्रस्ताव गर्छन्। नेपाली स्वर संश्लेषण द्रुत रूपमा अघि बढिरहेको छ — २०२४ देखि बहुभाषिक मोडेलले उपयोगी प्राकृतिक नेपाली निकाल्छन्, सावधान कानले सिन्थेटिक चिन्न सक्छ।

सङ्गीत उत्पादन। SunoUdio ले पाठ प्रम्प्टबाट पूर्ण-लम्बाइको गीत उत्पादन गर्छन्। गुणस्तर प्रभावशाली छ, प्रतिलिपि अधिकार जटिल छ, काम गर्ने सङ्गीतकारका लागि सांस्कृतिक प्रभाव वास्तविक छ।

अडियो कहाँ चुक्छ:

  • दृढ क्षेत्रीय उच्चारणका वक्ताहरू कम सटीकताका साथ ट्रान्स्क्राइब हुन्छन्।
  • नेपाली स्वर संश्लेषणमा अझै सूक्ष्म प्रोसोडी र अन्तर्धारा त्रुटि छन् जुन एआईलाई धोखा दिन्छन्।
  • सङ्गीत उत्पादनले शास्त्रीय राग वा विशिष्ट नेपाली परम्परागत रूपको सांस्कृतिक गहिराइ मिलाउन सक्दैन।

भिडियो

नवीनतम र सबैभन्दा छिटो सुधार हुने मोडालिटी, र अति-प्रचारको सबैभन्दा प्रवण।

२०२६ मा प्रमुख उपकरण Sora (OpenAI), Veo (Google), Runway, र Pika हुन्। तिनले पाठ प्रम्प्टबाट छोटा क्लिप — सामान्यतया ५ देखि ६० सेकेन्ड — उत्पादन गर्छन्। गुणस्तर वर्षानुवर्ष नाटकीय रूपमा सुधारिएको छ। लागत अझै उच्च छ (प्रति सेकेन्ड भिडियो सेन्ट देखि डलर)।

केमा राम्रा छन्:

  • छोटा शैलीगत क्लिप, बि-रोल, सपनाजस्ता क्रम।
  • विद्यमान भिडियोलाई फरक शैलीमा अनुकूल।

कहाँ चुक्छन्:

  • निरन्तरता नगुमाई लगभग एक मिनेटभन्दा लामो कुनै पनि कुरा।
  • अभिनेताको विशिष्ट पहिचान वा विशिष्ट वास्तविक स्थान चाहिने कुनै पनि कुरा।
  • लामो क्रममा यथार्थवादी भौतिकशास्त्र — वस्तुहरू देखापर्छन् र हराउँछन्, वा अनौठो ढङ्गले चल्छन्।

२०२६ को इमानदार मूल्याङ्कन: भिडियो उत्पादन प्रभावशाली छ, अधिकांश प्रोडक्सन कामका लागि छोटो-फरम सामाजिक सामग्री र प्रोटोटाइप बाहिर अझै उपयोगी छैन। यो बदलिनेछ। यो मोडालिटीलाई विशेष गरी ध्यानले हेर्नुहोस्।

कोड

विशेष केस। कोड प्राविधिक रूपमा पाठ हो, तर विशेषीकृत उपकरण — GitHub Copilot, Cursor, Windsurf, Claude Code — ले कोड उत्पादनलाई आफ्नै मोडालिटीजस्तो बनाउँछन्।

२०२६ मा उपयोगी क्षमता:

  • बोइलरप्लेट स्वतः पूरा गर्ने।
  • भाषाबीच अनुवाद।
  • परीक्षण र कागजात लेख्ने।
  • विद्यमान कोड व्याख्या।
  • त्रुटि सन्देश डिबग।

कहाँ चुक्छन्:

  • कोड बस्ने ठूलो प्रणाली बुझ्न आवश्यक कुनै पनि कुरा।
  • सूक्ष्म सहीपन — उत्पन्न कोड जुन कम्पाइल हुन्छ र सही देखिन्छ तर सूक्ष्म ढङ्गले गलत छ।
  • सुरक्षा-संवेदनशील कोड, जहाँ विश्वासका साथ-गलत खतरनाक छ।

२०२६ मा अधिकांश पेसेवर सफ्टवेयर विकासकर्ता दैनिक यी उपकरणमध्ये एक प्रयोग गर्छन्। अधिकांशसँग उपकरणले विश्वासका साथ र गलत उत्पादन गरेको कोडका कथा पनि छन्।

तपाईंलाई कुन मोडालिटी चाहिन्छ छनोट

सरल प्रश्न: म कस्तो आउटपुट प्रकार उत्पादन गर्न खोज्दैछु?

  • मस्यौदा इमेल वा रिपोर्ट → पाठ मोडेल।
  • प्रस्तुतिका लागि चित्रण → छवि मोडेल।
  • नेपाली बैठकको ट्रान्सक्रिप्ट → वाक्-देखि-पाठ।
  • भिडियोका लागि भोइसओभर → पाठ-देखि-वाक्।
  • छोटो क्लिप → भिडियो मोडेल (यथार्थवादी अपेक्षासहित)।
  • केही लाइन कोड → कोडिङ सहायक।

बेवास्ता गर्ने गल्ती हो गलत उपकरण प्रयोग। चाटजीपीटीले छवि भरपर्दो उत्पादन गर्दैन (यसले DALL·E लाई कल गर्न सक्छ, तर DALL·E वास्तविक छवि मोडेल हो)। कोडिङ सहायकले नम्र नेपाली इमेल राम्ररी मस्यौदा गर्दैन। तपाईंलाई चाहिने मोडालिटीका लागि डिजाइन गरिएको उपकरण प्रयोग गर्नुहोस्।

आफ्नो बुझाइ जाँच्नुहोस्

छोटो जाँच

पत्रकारले कथाका लागि एआई-उत्पन्न पोस्टरभित्र सटीक देवनागरी पाठ प्रकाशित गर्न चाहन्छन्। २०२६ मा सबैभन्दा यथार्थवादी अपेक्षा कुन हो?

अब के?

हामीले मोडालिटीको नाम राख्यौं। हामी अब यी उपकरण के हुन् बाट तपाईंले तिनसँग कसरी कुरा गर्ने तर्फ जान्छौं। अध्याय २ उपयोगी आउटपुट पाउनुहुन्छ कि नभन्ने निर्णय गर्ने एउटै सीप — प्रम्प्ट — बारे हो।