ailiteracynepal 🇳🇵
पाठ आकार

अध्याय ३ · खण्ड II · 14 मिनेट

विश्लेषण र निकासी

फोहोर पाठबाट संरचना तान्ने — वर्गीकरण, JSON आउटपुट, उद्धरणसहितको सारांश, अनुच्छेदबाट तालिका। सबैभन्दा बढी जोडिने अग्लम कार्य।

लेखन जेनेरेटिभ एआईको देखिने मूल्य हो भने विश्लेषण र निकासी चुप, ठूलो हो। अधिकांश पेसेवर कार्यमा फोहोर इनपुट — इमेल, ग्राहक फिडब्याक, PDF, बैठक नोट, ट्रान्स्क्रिप्ट — लिने र कसैले कार्य गर्न सक्ने संरचित जानकारीमा बदल्ने काम छ। आधुनिक मोडेल यसमा असाधारण रूपमा राम्रा छन्, र समय बचत जोडिँदै जान्छ।

यो खण्ड तीन उच्च-मूल्य ढाँचाबारे हो: संरचित डाटा निकाल्ने, वर्गीकरण, र पत्ता लगाउनयोग्य सारांश

ढाँचा १ — संरचित डाटा निकाल्ने

तपाईंसँग असंरचित पाठ छ। तपाईंलाई सफा, संरचित प्रतिनिधित्व चाहिएको छ — JSON वस्तु, तालिका, क्षेत्रको सूची। मोडेल यसमा धेरैले सोचेभन्दा नाटकीय रूपमा राम्रो छ।

सरल उदाहरण। तपाईंलाई ३० ग्राहक सपोर्ट टिकट सादा पाठमा प्राप्त हुन्छ, प्रत्येकमा कतै: ग्राहकको नाम, फोन नम्बर, उत्पादन, र समस्याको तत्कालता।

प्रम्प्ट:

प्रत्येक सपोर्ट टिकटबाट निम्न क्षेत्र निकाल्नुहोस्। आफ्नो उत्तर प्रति टिकट एक वस्तुसहित JSON array मा फर्काउनुहोस्। तपाईंले फेला पार्न नसक्ने कुनै पनि क्षेत्रका लागि null प्रयोग गर्नुहोस्। मानहरू आविष्कार नगर्नुहोस्।

क्षेत्र:

  • name (string)
  • phone (string, १०-अङ्क नेपाली ढाँचा)
  • product (string)
  • urgency (एक: low, medium, high)

टिकटहरू: [३० टिकट टाँस्नुहोस्]

आउटपुट: JSON array जुन तपाईं स्प्रेडसिट, डाटाबेस, वा कुनै पनि डाउनस्ट्रिम उपकरणमा टाँस्न सक्नुहुन्छ। एक व्यक्तिले एक घण्टा लाग्ने काम मोडेलले एक मिनेट भन्दा कममा गर्छ, र यो थाक्दैन वा बिचलित हुँदैन।

यो किन यति राम्रो काम गर्छ: मोडेल ढाँचा-मिलान मा राम्रो छ — फोन नम्बर, उत्पादन नाम, तत्कालता संकेत चिन्ने। संरचनाले धेरैजसो काम गर्दैछ; मोडेल मानहरू फेला पार्दैछ।

ढाँचा २ — वर्गीकरण

तपाईंसँग असाइन गर्ने श्रेणी छ। स्पाम कि होइन। यो टिकट कुन विभागमा जाने? प्रशंसा, उजुरी, वा सुझाव? महत्त्वपूर्ण कि नियमित?

सीधा वर्गीकरणका लागि आधुनिक मोडेल कुनै फाइन-ट्युनिङ, कुनै तालिम बिना, केवल प्रम्प्टसँग लगभग मानव-सटीकतामा छन्।

ढाँचा:

  1. श्रेणीहरूलाई कुरुप परिभाषित गर्नुहोस्। प्रत्येक श्रेणीलाई एक-लाइनको वर्णन।
  2. प्रति श्रेणी २-३ उदाहरण थप्नुहोस् (अघिल्लो अध्यायबाट few-shot)।
  3. श्रेणी सोध्नुहोस्, विकल्पका रूपमा विश्वास र एक-लाइनको औचित्यसहित।

उदाहरण:

प्रत्येक ग्राहक उजुरीलाई यी विभागहरूमध्ये एकमा वर्गीकरण गर्नुहोस्:

  • billing — शुल्क, फिर्ता, भुक्तानी विधिबारे जुनै कुरा
  • delivery — ढुवानी, ढिलाइ, हराएको सामग्रीबारे जुनै कुरा
  • product — दोष, गुणस्तर, निर्देशनबारे जुनै कुरा
  • other — स्पष्ट रूपमा फिट नहुने जुनै कुरा

प्रत्येकका लागि निकाल्नुहोस्: विभाग, विश्वास (high/medium/low), एक-वाक्यको औचित्य।

उदाहरण:

  • “एउटै अर्डरमा दोब्बर शुल्क लाग्यो।” → billing, high, “स्पष्ट दोब्बर-शुल्क उजुरी”
  • “प्याकेज भाँचिएको आयो।” → product, high, “आगमनमा भौतिक दोष”
  • “मेरो अर्डर कहाँ छ? १० दिन भयो।” → delivery, high, “ढुवानी ढिलाइ”

अब निम्न वर्गीकरण गर्नुहोस्: [उजुरी टाँस्नुहोस्]

यसले रुटिङ तालिका उत्पादन गर्छ जुन तपाईं अपरेसनलाई दिन सक्नुहुन्छ। वा स्वचालनमा फिड गर्न। वा आफ्नै दिनको प्राथमिकता दिन प्रयोग गर्न।

ढाँचा ३ — पत्ता लगाउनयोग्य सारांश

मोडेल सारांशसँगको सामान्य समस्या: तपाईं स्रोतबाट के सीधै हो र मोडेलले के थप्यो छुट्याउन सक्नुहुन्न। समाधान सारांशलाई स्पष्ट पोइन्टर समावेश गर्न बाध्य गर्ने हो।

यो २०-पृष्ठको रिपोर्ट सारांश गर्नुहोस्। तपाईंको सारांशमा प्रत्येक कथनका लागि कोष्ठकमा त्यो आएको पृष्ठ नम्बर समावेश गर्नुहोस्। कुनै कथन तपाईंको धेरै पृष्ठहरूको सिन्थेसिस हो भने त्यसलाई [synthesis] भनेर चिन्ह लगाउनुहोस्। स्रोतमा देखाउन नसक्ने कुनै दाबी समावेश नगर्नुहोस्।

यसलाई कहिलेकाहीं सारांश “ग्राउन्डिङ” भनिन्छ। यो मोडेलका लागि नाटकीय रूपमा ढिलो छ (र बढी टोकन प्रयोग गर्छ), तर आउटपुट अडिट योग्य छ — तपाईं दाबीहरू स्रोतसँग स्पट-चेक गर्न सक्नुहुन्छ। उच्च-दाउको कामका लागि — कानुनी कागजात, सरकारी रिपोर्ट, उद्धरण गर्न सकिने कुनै पनि कुरा — यो ढाँचा आवश्यक छ।

छोटा पाठका लागि भिन्नता: मोडेललाई आफ्नो प्याराफ्रेजसँगै प्रत्यक्ष उद्धरण समावेश गर्न भन्नुहोस्। उद्धरण गर्ने झन्झटले स्रोतको नजिक रहन बाध्य पार्छ।

उदाहरण: फोहोर अन्तर्वार्ता ट्रान्स्क्रिप्ट → कार्य सूची

वास्तविक ढाँचा। तपाईंले ४५ मिनेटको टोली बैठक रेकर्ड गर्नुभयो र Whisper (अध्याय ४) प्रयोग गरेर ट्रान्स्क्राइब गर्नुभयो। तपाईंसँग अब ६,००० शब्दको कच्चा ट्रान्स्क्रिप्ट छ। तपाईंलाई स्पष्ट सूची चाहिएको छ कुन निर्णय भयो, कसले के गर्दैछ, र कहिलेसम्म

प्रम्प्ट:

तल ४५-मिनेटको टोली बैठकको ट्रान्स्क्रिप्ट छ। निकाल्नुहोस्:

१. गरिएका निर्णय। प्रति बुलेट एक। ढाँचा: “निर्णय: [के]। लाइन ~[X] मा।”

२. कार्य वस्तु। प्रति बुलेट एक। ढाँचा: “[व्यक्ति] ले [कार्य] [मिति] सम्म।”

३. खुला प्रश्न। उठाइएका तर समाधान नभएका वस्तुहरू। प्रति बुलेट एक।

नियम:

  • निर्णय वा कार्य आविष्कार नगर्नुहोस्। निश्चित नभए “सम्भवतः उठाइएका — प्रमाणित गर्नुहोस्” अन्तर्गत सूचीबद्ध गर्नुहोस्।
  • ट्रान्स्क्रिप्टका वास्तविक नाम प्रयोग गर्नुहोस्।
  • समयसीमा भनिएको थिएन भने “[मिति भनिएन]” लेख्नुहोस्।

ट्रान्स्क्रिप्ट: [६,००० शब्द टाँस्नुहोस्]

आउटपुट: २ मिनेटमा टोलीलाई पठाउन सक्ने बैठक सारांश। तपाईंसँग प्रमाणीकरण चरण छ — कसैले वास्तवमा यो निर्णय गर्‍यो? — तर ६,००० शब्द भन्दा एक संरचित कलाकृति छ।

स्केलमा निकासीका व्यावहारिक नोट

प्राय: यो गर्दा आउने केही कुरा:

टोकन सीमा। प्रत्येक मोडेलसँग सन्दर्भ विन्डो हुन्छ — एक प्रम्प्टमा पढ्न सक्ने अधिकतम पाठ। आधुनिक फ्रन्टियर मोडेलले प्रति अनुरोध १,००,००० देखि २,००,००० टोकन (~७५,००० देखि १,५०,००० अंग्रेजी शब्द) सञ्चालन गर्छन्। यो अधिकांश कागजातका लागि पर्याप्त छ। ठूलाका लागि स्रोतलाई टुक्रामा विभाजन गर्नुहोस्, प्रत्येकमा निकासी चलाउनुहोस्, अनि मर्ज गर्नुहोस्।

लागत। लामा निकासी प्रम्प्टले धेरै टोकन प्रयोग गर्छन्। उच्च-मात्रा कामका लागि सस्तो मोडेलमा स्विच गर्नु (Claude Haiku, GPT-4o-mini, Gemini Flash) ले निकासी कार्यमा बराबर गुणस्तर लागतको अंशमा उत्पादन गर्छ।

प्रमाणीकरण। स्केलमा निकासी १००% सटीक हुनेछैन। अपेक्षा सेट गर्नुहोस्: तपाईंले स्पट-चेक गर्नुहुनेछ, र कहिलेकाहीं त्रुटि समात्नुहुनेछ। उच्च-दाउ निकासीका लागि (कानुनी, वित्तीय, चिकित्सा) मानव समीक्षा चरण बनाउनुहोस्।

निरन्तरता। दोहोरिने निकासी कार्यका लागि एक पटक प्रम्प्ट लेख्नुहोस्, बचाउनुहोस्, र पुन: प्रयोग गर्नुहोस्। साना शब्द परिवर्तनले आउटपुट बहकाउन सक्छ; लक गरिएको प्रम्प्टले लक गरिएको आउटपुट दिन्छ।

मोडेल यहाँ पनि केमा खराब छन्

निकासीका तीन इमानदार सीमा:

  1. स्रोतले वास्तवमा नभनेका कुरा। कागजातमा मूल्य उल्लेख छैन भने मोडेलले निकाल्न सक्दैन। “अनुमान गर्न” भन्नुले वास्तविक देखिने भ्रमित मूल्य उत्पादन गर्छ।

  2. धेरै छुट्टा-छुट्टै तथ्यमा तर्क। “यो ३०-पृष्ठको बोर्ड मिनेट अभिलेखमा कसले सबैभन्दा बढी निर्णय गर्‍यो?” लाई सबै ३० पृष्ठ पढ्ने र गन्ने काम चाहिन्छ। केही मोडेलले यो राम्रो गर्छ; धेरैले खराब, बीचमा निर्णय छुटाउँदै। यिनमा प्रमाणीकरण गर्नुहोस्।

  3. सूक्ष्म अर्थपूर्ण भिन्नता। “के यो प्रत्यक्ष उजुरी थियो वा अप्रत्यक्ष?” लाई न्यायको कल चाहिन्छ जुन मोडेलले तपाईंसँग मिलाउन सक्छ वा नसक्ने। यिनमा few-shot उदाहरण आवश्यक छन्।

आफ्नो बुझाइ जाँच्नुहोस्

छोटो जाँच

सानो एनजीओसँग सादा पाठमा २०० फोहोर सपोर्ट टिकट छन् र तिनलाई नाम, फोन, उत्पादन, तत्कालतासहितको CSV मा चाहन्छन्। सबैभन्दा कुशल दृष्टिकोण के हो?

अब के?

हामीले मस्यौदा, सम्पादन, र निकासी ढाक्यौं। तेस्रो प्रमुख पाठ क्षमता — कोड र अनुवाद — आफ्नो खण्ड पाउँछ। यी ती कार्य हुन् जहाँ मोडेलले उत्पादन गर्नेसही बीचको खाडल सबैभन्दा महत्त्वपूर्ण छ, र सावधान प्रमाणीकरण सबैभन्दा महत्त्वपूर्ण छ।