अध्याय ३ · खण्ड II · 14 मिनेट
विश्लेषण र निकासी
फोहोर पाठबाट संरचना तान्ने — वर्गीकरण, JSON आउटपुट, उद्धरणसहितको सारांश, अनुच्छेदबाट तालिका। सबैभन्दा बढी जोडिने अग्लम कार्य।
लेखन जेनेरेटिभ एआईको देखिने मूल्य हो भने विश्लेषण र निकासी चुप, ठूलो हो। अधिकांश पेसेवर कार्यमा फोहोर इनपुट — इमेल, ग्राहक फिडब्याक, PDF, बैठक नोट, ट्रान्स्क्रिप्ट — लिने र कसैले कार्य गर्न सक्ने संरचित जानकारीमा बदल्ने काम छ। आधुनिक मोडेल यसमा असाधारण रूपमा राम्रा छन्, र समय बचत जोडिँदै जान्छ।
यो खण्ड तीन उच्च-मूल्य ढाँचाबारे हो: संरचित डाटा निकाल्ने, वर्गीकरण, र पत्ता लगाउनयोग्य सारांश।
ढाँचा १ — संरचित डाटा निकाल्ने
तपाईंसँग असंरचित पाठ छ। तपाईंलाई सफा, संरचित प्रतिनिधित्व चाहिएको छ — JSON वस्तु, तालिका, क्षेत्रको सूची। मोडेल यसमा धेरैले सोचेभन्दा नाटकीय रूपमा राम्रो छ।
सरल उदाहरण। तपाईंलाई ३० ग्राहक सपोर्ट टिकट सादा पाठमा प्राप्त हुन्छ, प्रत्येकमा कतै: ग्राहकको नाम, फोन नम्बर, उत्पादन, र समस्याको तत्कालता।
प्रम्प्ट:
प्रत्येक सपोर्ट टिकटबाट निम्न क्षेत्र निकाल्नुहोस्। आफ्नो उत्तर प्रति टिकट एक वस्तुसहित JSON array मा फर्काउनुहोस्। तपाईंले फेला पार्न नसक्ने कुनै पनि क्षेत्रका लागि null प्रयोग गर्नुहोस्। मानहरू आविष्कार नगर्नुहोस्।
क्षेत्र:
- name (string)
- phone (string, १०-अङ्क नेपाली ढाँचा)
- product (string)
- urgency (एक: low, medium, high)
टिकटहरू: [३० टिकट टाँस्नुहोस्]
आउटपुट: JSON array जुन तपाईं स्प्रेडसिट, डाटाबेस, वा कुनै पनि डाउनस्ट्रिम उपकरणमा टाँस्न सक्नुहुन्छ। एक व्यक्तिले एक घण्टा लाग्ने काम मोडेलले एक मिनेट भन्दा कममा गर्छ, र यो थाक्दैन वा बिचलित हुँदैन।
यो किन यति राम्रो काम गर्छ: मोडेल ढाँचा-मिलान मा राम्रो छ — फोन नम्बर, उत्पादन नाम, तत्कालता संकेत चिन्ने। संरचनाले धेरैजसो काम गर्दैछ; मोडेल मानहरू फेला पार्दैछ।
ढाँचा २ — वर्गीकरण
तपाईंसँग असाइन गर्ने श्रेणी छ। स्पाम कि होइन। यो टिकट कुन विभागमा जाने? प्रशंसा, उजुरी, वा सुझाव? महत्त्वपूर्ण कि नियमित?
सीधा वर्गीकरणका लागि आधुनिक मोडेल कुनै फाइन-ट्युनिङ, कुनै तालिम बिना, केवल प्रम्प्टसँग लगभग मानव-सटीकतामा छन्।
ढाँचा:
- श्रेणीहरूलाई कुरुप परिभाषित गर्नुहोस्। प्रत्येक श्रेणीलाई एक-लाइनको वर्णन।
- प्रति श्रेणी २-३ उदाहरण थप्नुहोस् (अघिल्लो अध्यायबाट few-shot)।
- श्रेणी सोध्नुहोस्, विकल्पका रूपमा विश्वास र एक-लाइनको औचित्यसहित।
उदाहरण:
प्रत्येक ग्राहक उजुरीलाई यी विभागहरूमध्ये एकमा वर्गीकरण गर्नुहोस्:
- billing — शुल्क, फिर्ता, भुक्तानी विधिबारे जुनै कुरा
- delivery — ढुवानी, ढिलाइ, हराएको सामग्रीबारे जुनै कुरा
- product — दोष, गुणस्तर, निर्देशनबारे जुनै कुरा
- other — स्पष्ट रूपमा फिट नहुने जुनै कुरा
प्रत्येकका लागि निकाल्नुहोस्: विभाग, विश्वास (high/medium/low), एक-वाक्यको औचित्य।
उदाहरण:
- “एउटै अर्डरमा दोब्बर शुल्क लाग्यो।” → billing, high, “स्पष्ट दोब्बर-शुल्क उजुरी”
- “प्याकेज भाँचिएको आयो।” → product, high, “आगमनमा भौतिक दोष”
- “मेरो अर्डर कहाँ छ? १० दिन भयो।” → delivery, high, “ढुवानी ढिलाइ”
अब निम्न वर्गीकरण गर्नुहोस्: [उजुरी टाँस्नुहोस्]
यसले रुटिङ तालिका उत्पादन गर्छ जुन तपाईं अपरेसनलाई दिन सक्नुहुन्छ। वा स्वचालनमा फिड गर्न। वा आफ्नै दिनको प्राथमिकता दिन प्रयोग गर्न।
ढाँचा ३ — पत्ता लगाउनयोग्य सारांश
मोडेल सारांशसँगको सामान्य समस्या: तपाईं स्रोतबाट के सीधै हो र मोडेलले के थप्यो छुट्याउन सक्नुहुन्न। समाधान सारांशलाई स्पष्ट पोइन्टर समावेश गर्न बाध्य गर्ने हो।
यो २०-पृष्ठको रिपोर्ट सारांश गर्नुहोस्। तपाईंको सारांशमा प्रत्येक कथनका लागि कोष्ठकमा त्यो आएको पृष्ठ नम्बर समावेश गर्नुहोस्। कुनै कथन तपाईंको धेरै पृष्ठहरूको सिन्थेसिस हो भने त्यसलाई [synthesis] भनेर चिन्ह लगाउनुहोस्। स्रोतमा देखाउन नसक्ने कुनै दाबी समावेश नगर्नुहोस्।
यसलाई कहिलेकाहीं सारांश “ग्राउन्डिङ” भनिन्छ। यो मोडेलका लागि नाटकीय रूपमा ढिलो छ (र बढी टोकन प्रयोग गर्छ), तर आउटपुट अडिट योग्य छ — तपाईं दाबीहरू स्रोतसँग स्पट-चेक गर्न सक्नुहुन्छ। उच्च-दाउको कामका लागि — कानुनी कागजात, सरकारी रिपोर्ट, उद्धरण गर्न सकिने कुनै पनि कुरा — यो ढाँचा आवश्यक छ।
छोटा पाठका लागि भिन्नता: मोडेललाई आफ्नो प्याराफ्रेजसँगै प्रत्यक्ष उद्धरण समावेश गर्न भन्नुहोस्। उद्धरण गर्ने झन्झटले स्रोतको नजिक रहन बाध्य पार्छ।
उदाहरण: फोहोर अन्तर्वार्ता ट्रान्स्क्रिप्ट → कार्य सूची
वास्तविक ढाँचा। तपाईंले ४५ मिनेटको टोली बैठक रेकर्ड गर्नुभयो र Whisper (अध्याय ४) प्रयोग गरेर ट्रान्स्क्राइब गर्नुभयो। तपाईंसँग अब ६,००० शब्दको कच्चा ट्रान्स्क्रिप्ट छ। तपाईंलाई स्पष्ट सूची चाहिएको छ कुन निर्णय भयो, कसले के गर्दैछ, र कहिलेसम्म।
प्रम्प्ट:
तल ४५-मिनेटको टोली बैठकको ट्रान्स्क्रिप्ट छ। निकाल्नुहोस्:
१. गरिएका निर्णय। प्रति बुलेट एक। ढाँचा: “निर्णय: [के]। लाइन ~[X] मा।”
२. कार्य वस्तु। प्रति बुलेट एक। ढाँचा: “[व्यक्ति] ले [कार्य] [मिति] सम्म।”
३. खुला प्रश्न। उठाइएका तर समाधान नभएका वस्तुहरू। प्रति बुलेट एक।
नियम:
- निर्णय वा कार्य आविष्कार नगर्नुहोस्। निश्चित नभए “सम्भवतः उठाइएका — प्रमाणित गर्नुहोस्” अन्तर्गत सूचीबद्ध गर्नुहोस्।
- ट्रान्स्क्रिप्टका वास्तविक नाम प्रयोग गर्नुहोस्।
- समयसीमा भनिएको थिएन भने “[मिति भनिएन]” लेख्नुहोस्।
ट्रान्स्क्रिप्ट: [६,००० शब्द टाँस्नुहोस्]
आउटपुट: २ मिनेटमा टोलीलाई पठाउन सक्ने बैठक सारांश। तपाईंसँग प्रमाणीकरण चरण छ — कसैले वास्तवमा यो निर्णय गर्यो? — तर ६,००० शब्द भन्दा एक संरचित कलाकृति छ।
स्केलमा निकासीका व्यावहारिक नोट
प्राय: यो गर्दा आउने केही कुरा:
टोकन सीमा। प्रत्येक मोडेलसँग सन्दर्भ विन्डो हुन्छ — एक प्रम्प्टमा पढ्न सक्ने अधिकतम पाठ। आधुनिक फ्रन्टियर मोडेलले प्रति अनुरोध १,००,००० देखि २,००,००० टोकन (~७५,००० देखि १,५०,००० अंग्रेजी शब्द) सञ्चालन गर्छन्। यो अधिकांश कागजातका लागि पर्याप्त छ। ठूलाका लागि स्रोतलाई टुक्रामा विभाजन गर्नुहोस्, प्रत्येकमा निकासी चलाउनुहोस्, अनि मर्ज गर्नुहोस्।
लागत। लामा निकासी प्रम्प्टले धेरै टोकन प्रयोग गर्छन्। उच्च-मात्रा कामका लागि सस्तो मोडेलमा स्विच गर्नु (Claude Haiku, GPT-4o-mini, Gemini Flash) ले निकासी कार्यमा बराबर गुणस्तर लागतको अंशमा उत्पादन गर्छ।
प्रमाणीकरण। स्केलमा निकासी १००% सटीक हुनेछैन। अपेक्षा सेट गर्नुहोस्: तपाईंले स्पट-चेक गर्नुहुनेछ, र कहिलेकाहीं त्रुटि समात्नुहुनेछ। उच्च-दाउ निकासीका लागि (कानुनी, वित्तीय, चिकित्सा) मानव समीक्षा चरण बनाउनुहोस्।
निरन्तरता। दोहोरिने निकासी कार्यका लागि एक पटक प्रम्प्ट लेख्नुहोस्, बचाउनुहोस्, र पुन: प्रयोग गर्नुहोस्। साना शब्द परिवर्तनले आउटपुट बहकाउन सक्छ; लक गरिएको प्रम्प्टले लक गरिएको आउटपुट दिन्छ।
मोडेल यहाँ पनि केमा खराब छन्
निकासीका तीन इमानदार सीमा:
-
स्रोतले वास्तवमा नभनेका कुरा। कागजातमा मूल्य उल्लेख छैन भने मोडेलले निकाल्न सक्दैन। “अनुमान गर्न” भन्नुले वास्तविक देखिने भ्रमित मूल्य उत्पादन गर्छ।
-
धेरै छुट्टा-छुट्टै तथ्यमा तर्क। “यो ३०-पृष्ठको बोर्ड मिनेट अभिलेखमा कसले सबैभन्दा बढी निर्णय गर्यो?” लाई सबै ३० पृष्ठ पढ्ने र गन्ने काम चाहिन्छ। केही मोडेलले यो राम्रो गर्छ; धेरैले खराब, बीचमा निर्णय छुटाउँदै। यिनमा प्रमाणीकरण गर्नुहोस्।
-
सूक्ष्म अर्थपूर्ण भिन्नता। “के यो प्रत्यक्ष उजुरी थियो वा अप्रत्यक्ष?” लाई न्यायको कल चाहिन्छ जुन मोडेलले तपाईंसँग मिलाउन सक्छ वा नसक्ने। यिनमा few-shot उदाहरण आवश्यक छन्।
आफ्नो बुझाइ जाँच्नुहोस्
छोटो जाँच
—सानो एनजीओसँग सादा पाठमा २०० फोहोर सपोर्ट टिकट छन् र तिनलाई नाम, फोन, उत्पादन, तत्कालतासहितको CSV मा चाहन्छन्। सबैभन्दा कुशल दृष्टिकोण के हो?
अब के?
हामीले मस्यौदा, सम्पादन, र निकासी ढाक्यौं। तेस्रो प्रमुख पाठ क्षमता — कोड र अनुवाद — आफ्नो खण्ड पाउँछ। यी ती कार्य हुन् जहाँ मोडेलले उत्पादन गर्ने र सही बीचको खाडल सबैभन्दा महत्त्वपूर्ण छ, र सावधान प्रमाणीकरण सबैभन्दा महत्त्वपूर्ण छ।