Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

स्वचालित दस्तावेज़ वर्गीकरण कैसे किया जा सकता है?

<घंटा/>

स्वचालित दस्तावेज़ वर्गीकरण एक आवश्यक टेक्स्ट माइनिंग सेवा है क्योंकि बड़ी संख्या में ऑन-लाइन फ़ाइलों के अस्तित्व के कारण, दस्तावेज़ पुनर्प्राप्ति और क्रमिक विश्लेषण का समर्थन करने के लिए ऐसे रिकॉर्ड को स्वचालित रूप से कक्षाओं में व्यवस्थित करने में सक्षम होना अंतहीन है।

दस्तावेज़ वर्गीकरण का उपयोग स्वचालित विषय टैगिंग (अर्थात, दस्तावेज़ों को लेबल असाइन करना), विषय निर्देशिका निर्माण, और दस्तावेज़ लेखन शैलियों की पहचान और दस्तावेज़ों के एक सेट से संबंधित हाइपरलिंक के लक्ष्यों को परिभाषित करने में किया गया है।

एक सामान्य प्रक्रिया इस प्रकार है - सबसे पहले, पूर्व-वर्गीकृत फ़ाइलों के एक समूह को प्रशिक्षण सेट के रूप में लिया जाता है। वर्गीकरण योजना को बदलने के लिए प्रशिक्षण सेट का विश्लेषण किया जाता है। इस तरह की एक वर्गीकरण योजना को परीक्षण के साथ परिष्कृत करने की आवश्यकता है। सो-व्युत्पन्न वर्गीकरण योजना का उपयोग कई ऑनलाइन फाइलों के वर्गीकरण के लिए किया जा सकता है।

यह चरण रिलेशनल रिकॉर्ड के वर्गीकरण के समान ही होता है। संबंधपरक डेटा अच्छी तरह से संरचित होते हैं जैसे कि प्रत्येक टपल को विशेषता-मूल्य जोड़े के समूह द्वारा वर्णित किया जाता है।

उदाहरण के लिए, टपल {सनी, वार्म, ड्राई, नॉट विंडी, प्ले टेनिस} में, मान "सनी" एट्रीब्यूट वेदर आउटलुक के बराबर, "वार्म" एट्रीब्यूट टेम्परेचर के बराबर, आदि।

वर्गीकरण विश्लेषण यह निर्धारित करता है कि कोई व्यक्ति टेनिस खेलने जा रहा है या नहीं, यह तय करने में विशेषता-मूल्य जोड़े के किस समूह में सबसे अधिक भेदभाव करने वाली शक्ति है। दूसरे शब्दों में, दस्तावेज़ डेटाबेस विशेषता-मूल्य जोड़े के अनुसार संरचित नहीं हैं।

यह दस्तावेजों के एक सेट से जुड़े कीवर्ड का एक सेट है जो विशेषताओं या आयामों के एक निश्चित सेट में व्यवस्थित नहीं होता है। यदि हम दस्तावेज़ में प्रत्येक विशिष्ट कीवर्ड, शब्द या विशेषता को एक आयाम के रूप में देखते हैं, तो दस्तावेज़ों के एक सेट में हजारों आयाम हो सकते हैं। इस प्रकार, यह आमतौर पर संबंधपरक डेटा-उन्मुख वर्गीकरण विधियों का उपयोग किया जाता है, जिसमें निर्णय वृक्ष विश्लेषण शामिल है, दस्तावेज़ डेटाबेस के वर्गीकरण के लिए कुशल नहीं हो सकता है।

वेक्टर-स्पेस मॉडल के अनुसार, दो फ़ाइलें समान होती हैं यदि वे समान फ़ाइलें वेक्टर साझा करती हैं। यह मॉडल k-निकटतम-पड़ोसी क्लासिफायरियर के निर्माण को प्रेरित करता है, इस अंतर्ज्ञान के आधार पर कि समान दस्तावेज़ों को समान क्लास लेबल असाइन किए जाने की उम्मीद है।

यह केवल सभी प्रशिक्षण दस्तावेजों को अनुक्रमित कर सकता है, प्रत्येक अपने संबंधित वर्ग लेबल से जुड़ा हुआ है। जब कोई परीक्षण दस्तावेज़ सबमिट किया जाता है, तो हम इसे IR सिस्टम के लिए एक क्वेरी के रूप में मान सकते हैं और प्रशिक्षण सेट k दस्तावेज़ों से पुनर्प्राप्त कर सकते हैं जो क्वेरी के समान हैं, जहाँ k एक ट्यून करने योग्य स्थिरांक है।

परीक्षण फ़ाइलों का वर्ग लेबल तय किया जा सकता है जो इसके निकटतम पड़ोसियों के वर्ग लेबल वितरण पर निर्भर करता है। इस तरह के वर्ग लेबल वितरण को भी परिष्कृत किया जा सकता है, जैसे कि कच्ची गणना के बजाय भारित गणना के आधार पर, या सत्यापन के लिए लेबल किए गए दस्तावेज़ों के एक हिस्से को अलग करना।


  1. SciPy Python में असतत फूरियर रूपांतरण कैसे किया जा सकता है?

    डिस्क्रीट फूरियर ट्रांसफॉर्म, या डीएफटी एक गणितीय तकनीक है जो स्थानिक डेटा को फ़्रीक्वेंसी डेटा में बदलने में मदद करती है। फास्ट फूरियर ट्रांसफॉर्मेशन, या एफटीटी एक एल्गोरिदम है जिसे स्थानिक डेटा के डिस्क्रीट फूरियर ट्रांसफॉर्मेशन की गणना करने के लिए डिज़ाइन किया गया है। स्थानिक डेटा आमतौर पर एक ब

  1. मैं अपने डेटा का बैकअप कैसे ले सकता हूं?

    आज की आईटी दुनिया में एक व्यापक बैकअप रणनीति होना आवश्यक है। डेटा खो जाने के कई तरीकों के साथ, यह समझना महत्वपूर्ण है कि अपने डेटा का सफलतापूर्वक बैकअप कैसे लिया जाए ताकि यह सुनिश्चित हो सके कि आपको असहज स्थिति का सामना न करना पड़े। तो, आप अपने डेटा का बैकअप कैसे ले सकते हैं? डेटा हानि साइबर हमले,

  1. एक एंटीवायरस पीसी को कैसे गति दे सकता है?

    कई उपयोगकर्ताओं को यह गलतफहमी होती है कि एक एंटीवायरस उनके पीसी को धीमा कर सकता है। हां, ऐसे कुछ उदाहरण हो सकते हैं जब एक एंटीवायरस आपके पीसी को धीमा कर सकता है जिसे हम बाद में इस ब्लॉग में कवर करेंगे। भले ही एक एंटीवायरस आपके पीसी को धीमा कर देता है (थोड़ा सा), यह ऐसा करता है ताकि यह आपके पीसी को ख