स्वचालित दस्तावेज़ वर्गीकरण एक आवश्यक टेक्स्ट माइनिंग सेवा है क्योंकि बड़ी संख्या में ऑन-लाइन फ़ाइलों के अस्तित्व के कारण, दस्तावेज़ पुनर्प्राप्ति और क्रमिक विश्लेषण का समर्थन करने के लिए ऐसे रिकॉर्ड को स्वचालित रूप से कक्षाओं में व्यवस्थित करने में सक्षम होना अंतहीन है।
दस्तावेज़ वर्गीकरण का उपयोग स्वचालित विषय टैगिंग (अर्थात, दस्तावेज़ों को लेबल असाइन करना), विषय निर्देशिका निर्माण, और दस्तावेज़ लेखन शैलियों की पहचान और दस्तावेज़ों के एक सेट से संबंधित हाइपरलिंक के लक्ष्यों को परिभाषित करने में किया गया है।
एक सामान्य प्रक्रिया इस प्रकार है - सबसे पहले, पूर्व-वर्गीकृत फ़ाइलों के एक समूह को प्रशिक्षण सेट के रूप में लिया जाता है। वर्गीकरण योजना को बदलने के लिए प्रशिक्षण सेट का विश्लेषण किया जाता है। इस तरह की एक वर्गीकरण योजना को परीक्षण के साथ परिष्कृत करने की आवश्यकता है। सो-व्युत्पन्न वर्गीकरण योजना का उपयोग कई ऑनलाइन फाइलों के वर्गीकरण के लिए किया जा सकता है।
यह चरण रिलेशनल रिकॉर्ड के वर्गीकरण के समान ही होता है। संबंधपरक डेटा अच्छी तरह से संरचित होते हैं जैसे कि प्रत्येक टपल को विशेषता-मूल्य जोड़े के समूह द्वारा वर्णित किया जाता है।
उदाहरण के लिए, टपल {सनी, वार्म, ड्राई, नॉट विंडी, प्ले टेनिस} में, मान "सनी" एट्रीब्यूट वेदर आउटलुक के बराबर, "वार्म" एट्रीब्यूट टेम्परेचर के बराबर, आदि।
वर्गीकरण विश्लेषण यह निर्धारित करता है कि कोई व्यक्ति टेनिस खेलने जा रहा है या नहीं, यह तय करने में विशेषता-मूल्य जोड़े के किस समूह में सबसे अधिक भेदभाव करने वाली शक्ति है। दूसरे शब्दों में, दस्तावेज़ डेटाबेस विशेषता-मूल्य जोड़े के अनुसार संरचित नहीं हैं।
यह दस्तावेजों के एक सेट से जुड़े कीवर्ड का एक सेट है जो विशेषताओं या आयामों के एक निश्चित सेट में व्यवस्थित नहीं होता है। यदि हम दस्तावेज़ में प्रत्येक विशिष्ट कीवर्ड, शब्द या विशेषता को एक आयाम के रूप में देखते हैं, तो दस्तावेज़ों के एक सेट में हजारों आयाम हो सकते हैं। इस प्रकार, यह आमतौर पर संबंधपरक डेटा-उन्मुख वर्गीकरण विधियों का उपयोग किया जाता है, जिसमें निर्णय वृक्ष विश्लेषण शामिल है, दस्तावेज़ डेटाबेस के वर्गीकरण के लिए कुशल नहीं हो सकता है।
वेक्टर-स्पेस मॉडल के अनुसार, दो फ़ाइलें समान होती हैं यदि वे समान फ़ाइलें वेक्टर साझा करती हैं। यह मॉडल k-निकटतम-पड़ोसी क्लासिफायरियर के निर्माण को प्रेरित करता है, इस अंतर्ज्ञान के आधार पर कि समान दस्तावेज़ों को समान क्लास लेबल असाइन किए जाने की उम्मीद है।
यह केवल सभी प्रशिक्षण दस्तावेजों को अनुक्रमित कर सकता है, प्रत्येक अपने संबंधित वर्ग लेबल से जुड़ा हुआ है। जब कोई परीक्षण दस्तावेज़ सबमिट किया जाता है, तो हम इसे IR सिस्टम के लिए एक क्वेरी के रूप में मान सकते हैं और प्रशिक्षण सेट k दस्तावेज़ों से पुनर्प्राप्त कर सकते हैं जो क्वेरी के समान हैं, जहाँ k एक ट्यून करने योग्य स्थिरांक है।
परीक्षण फ़ाइलों का वर्ग लेबल तय किया जा सकता है जो इसके निकटतम पड़ोसियों के वर्ग लेबल वितरण पर निर्भर करता है। इस तरह के वर्ग लेबल वितरण को भी परिष्कृत किया जा सकता है, जैसे कि कच्ची गणना के बजाय भारित गणना के आधार पर, या सत्यापन के लिए लेबल किए गए दस्तावेज़ों के एक हिस्से को अलग करना।