दस्तावेज़ क्लस्टरिंग एक असुरक्षित तरीके से फाइलों को व्यवस्थित करने के लिए महत्वपूर्ण तकनीक है। जब दस्तावेज़ों को टर्म वैक्टर के रूप में दर्शाया जाता है, तो क्लस्टरिंग विधियों को लागू किया जा सकता है। दस्तावेज़ स्थान लगातार बड़े आकार का होता है, जो विभिन्न सैकड़ों से लेकर हज़ारों तक होता है।
आयामीता के अभिशाप के कारण, पहले दस्तावेज़ों को एक निम्न-आयामी उप-स्थान में प्रोजेक्ट करना समझ में आता है जिसमें दस्तावेज़ स्थान की शब्दार्थ संरचना स्पष्ट हो जाती है। निम्न-आयामी सिमेंटिक क्षेत्रों में, पारंपरिक क्लस्टरिंग एल्गोरिदम का उपयोग किया जा सकता है।
दस्तावेज़ क्लस्टरिंग विश्लेषण के कई तरीके इस प्रकार हैं -
स्पेक्ट्रल क्लस्टरिंग - वर्णक्रमीय क्लस्टरिंग विधि पहले मूल डेटा पर वर्णक्रमीय एम्बेडिंग (आयामीता में कमी) करती है, और फिर कम दस्तावेज़ स्थान पर पारंपरिक क्लस्टरिंग एल्गोरिदम (उदा., k-means) लागू करती है।
यह वर्णक्रमीय क्लस्टरिंग पर काम कर सकता है जो अत्यधिक गैर-रेखीय डेटा को संभालने की क्षमता दिखाता है (डेटा स्थान में प्रत्येक स्थानीय क्षेत्र में उच्च वक्रता होती है)। डिफरेंशियल ज्योमेट्री के साथ इसके शक्तिशाली लिंक इसे फाइल स्पेस के मैनिफोल्ड आर्किटेक्चर को खोजने में सक्षम बनाते हैं।
इन वर्णक्रमीय क्लस्टरिंग एल्गोरिदम की सीमा नॉनलाइनियर एम्बेडिंग (आयामीता में कमी) का उपयोग कर सकती है, जिसे केवल "प्रशिक्षण" डेटा पर दर्शाया जाता है। एम्बेडिंग को समझने के लिए उन्हें कुछ डेटा बिंदुओं का उपयोग करना होगा। जब डेटा सेट बहुत बड़ा होता है, तो इस तरह के एम्बेडिंग को समझना कम्प्यूटेशनल रूप से महंगा होता है। यह उच्च डेटा सेट पर वर्णक्रमीय क्लस्टरिंग के सॉफ़्टवेयर को प्रतिबंधित करता है।
मिश्रण मॉडल -मिश्रण मॉडल क्लस्टरिंग विधि एक मिश्रण मॉडल के साथ टेक्स्ट डेटा को मॉडल करती है, जिसमें अक्सर बहुराष्ट्रीय घटक मॉडल शामिल होते हैं। क्लस्टरिंग में निम्नानुसार दो चरण शामिल हैं -
यह टेक्स्ट डेटा और किसी भी अतिरिक्त पूर्व ज्ञान के आधार पर मॉडल पैरामीटर का अनुमान लगा सकता है।
यह अनुमानित मॉडल मापदंडों के आधार पर समूहों का अनुमान लगा सकता है। यह इस बात पर निर्भर करता है कि मिश्रण मॉडल को कैसे परिभाषित किया जाता है, ये विधियां एक ही समय में शब्दों और दस्तावेजों को क्लस्टर कर सकती हैं।
संभाव्य अव्यक्त शब्दार्थ विश्लेषण (पीएलएसए) और अव्यक्त डिरिचलेट आवंटन (एलडीए) ऐसे दृष्टिकोणों के दो उदाहरण हैं। क्लस्टरिंग विधियों का लाभ यह है कि क्लस्टर को फाइलों के तुलनात्मक विश्लेषण का समर्थन करने के लिए डिज़ाइन किया जा सकता है।
लेटेंट सिमेंटिक इंडेक्सिंग (LSI) और लोकैलिटी प्रिजर्विंग इंडेक्सिंग (LPI) विधियाँ रैखिक आयामीता में कमी के तरीके हैं। इसका उपयोग एलएसआई और एलपीआई में परिवर्तन वैक्टर (एम्बेडिंग फ़ंक्शन) को प्राप्त करने के लिए किया जाता है। इस तरह के एम्बेडिंग कार्यों को हर जगह दर्शाया जाता है; इस प्रकार, यह एम्बेडिंग फ़ंक्शन को समझने के लिए डेटा के तत्व का उपयोग कर सकता है और कुछ डेटा को निम्न-आयामी स्थान में एम्बेड कर सकता है।
एलएसआई का उद्देश्य वैश्विक पुनर्निर्माण त्रुटि को कम करने के अर्थ में मूल दस्तावेज़ स्थान के लिए सर्वोत्तम उप-स्थान का अनुमान लगाना है। दूसरे शब्दों में, एलएसआई दस्तावेज़ प्रतिनिधित्व के लिए सबसे अधिक भेदभावपूर्ण विशेषताओं के बजाय सबसे अधिक प्रतिनिधि विशेषताओं को उजागर करना चाहता है। इसलिए, एलएसआई अलग-अलग शब्दार्थ वाले दस्तावेजों में भेदभाव करने में इष्टतम नहीं हो सकता है, जो कि क्लस्टरिंग का अंतिम लक्ष्य है।