वेब माइनिंग क्या है?

<घंटा/>

वेब माइनिंग को व्यापक रूप से वेब पर अनुकूलित डेटा माइनिंग विधियों के अनुप्रयोग के रूप में देखा जा सकता है, जबकि डेटा माइनिंग को एक ज्ञान-खोज प्रक्रिया में तय किए गए ज्यादातर संरचित डेटा पर पैटर्न खोजने के लिए एल्गोरिदम के अनुप्रयोग के रूप में दर्शाया जाता है।

वेब माइनिंग में कई डेटा प्रकारों के संग्रह का समर्थन करने के लिए एक विशिष्ट संपत्ति है। वेब के कई पहलू हैं जो खनन प्रक्रिया के लिए कई दृष्टिकोण उत्पन्न करते हैं, जैसे टेक्स्ट सहित वेब पेज, वेब पेज हाइपरलिंक के माध्यम से जुड़े हुए हैं, और वेब के माध्यम से उपयोगकर्ता गतिविधि की निगरानी की जा सकती है। सर्वर लॉग।

यह निम्नलिखित टिप्पणियों पर आधारित है, वेब प्रभावी संसाधन और ज्ञान की खोज के लिए भी बड़ी चुनौतियां पेश करता है।

कुशल डेटा वेयरहाउसिंग और डेटा माइनिंग के लिए वेब बहुत बड़ा प्रतीत होता है - वेब का आकार सैकड़ों टेराबाइट्स के क्रम में है और अभी भी तेजी से बढ़ रहा है। कुछ संगठन और समाज वेब पर कई सार्वजनिक-सुलभ डेटा डालते हैं। यह वेब पर कुछ डेटा को दोहराने, सहेजने या एकीकृत करने के लिए डेटा वेयरहाउस स्थापित करने के लिए लागू होता है।

वेब पृष्ठों की जटिलता किसी भी पारंपरिक पाठ दस्तावेज़ संग्रह की तुलना में कहीं अधिक है - वेब पेजों में एकीकृत संरचना का अभाव होता है। उनमें पुस्तकों के किसी भी सेट या अन्य पारंपरिक पाठ आधारित दस्तावेज़ों की तुलना में कहीं अधिक लेखन शैली और सामग्री विविधताएं हैं।

वेब को एक विशाल डिजिटल पुस्तकालय के रूप में माना जाता है; लेकिन, इस पुस्तकालय में भारी संख्या में अभिलेखों को किसी विशिष्ट क्रमबद्ध क्रम के अनुसार व्यवस्थित नहीं किया गया है। तत्व द्वारा कोई अनुक्रमणिका नहीं है, न ही शीर्षक, लेखक, कवर पेज, सामग्री की तालिका, आदि। ऐसी लाइब्रेरी में आप जो जानकारी चाहते हैं उसे खोजना बहुत चुनौतीपूर्ण हो सकता है।

वेब एक अत्यधिक गतिशील सूचना स्रोत है - यह न केवल वेब तेजी से बढ़ता है, बल्कि इसकी जानकारी भी लगातार अपडेट होती रहती है। समाचार, शेयर बाजार, मौसम, खेल, खरीदारी, कंपनी के विज्ञापन और कई अन्य वेब पेज वेब पर नियमित रूप से अपडेट किए जाते हैं। लिंकेज जानकारी और एक्सेस रिकॉर्ड भी अक्सर अपडेट किए जाते हैं।

वेब उपयोगकर्ता समुदायों की व्यापक विविधता प्रदान करता है - इंटरनेट वर्तमान में 100 मिलियन से अधिक कार्यस्थानों को जोड़ता है, और इसका उपयोगकर्ता समुदाय अभी भी तेजी से विस्तार कर रहा है। उपयोगकर्ताओं के पास कई पृष्ठभूमि, रुचियां और उपयोग के लक्ष्य हो सकते हैं।

कुछ उपयोगकर्ताओं को डेटा नेटवर्क की संरचना का सर्वोत्तम ज्ञान नहीं हो सकता है और किसी विशिष्ट खोज की भारी लागत से अवगत नहीं हो सकता है। वे नेटवर्क के "अंधेरे" में टटोलकर आसानी से खो सकते हैं या कई एक्सेस "हॉप्स" लेकर ऊब सकते हैं और किसी जानकारी के लिए बेसब्री से प्रतीक्षा कर सकते हैं।