Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

वेब माइनिंग में पेज रैंक एल्गोरिथम क्या है?

<घंटा/>

पेजरैंक वेब पेजों को वस्तुनिष्ठ और यांत्रिक रूप से रेटिंग देने का एक तरीका है, जिसमें मानवीय हितों पर ध्यान दिया जाता है। वेब खोज इंजनों को अनुभवहीन ग्राहकों और पारंपरिक रैंकिंग सेवाओं में हेरफेर करने वाले पृष्ठों के साथ व्यवस्थित करना होता है। कुछ मूल्यांकन विधियां जो वेब पेजों की नकल करने योग्य प्रकृति की गणना करती हैं, हेरफेर के लिए अप्रतिरक्षित हैं।

कार्य प्रत्येक वेब पेज की वैश्विक महत्व रैंकिंग तैयार करने के लिए वेब की हाइपरलिंक संरचना का लाभ उठाना है। इस रैंकिंग को पेजरैंक कहा जाता है।

वेब का तंत्र लगभग 150 मिलियन नोड्स (वेब ​​पेज) और 1.7 बिलियन किनारों (हाइपरलिंक) वाले ग्राफ पर निर्भर करता है। यदि वेब पेज ए और बी पेज सी से लिंक करते हैं, ए और बी सी के बैकलिंक्स कहलाते हैं। सामान्य तौर पर, अत्यधिक लिंक किए गए पेज अधिक महत्वपूर्ण होते हैं। इस प्रकार उनके पास अधिक बैकलिंक्स हैं और महत्वपूर्ण बैकलिंक्स मात्रा में कम हैं।

उदाहरण के लिए, याहू के एक व्यक्तिगत बैकलिंक वाले वेब पेज को अज्ञात या निजी साइटों से कई बैकलिंक्स वाले पेज से ऊपर रैंक किया जाना चाहिए। एक वेब पेज की एक बड़ी रैंक होती है यदि उसके बैकलिंक्स की कुल रैंक बहुत बड़ी है।

पेजरैंक का सरलीकृत संस्करण निम्नलिखित है:आइए, वी वेब पेज बनें। इसलिए बू को उन पृष्ठों का समूह बनने दें जो आपको इंगित करते हैं। इसके अलावा, मान लें कि Nv, v से कई कड़ियाँ हैं। मान लें कि c <1 सामान्यीकरण का एक कारक है। यह एक साधारण रैंकिंग R का वर्णन कर सकता है, जो पेजरैंक की सरलीकृत व्याख्या है -

$$\mathrm{R(u)\:=\:c\displaystyle\sum\limits_{u\in{Bu}}\frac{R(v)}{N_v}}$$

किसी पृष्ठ की रैंक को उसके आगे के कनेक्शनों के बीच समान रूप से विभाजित किया जाता है ताकि वे उन पृष्ठों की रैंक भी प्रदान कर सकें जिन्हें वे चिह्नित करते हैं। समीकरण पुनरावर्ती है लेकिन इस सरलीकृत फ़ंक्शन के साथ एक समस्या है।

यदि दो वेब पेज एक दूसरे को इंगित करते हैं लेकिन कोई अन्य पृष्ठ नहीं जबकि कुछ अन्य वेब पेज उनमें से एक को इंगित करते हैं, तो पुनरावृत्ति के दौरान एक लूप उत्पन्न होगा। यह लूप रैंक को इकट्ठा करेगा लेकिन किसी भी रैंक को साझा नहीं करेगा। ग्राफ़ में लूपों द्वारा बिना किनारों के बने इस जाल को रैंक सिंक के रूप में जाना जाता है।

पेज रैंक एल्गोरिथम डेटाबेस से प्रत्येक URL को एक संख्या में बदलने के साथ शुरू होता है। अगला चरण वेब पेजों को पहचानने के लिए पूर्णांक आईडी का उपयोग करके डेटाबेस में प्रत्येक हाइपरलिंक को सहेजना है। पैरेंट आईडी द्वारा लिंक संरचना को सॉर्ट करने और लटकने वाले लिंक को हटाने के बाद पुनरावृत्ति शुरू की जाती है।

अभिसरण को गति देने के लिए सर्वोत्तम प्रारंभिक असाइनमेंट का चयन करना होगा। करंट टाइम स्टेप के वेट को मेमोरी में रखा जाता है और पिछले वेट को लीनियर टाइम में डिस्क पर एक्सेस किया जाता है। भार के अभिसरण के बाद लटकने वाले कनेक्शन को वापस डाला जाता है और रैंकिंग की पुनर्गणना की जाती है। गणना अच्छी तरह से लागू होती है लेकिन अभिसरण मानदंड को आसान बनाकर और अधिक प्रभावी अनुकूलन दृष्टिकोणों का उपयोग करके तेज किया जा सकता है।


  1. टेम्पोरल डेटा माइनिंग क्या है?

    अस्थायी डेटा खनन अस्थायी डेटा के बड़े सेट से गैर-तुच्छ, निहित और संभावित रूप से आवश्यक डेटा के निष्कर्षण की प्रक्रिया को परिभाषित करता है। अस्थायी डेटा प्राथमिक डेटा प्रकारों की एक श्रृंखला है, आम तौर पर संख्यात्मक मान, और यह अस्थायी डेटा से लाभकारी ज्ञान एकत्र करने से संबंधित है। अस्थायी डेटा माइन

  1. वेब माइनिंग के अनुप्रयोग क्या हैं?

    वेब माइनिंग डेटा माइनिंग तकनीकों का उपयोग करने की प्रक्रिया को परिभाषित करता है, जो वेब-आधारित रिकॉर्ड्स और सेवाओं, सर्वर लॉग्स, सर्वर लॉग्स, और हाइपरलिंक। वेब माइनिंग का उद्देश्य महत्वपूर्ण अंतर्दृष्टि प्राप्त करने के लिए डेटा को समूहीकृत और विश्लेषण करके वेब जानकारी में डिज़ाइन की खोज करना है। वे

  1. वेब उपयोग खनन क्या है?

    वेब उपयोग खनन का उपयोग वेबलॉग डेटा से उपयोगी डेटा, सूचना, ज्ञान प्राप्त करने के लिए किया जाता है, और वेब पेजों के लिए उपयोगकर्ता एक्सेस डिज़ाइन की पहचान करने में मदद करता है। खनन में, वेब संसाधनों का प्रबंधन, व्यक्ति एक वेबसाइट के आगंतुकों के अनुरोधों के डेटा के बारे में सोच रहा है जो वेब सर्वर लॉग