Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में रैंडमाइज्ड एल्गोरिथम और डेटा स्ट्रीम मैनेजमेंट सिस्टम क्या है?


यादृच्छिक एल्गोरिदम - रैंडम सैंपलिंग और ब्लूप्रिंट के रूप में रैंडमाइज्ड एल्गोरिदम का उपयोग बड़े, उच्च-आयामी डेटा स्ट्रीम से निपटने के लिए किया जाता है। ज्ञात नियतात्मक एल्गोरिदम के विपरीत यादृच्छिककरण की आवश्यकता सरल और अधिक प्रभावी एल्गोरिदम की ओर ले जाती है।

यदि कोई यादृच्छिक एल्गोरिथम लगातार सही उत्तर देता है लेकिन चलने का समय बदल जाता है, तो इसे लास वेगास एल्गोरिथम कहा जाता है। इसके विपरीत, मोंटे कार्लो एल्गोरिथम में चलने के समय की सीमा होती है, लेकिन यह सही परिणाम को पुनर्स्थापित नहीं कर सकता है। यह आमतौर पर मोंटे कार्लो एल्गोरिदम पर विचार कर सकता है। एक यादृच्छिक एल्गोरिथम का महत्व केवल नियतात्मक एल्गोरिदम के समूह पर संभाव्यता वितरण के रूप में है।

यह देखते हुए कि एक यादृच्छिक एल्गोरिथ्म एक परिणाम के रूप में एक यादृच्छिक चर को पुनर्स्थापित करता है, यह उस यादृच्छिक चर की पूंछ संभावना पर सीमा होने की संभावना है। यह हमें बताता है कि एक यादृच्छिक चर अपने अपेक्षित मूल्य से भिन्न होने की संभावना कम है। मुख्य उपकरण चेबीशेव की असमानता है।

मान लीजिए कि X माध्य µ और मानक विचलन σ के साथ एक यादृच्छिक चर है (भिन्नता σ 2 ) चेबीशेव की असमानता कहती है कि

$$\mathrm{P(|X-\mu|>k)<\frac{\sigma^2 }{k^2}}$$

किसी दिए गए धनात्मक वास्तविक संख्या के लिए, k. इस असमानता का उपयोग यादृच्छिक चर के विचरण को बाध्य करने के लिए किया जाता है। कई मामलों में, इस परिणाम में विश्वास को बेहतर बनाने के लिए कई यादृच्छिक चर का उपयोग किया जा सकता है। इन यादृच्छिक चरों को पूरी तरह से स्वतंत्र मानते हुए, चेर्नॉफ सीमा का उपयोग किया जा सकता है।

चलो X1 एक्स<उप>2 ... एक्स<उप>एन स्वतंत्र पॉइसन परीक्षण हो। पॉइसन परीक्षण में, परीक्षण से परीक्षण में सफलता की संभावना बदल जाती है। यदि X, X1 . का योग है से Xn . तक , तो चेरनॉफ बाउंड का एक कमजोर संस्करण हमें सूचित करता है कि

$$\mathrm{P[X<(1+\delta)\mu]

जहां (0, 1]। यह दर्शाता है कि संभावना तेजी से कम हो जाती है क्योंकि यह माध्य से आगे बढ़ सकता है, जिससे खराब अनुमान बहुत अधिक संभावना नहीं है।

डेटा स्ट्रीम प्रबंधन प्रणाली - डेटा स्ट्रीम मैनेजमेंट सिस्टम में, कई डेटा स्ट्रीम होते हैं। वे ऑनलाइन दिखाई देते हैं और निरंतर, अस्थायी रूप से श्रृंखला, और संभवतः अनंत हैं। चूंकि डेटा स्ट्रीम से एक घटक का इलाज किया गया है, इसे त्याग दिया गया है या संग्रहीत किया गया है, और इसे तब तक नहीं लाया जा सकता जब तक कि इसे स्पष्ट रूप से स्मृति में सहेजा न जाए।

एक स्ट्रीम डेटा क्वेरी प्रोसेसिंग संरचना में तीन तत्व शामिल होते हैं जैसे कि एंड-यूज़र, क्वेरी प्रोसेसर और स्क्रैच स्पेस (जिसमें मुख्य मेमोरी और डिस्क शामिल हो सकते हैं)। एक अंतिम उपयोगकर्ता DSMS के लिए एक क्वेरी की चिंता करता है, और क्वेरी प्रोसेसर क्वेरी लेता है, इसे स्क्रैच स्पेस में सहेजे गए डेटा का उपयोग करके संसाधित करता है, और उपयोगकर्ता को परिणाम पुनर्स्थापित करता है।

प्रश्न एक बार के प्रश्न या निरंतर प्रश्न हो सकते हैं। डेटा सेट के पॉइंट-इन-टाइम फ़ोटोग्राफ़ पर एक बार की क्वेरी की गणना की जाती है, जिसमें उत्तर उपयोगकर्ता को पुनर्स्थापित किया जाता है। निरंतर क्वेरी की गणना लगातार की जाती है क्योंकि डेटा स्ट्रीम लगातार दिखाई देती रहती हैं।


  1. डेटाबेस प्रबंधन प्रणाली (DBMS) क्या है?

    एक डेटाबेस प्रबंधन प्रणाली एक डेटाबेस के सभी प्राथमिक पहलुओं का प्रबंधन करती है, जिसमें डेटा हेरफेर, उपयोगकर्ता प्रमाणीकरण और डेटा सम्मिलित करना या निकालना शामिल है। एक DBMS परिभाषित करता है जिसे डेटा स्कीमा, . कहा जाता है या वह संरचना जिसमें डेटा संग्रहीत किया जाता है। रिलेशनल डेटाबेस मैनेजमेंट स

  1. Spatiotemporal डेटा माइनिंग क्या है?

    Spatiotemporal डेटा माइनिंग, spatiotemporal डेटा से पैटर्न और ज्ञान खोजने की प्रक्रिया को परिभाषित करता है। स्पोटियोटेम्पोरल डेटा माइनिंग के एक उदाहरण में शहरों और भूमि के विकास के इतिहास का पता लगाना, मौसम के डिजाइन को उजागर करना, भूकंप और तूफान की भविष्यवाणी करना और ग्लोबल वार्मिंग के रुझान तय करन

  1. सी#में स्ट्रिंग और स्ट्रिंग डेटा प्रकार क्या हैं?

    String System.String के लिए खड़ा है जबकि string System.String के लिए C# में एक उपनाम है - उदाहरण के लिए - string str = "Welcome!"; यह आवश्यक नहीं है, लेकिन आमतौर पर स्ट्रिंग का उपयोग तब किया जाता है जब आप कक्षाओं के साथ काम करते हैं - string str = String.Format("Welcome! {0}!",