यादृच्छिक एल्गोरिदम - रैंडम सैंपलिंग और ब्लूप्रिंट के रूप में रैंडमाइज्ड एल्गोरिदम का उपयोग बड़े, उच्च-आयामी डेटा स्ट्रीम से निपटने के लिए किया जाता है। ज्ञात नियतात्मक एल्गोरिदम के विपरीत यादृच्छिककरण की आवश्यकता सरल और अधिक प्रभावी एल्गोरिदम की ओर ले जाती है।
यदि कोई यादृच्छिक एल्गोरिथम लगातार सही उत्तर देता है लेकिन चलने का समय बदल जाता है, तो इसे लास वेगास एल्गोरिथम कहा जाता है। इसके विपरीत, मोंटे कार्लो एल्गोरिथम में चलने के समय की सीमा होती है, लेकिन यह सही परिणाम को पुनर्स्थापित नहीं कर सकता है। यह आमतौर पर मोंटे कार्लो एल्गोरिदम पर विचार कर सकता है। एक यादृच्छिक एल्गोरिथम का महत्व केवल नियतात्मक एल्गोरिदम के समूह पर संभाव्यता वितरण के रूप में है।
यह देखते हुए कि एक यादृच्छिक एल्गोरिथ्म एक परिणाम के रूप में एक यादृच्छिक चर को पुनर्स्थापित करता है, यह उस यादृच्छिक चर की पूंछ संभावना पर सीमा होने की संभावना है। यह हमें बताता है कि एक यादृच्छिक चर अपने अपेक्षित मूल्य से भिन्न होने की संभावना कम है। मुख्य उपकरण चेबीशेव की असमानता है।
मान लीजिए कि X माध्य µ और मानक विचलन σ के साथ एक यादृच्छिक चर है (भिन्नता σ 2 ) चेबीशेव की असमानता कहती है कि
$$\mathrm{P(|X-\mu|>k)<\frac{\sigma^2 }{k^2}}$$
किसी दिए गए धनात्मक वास्तविक संख्या के लिए, k. इस असमानता का उपयोग यादृच्छिक चर के विचरण को बाध्य करने के लिए किया जाता है। कई मामलों में, इस परिणाम में विश्वास को बेहतर बनाने के लिए कई यादृच्छिक चर का उपयोग किया जा सकता है। इन यादृच्छिक चरों को पूरी तरह से स्वतंत्र मानते हुए, चेर्नॉफ सीमा का उपयोग किया जा सकता है।
चलो X1 एक्स<उप>2उप> ... एक्स<उप>एनउप> स्वतंत्र पॉइसन परीक्षण हो। पॉइसन परीक्षण में, परीक्षण से परीक्षण में सफलता की संभावना बदल जाती है। यदि X, X1 . का योग है से Xn . तक , तो चेरनॉफ बाउंड का एक कमजोर संस्करण हमें सूचित करता है कि
$$\mathrm{P[X<(1+\delta)\mu] जहां (0, 1]। यह दर्शाता है कि संभावना तेजी से कम हो जाती है क्योंकि यह माध्य से आगे बढ़ सकता है, जिससे खराब अनुमान बहुत अधिक संभावना नहीं है।
डेटा स्ट्रीम प्रबंधन प्रणाली - डेटा स्ट्रीम मैनेजमेंट सिस्टम में, कई डेटा स्ट्रीम होते हैं। वे ऑनलाइन दिखाई देते हैं और निरंतर, अस्थायी रूप से श्रृंखला, और संभवतः अनंत हैं। चूंकि डेटा स्ट्रीम से एक घटक का इलाज किया गया है, इसे त्याग दिया गया है या संग्रहीत किया गया है, और इसे तब तक नहीं लाया जा सकता जब तक कि इसे स्पष्ट रूप से स्मृति में सहेजा न जाए।
एक स्ट्रीम डेटा क्वेरी प्रोसेसिंग संरचना में तीन तत्व शामिल होते हैं जैसे कि एंड-यूज़र, क्वेरी प्रोसेसर और स्क्रैच स्पेस (जिसमें मुख्य मेमोरी और डिस्क शामिल हो सकते हैं)। एक अंतिम उपयोगकर्ता DSMS के लिए एक क्वेरी की चिंता करता है, और क्वेरी प्रोसेसर क्वेरी लेता है, इसे स्क्रैच स्पेस में सहेजे गए डेटा का उपयोग करके संसाधित करता है, और उपयोगकर्ता को परिणाम पुनर्स्थापित करता है।
प्रश्न एक बार के प्रश्न या निरंतर प्रश्न हो सकते हैं। डेटा सेट के पॉइंट-इन-टाइम फ़ोटोग्राफ़ पर एक बार की क्वेरी की गणना की जाती है, जिसमें उत्तर उपयोगकर्ता को पुनर्स्थापित किया जाता है। निरंतर क्वेरी की गणना लगातार की जाती है क्योंकि डेटा स्ट्रीम लगातार दिखाई देती रहती हैं।