डेटा माइनिंग
डेटा माइनिंग महत्वपूर्ण पैटर्न और नीतियों को खोजने के तरीके के रूप में भारी मात्रा में तथ्यों की स्वचालित या अर्ध-स्वचालित विधि के माध्यम से अन्वेषण और विश्लेषण की तकनीक है। यह उन नियमितताओं या संबंधों की खोज करने के लिए बड़ी मात्रा में डेटा के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है जो डेटाबेस के मालिक के लिए स्पष्ट और उपयोगी परिणाम प्राप्त करने के लिए पहले अज्ञात हैं।
डेटा माइनिंग अर्थपूर्ण पैटर्न और नियमों को खोजने के लिए बड़ी मात्रा में डेटा के स्वचालित या अर्ध-स्वचालित माध्यम से अन्वेषण और विश्लेषण की प्रक्रिया है। यह कंप्यूटर एल्गोरिदम या सांख्यिकीय तकनीकों के उपयोग तक सीमित नहीं है। यह व्यावसायिक खुफिया की एक प्रक्रिया है जिसका उपयोग कंपनी के निर्णयों का समर्थन करने के लिए सूचना प्रौद्योगिकी के साथ किया जा सकता है।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशिष्ट स्थिति में, एक विशेष डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस प्रक्रिया में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, सचित्र डेटा माइनिंग और सोशल मीडिया माइनिंग जैसी विभिन्न प्रकार की सेवाएँ शामिल हैं। यह सॉफ्टवेयर के माध्यम से किया जाता है जो सरल या अत्यधिक विशिष्ट होता है।
डेटा माइनिंग को आउटसोर्स करके, कम परिचालन लागत के साथ सभी काम जल्दी से पूरे किए जा सकते हैं। विशिष्ट फर्म डेटा को सेट करने के लिए नई तकनीकों का भी उपयोग कर सकती हैं जिन्हें मैन्युअल रूप से रखना असंभव है। विभिन्न प्लेटफार्मों पर ढेर सारी जानकारी उपलब्ध है, लेकिन बहुत कम जानकारी उपलब्ध है।
आंकड़े
सांख्यिकी से तात्पर्य संख्यात्मक डेटा के विश्लेषण और प्रस्तुति से है, जो सभी डेटा माइनिंग एल्गोरिथम का प्रमुख हिस्सा है। यह बड़ी मात्रा में डेटा से निपटने के लिए टूल और एनालिटिक्स विधियों का समर्थन करता है। सांख्यिकी में अनुसंधान निष्कर्षों की योजना बनाना, डिजाइन करना, जानकारी एकत्र करना, विश्लेषण करना और रिपोर्ट करना शामिल है। इन आँकड़ों के कारण केवल गणित तक ही सीमित नहीं है, बल्कि एक व्यापार विश्लेषक भी व्यावसायिक समस्याओं को हल करने के लिए आँकड़ों का उपयोग करता है।
जनसंख्या के मापदंडों के मूल्यों का अनुमान लगाने के लिए एक नमूने के लिए अनुमानित आँकड़ों का उपयोग किया जाता है। यह देखने के लिए परिकल्पना परीक्षण कर सकता है कि क्या दो डेटासेट समान या असमान हैं। इसका उपयोग कार्य-कारण समझाने के लिए रैखिक- या बहु-प्रतिगमन विश्लेषण करने के लिए किया जाता है।
परिकल्पना परीक्षण संख्यात्मक रूप से दो डेटासेट की तुलना कर सकता है। उदाहरण के लिए, यह महसूस कर सकता है (परिकल्पना) कि यह बिक्री की मात्रा समान है, या मुख्य प्रतियोगी की तुलना में बेहतर है। यह इस धारणा की गणितीय रूप से पुष्टि या अस्वीकार करने के लिए परिकल्पना परीक्षण का उपयोग कर सकता है। सहसंबंध विश्लेषण ब्याज के चर को कई यादृच्छिक चर से अलग करने का एक सरल उपकरण है, जो अक्सर विशाल डेटासेट में देखा जाता है, यह देखने के लिए कि कौन से व्यवसाय चर वांछित व्यावसायिक परिणाम को महत्वपूर्ण रूप से प्रभावित करते हैं।