Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में व्युत्पन्न मॉडल कैसे प्रस्तुत किया जाता है?

<घंटा/>

वर्गीकरण एक मॉडल की खोज की प्रक्रिया है जो डेटा वर्गों या अवधारणाओं को परिभाषित और वर्गीकृत करता है। मॉडल प्रशिक्षण डेटा के एक सेट की खोज पर आधारित है (यानी, डेटा ऑब्जेक्ट जिसके लिए क्लास लेबल प्रसिद्ध हैं)। मॉडल उन वस्तुओं के वर्ग लेबल की भविष्यवाणी कर सकता है जिनके लिए वर्ग लेबल अनाम है।

व्युत्पन्न मॉडल को कई रूपों में दर्शाया जा सकता है, जिसमें वर्गीकरण नियम (यानी, IF-THEN नियम), निर्णय पेड़, संख्यात्मक सूत्र या तंत्रिका नेटवर्क शामिल हैं। डिसीजन ट्री एक फ़्लोचार्ट-जैसी ट्री आर्किटेक्चर है, जहां प्रत्येक नोड एक विशेषता मान पर एक परीक्षण को इंगित करता है, प्रत्येक शाखा परीक्षण के परिणाम को परिभाषित करती है, और पेड़ के पत्ते कक्षाओं या वर्ग वितरण का वर्णन करते हैं।

निर्णय वृक्षों को वर्गीकरण नियमों में बदला जा सकता है। एक तंत्रिका नेटवर्क, जब वर्गीकरण के लिए उपयोग किया जाता है, आम तौर पर इकाइयों के बीच भारित कनेक्शन के साथ न्यूरॉन जैसी प्रसंस्करण इकाइयों का एक सेट होता है। वर्गीकरण मॉडल बनाने की कई विधियाँ हैं, जिनमें भोले बायेसियन वर्गीकरण, सपोर्ट वेक्टर मशीन और k-निकटतम-पड़ोसी वर्गीकरण शामिल हैं।

वर्गीकरण पूर्वानुमान श्रेणीबद्ध (असतत, अनियंत्रित) लेबल, प्रतिगमन मॉडल निरंतर-मूल्यवान कार्य। प्रतिगमन (असतत) वर्ग लेबल के बजाय अनुपलब्ध या अनुपलब्ध सांख्यिकीय डेटा मानों की भविष्यवाणी कर सकता है।

भविष्यवाणी संख्यात्मक भविष्यवाणी और वर्ग लेबल भविष्यवाणी दोनों को परिभाषित करती है। प्रतिगमन विश्लेषण एक सांख्यिकीय पद्धति है जिसका उपयोग संख्यात्मक भविष्यवाणी के लिए किया जाता है, हालांकि कई तकनीकें भी मौजूद हैं। प्रतिगमन भी वितरण प्रवृत्तियों की पहचान के आसपास उपलब्ध डेटा पर निर्भर करता है।

प्रासंगिकता विश्लेषण से पहले वर्गीकरण और प्रतिगमन की आवश्यकता हो सकती है, जो उन विशेषताओं को पहचानने की कोशिश करता है जो वर्गीकरण और प्रतिगमन प्रक्रिया पर महत्वपूर्ण रूप से लागू होती हैं। वर्गीकरण और प्रतिगमन प्रक्रिया के लिए ऐसी विशेषताओं का चयन किया जाएगा। ऐसी कई विशेषताएं हैं, जो अप्रासंगिक हैं, उन पर विचार करने से अनाधिकृत रूप से विचार किया जा सकता है।

मान लीजिए कि AllElectronics के बिक्री प्रबंधक के रूप में बिक्री अभियान के लिए तीन प्रकार की प्रतिक्रियाओं जैसे अच्छी प्रतिक्रिया, हल्की प्रतिक्रिया और कोई प्रतिक्रिया नहीं के आधार पर स्टोर में वस्तुओं के एक बड़े सेट को परिभाषित करना आवश्यक है।

यह इन तीन वर्गों में से प्रत्येक के लिए मूल्य, ब्रांड, स्थान, प्रकार और श्रेणी सहित वस्तुओं की वर्णनात्मक विशेषताओं के आधार पर एक मॉडल प्राप्त कर सकता है। परिणामी वर्गीकरण को डेटा सेट की एक संगठित छवि प्रस्तुत करते हुए, प्रत्येक वर्ग को दूसरों से अधिकतम विश्लेषण करना चाहिए।

निर्णय वृक्ष मूल्य की पहचान व्यक्तिगत कारक के रूप में कर सकता है जो तीन वर्गों को सर्वोत्तम रूप से अलग करता है। पेड़ यह प्रकट कर सकता है कि कीमत के अलावा, अन्य विशेषताएं जो प्रत्येक वर्ग की वस्तुओं को एक दूसरे से अलग करने का समर्थन करती हैं, उनमें ब्रांड और स्थान शामिल हैं। ऐसा निर्णय वृक्ष हमें दिए गए बिक्री अभियान के प्रभाव को जानने और भविष्य में एक अधिक कुशल अभियान तैयार करने के लिए प्रदान कर सकता है।


  1. टेम्पोरल डेटा माइनिंग क्या है?

    अस्थायी डेटा खनन अस्थायी डेटा के बड़े सेट से गैर-तुच्छ, निहित और संभावित रूप से आवश्यक डेटा के निष्कर्षण की प्रक्रिया को परिभाषित करता है। अस्थायी डेटा प्राथमिक डेटा प्रकारों की एक श्रृंखला है, आम तौर पर संख्यात्मक मान, और यह अस्थायी डेटा से लाभकारी ज्ञान एकत्र करने से संबंधित है। अस्थायी डेटा माइन

  1. डेटा माइनिंग में मेटारुल्स कैसे उपयोगी हैं?

    डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के

  1. डाटा माइनिंग की सैद्धांतिक नींव क्या है?

    डेटा माइनिंग के आधार पर कई सिद्धांत हैं जिनमें निम्नलिखित शामिल हैं - डेटा में कमी - इस सिद्धांत में डेटा माइनिंग का आधार डेटा प्रतिनिधित्व को कम करना है। विशाल डेटाबेस पर प्रश्नों के तेजी से अनुमानित उत्तर प्राप्त करने की आवश्यकता के जवाब में डेटा में कमी निश्चितता को गति प्रदान करती है। डेटा में