Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन में खोजपूर्ण डेटा विश्लेषण

डेटा विश्लेषण के लिए, खोजपूर्ण डेटा विश्लेषण (ईडीए) आपका पहला कदम होना चाहिए। खोजपूर्ण डेटा विश्लेषण हमें −

. में मदद करता है
  • डेटा सेट में अंतर्दृष्टि देने के लिए।

  • अंतर्निहित संरचना को समझें।

  • महत्वपूर्ण पैरामीटर और उनके बीच संबंध निकालें।

  • अंतर्निहित मान्यताओं का परीक्षण करें।

नमूना डेटा सेट का उपयोग करके EDA को समझना

पायथन का उपयोग करके ईडीए को समझने के लिए, हम नमूना डेटा सीधे किसी भी वेबसाइट से या आपकी स्थानीय डिस्क से ले सकते हैं। मैं यूसीआई मशीन लर्निंग रिपोजिटरी से नमूना डेटा ले रहा हूं जो सार्वजनिक रूप से वाइन क्वालिटी डेटा सेट के लाल संस्करण में उपलब्ध है और ईडीए का उपयोग करके डेटा सेट में अधिक अंतर्दृष्टि प्राप्त करने का प्रयास करता है।

pddf =pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv")df.head()<के रूप में आयात करें /पूर्व> 

ज्यूपिटर नोटबुक में स्क्रिप्ट के ऊपर चल रहा है, आउटपुट कुछ नीचे जैसा देगा -

पायथन में खोजपूर्ण डेटा विश्लेषण

आरंभ करने के लिए,

  • सबसे पहले, मामले में आवश्यक पुस्तकालय, पांडा आयात करें।

  • पांडा पुस्तकालय के read_csv () फ़ंक्शन का उपयोग करके सीएसवी फ़ाइल पढ़ें और प्रत्येक डेटा को सीमांकक ";" द्वारा अलग किया जाता है दिए गए डेटा सेट में।

  • पांडा पुस्तकालय द्वारा प्रदान किए गए ".head" फ़ंक्शन की सहायता से डेटा सेट से पहले पांच अवलोकन लौटाएं। हम पांडा पुस्तकालय के ".tail ()" फ़ंक्शन का उपयोग करके इसी तरह अंतिम पांच अवलोकन प्राप्त कर सकते हैं।

हम नीचे की तरह ".shape" का उपयोग करके डेटा सेट से पंक्तियों और स्तंभों की कुल संख्या प्राप्त कर सकते हैं -

df.shape

पायथन में खोजपूर्ण डेटा विश्लेषण

जानकारी () फ़ंक्शन की सहायता से यह पता लगाने के लिए कि इसमें कौन से कॉलम हैं, किस प्रकार के हैं और यदि उनमें कोई मान है या नहीं।

df.info()

पायथन में खोजपूर्ण डेटा विश्लेषण

उपरोक्त डेटा को देखकर, हम निष्कर्ष निकाल सकते हैं -

  • डेटा में केवल एक पूर्णांक मान फ़्लोट होता है।

  • सभी कॉलम वेरिएबल गैर-शून्य (कोई-खाली या अनुपलब्ध मान) नहीं हैं।

पांडा द्वारा प्रदान किया गया एक अन्य उपयोगी कार्य वर्णन () है जो गणना, माध्य, मानक विचलन, न्यूनतम और अधिकतम मान और डेटा की मात्रा प्रदान करता है।

df.describe()

पायथन में खोजपूर्ण डेटा विश्लेषण

  • उपरोक्त डेटा से, हम यह निष्कर्ष निकाल सकते हैं कि प्रत्येक कॉलम का माध्य मान इंडेक्स कॉलम में माध्य मान (50%) से कम है।

  • भविष्यवाणियों "अवशिष्ट चीनी", "मुक्त सल्फर डाइऑक्साइड" और "कुल सल्फर डाइऑक्साइड" के 75% और अधिकतम मूल्यों के बीच बहुत बड़ा अंतर है।

  • उपरोक्त दो अवलोकनों से यह संकेत मिलता है कि हमारे डेटा सेट में चरम मान- विचलन हैं।

आश्रित चरों से हमें प्राप्त होने वाली प्रमुख अंतर्दृष्टि के जोड़े इस प्रकार हैं -

df.quality.unique()

पायथन में खोजपूर्ण डेटा विश्लेषण

  • “क्वालिटी” स्कोर स्केल में, 1 सबसे नीचे आता है। गरीब और 10 सबसे ऊपर आता है यानी। सबसे अच्छा।

  • ऊपर से हम यह निष्कर्ष निकाल सकते हैं कि कोई भी अवलोकन स्कोर 1(खराब), 2 और 9, 10(सर्वश्रेष्ठ) स्कोर नहीं है। सभी स्कोर 3 से 8 के बीच हैं।

df.quality.value_counts()

पायथन में खोजपूर्ण डेटा विश्लेषण

  • उपरोक्त संसाधित डेटा प्रत्येक गुणवत्ता स्कोर के लिए अवरोही क्रम में वोट गणना के बारे में जानकारी प्रदान करता है।

  • अधिकांश गुणवत्ता 5-7 की सीमा में हैं।

  • 3 और 6 श्रेणियों में सबसे कम अवलोकन देखे गए हैं।

डेटा विज़ुअलाइज़ेशन

गुम मानों की जांच करने के लिए -

हम सीबॉर्न लाइब्रेरी की मदद से अपने व्हाइट-व्हिस्की सीएसवी डेटा सेट में लापता मूल्यों की जांच कर सकते हैं। इसे पूरा करने के लिए कोड नीचे दिया गया है -

पंडों को pdimport numpy के रूप में npimport समुद्री के रूप में snsimport matplotlib.pyplot के रूप में plt%matplotlib inlinesns.set()df =pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning- के रूप में आयात करें- databases/wine-quality/winequality-white.csv", sep=";")sns.heatmap(df.isnull(), cbar=False, yticklabels=False, cmap='viridis')

आउटपुट

पायथन में खोजपूर्ण डेटा विश्लेषण

  • ऊपर से हम देख सकते हैं कि डेटासेट में कोई गुम मान नहीं है। यदि कोई हो, तो हम बैंगनी पृष्ठभूमि पर अलग-अलग रंग की छाया द्वारा दर्शाए गए चित्र को देखेंगे।

  • अलग-अलग डेटासेट के साथ जहां गुम मान हैं और आप अंतर देखेंगे।

सहसंबंध जांचने के लिए

डेटासेट के विभिन्न मानों के बीच सहसंबंध की जांच करने के लिए, हमारे मौजूदा डेटासेट में नीचे कोड डालें -

plt.figure(figsize=(8,4))sns.heatmap(df.corr(),cmap='Greens',annot=False)

आउटपुट

पायथन में खोजपूर्ण डेटा विश्लेषण

  • ऊपर, सकारात्मक सहसंबंध गहरे रंगों द्वारा दर्शाया गया है और नकारात्मक सहसंबंध हल्के रंगों द्वारा दर्शाया गया है।

  • annot=True का मान बदलता है, और आउटपुट आपको वे मान दिखाएगा जिनके द्वारा ग्रिड-सेल में सुविधाएँ एक-दूसरे से सहसंबद्ध होती हैं।

हम annot=True के साथ एक और सहसंबंध मैट्रिक्स उत्पन्न कर सकते हैं। हमारे मौजूदा कोड में कोड की नीचे की पंक्तियों को जोड़कर अपना कोड संशोधित करें -

k =12cols =df.corr().nसबसे बड़ा(k, 'गुणवत्ता')['गुणवत्ता'].indexcm =df[cols].corr()plt.figure(figsize=(8,6))sns .heatmap(cm, annot=True, cmap ='viridis')

आउटपुट

पायथन में खोजपूर्ण डेटा विश्लेषण

  • ऊपर से हम देख सकते हैं, अवशिष्ट चीनी के साथ घनत्व का एक मजबूत सकारात्मक संबंध है। हालांकि, घनत्व और अल्कोहल का एक मजबूत नकारात्मक सहसंबंध।

  • साथ ही, मुक्त सल्फर डाइऑक्साइड और गुणवत्ता के बीच कोई संबंध नहीं है।


  1. पायथन प्रोग्राम के साथ डेटा विश्लेषण और विज़ुअलाइज़ेशन

    इस ट्यूटोरियल में, हम pandas . जैसे मॉड्यूल का उपयोग करके डेटा विश्लेषण और विज़ुअलाइज़ेशन के बारे में जानेंगे और matplotlib पायथन . में . डेटा विश्लेषण चीजों के लिए पायथन एक उत्कृष्ट फिट है। मॉड्यूल स्थापित करें पांडा और matplotlib निम्न आदेशों का उपयोग करते हुए। pip install pandas pip install ma

  1. पायथन डेटा विश्लेषण और विज़ुअलाइज़ेशन

    पांडा डेटा साइंस और एनालिटिक्स के लिए सबसे लोकप्रिय पायथन लाइब्रेरी में से एक है। पांडा पुस्तकालय का उपयोग डेटा हेरफेर, विश्लेषण और सफाई के लिए किया जाता है। यह निम्न-स्तरीय NumPy पर एक उच्च-स्तरीय अमूर्त है जो विशुद्ध रूप से C में लिखा गया है। इस खंड में, हम कुछ सबसे महत्वपूर्ण (अक्सर उपयोग की जाने

  1. पायथन में डेटा विश्लेषण और विज़ुअलाइज़ेशन?

    पायथन डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए मुख्य रूप से सुन्न, पांडा, मैटप्लोटलिब, सीबॉर्न आदि के लिए कई पुस्तकालय प्रदान करता है। इस खंड में, हम डेटा विश्लेषण और विज़ुअलाइज़ेशन के लिए पांडा पुस्तकालय पर चर्चा करने जा रहे हैं, जो एक खुला स्रोत पुस्तकालय है जो सुन्न के ऊपर बनाया गया है। यह हमें ते