पाइथन में स्पष्ट स्कैटर प्लॉट सीबोर्न लाइब्रेरी में स्ट्रिपप्लॉट का उपयोग करते समय ओवरलैप होने वाले बिंदुओं से कैसे बचें?

डेटा को विज़ुअलाइज़ करना एक महत्वपूर्ण कदम है क्योंकि यह यह समझने में मदद करता है कि वास्तव में संख्याओं को देखे बिना और जटिल गणना किए बिना डेटा में क्या चल रहा है। सीबॉर्न एक पुस्तकालय है जो डेटा की कल्पना करने में मदद करता है। यह अनुकूलित थीम और उच्च स्तरीय इंटरफ़ेस के साथ आता है।

सामान्य स्कैटर प्लॉट, हिस्टोग्राम आदि का उपयोग तब नहीं किया जा सकता जब वे चर जिनके साथ काम करने की आवश्यकता होती है वे प्रकृति में स्पष्ट होते हैं। यह तब होता है जब श्रेणीबद्ध स्कैटरप्लॉट का उपयोग करने की आवश्यकता होती है।

श्रेणीबद्ध चर के साथ काम करने के लिए 'स्ट्रिपप्लॉट', 'स्वार्मप्लॉट' जैसे भूखंडों का उपयोग किया जाता है। 'स्ट्रिपप्लॉट' फ़ंक्शन का उपयोग तब किया जाता है जब कम से कम एक चर श्रेणीबद्ध होता है। डेटा को कुल्हाड़ियों में से एक के साथ क्रमबद्ध तरीके से दर्शाया गया है। लेकिन नुकसान यह है कि कुछ बिंदु ओवरलैप हो जाते हैं। यह वह जगह है जहां चर के बीच अतिव्यापी से बचने के लिए 'घबराना' पैरामीटर का उपयोग किया जाना है।

यह डेटासेट में कुछ यादृच्छिक शोर जोड़ता है, और श्रेणीबद्ध अक्ष के साथ मानों की स्थिति को समायोजित करता है।

स्ट्रिपप्लॉट फ़ंक्शन का सिंटैक्स

seaborn.stripplot(x, y,data, jitter = …)

आइए देखें कि डेटासेट में श्रेणीबद्ध चरों को प्लॉट करने के लिए 'घबराना' पैरामीटर का उपयोग कैसे किया जा सकता है -

उदाहरण

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
my_df = sb.load_dataset('iris')
sb.stripplot(x = "species", y = "petal_length", data = my_df, jitter = True)
plt.show()

आउटपुट

पाइथन में स्पष्ट स्कैटर प्लॉट सीबोर्न लाइब्रेरी में स्ट्रिपप्लॉट का उपयोग करते समय ओवरलैप होने वाले बिंदुओं से कैसे बचें?

स्पष्टीकरण

आवश्यक पैकेज आयात किए जाते हैं।
इनपुट डेटा 'आईरिस_डेटा' है जो स्किकिट लर्न लाइब्रेरी से लोड किया गया है।
यह डेटा डेटाफ़्रेम में संग्रहीत किया जाता है।
'load_dataset' फ़ंक्शन का उपयोग आईरिस डेटा को लोड करने के लिए किया जाता है।
यह डेटा 'स्ट्रिपप्लॉट' फ़ंक्शन का उपयोग करके विज़ुअलाइज़ किया जाता है।
डेटाफ़ेम के मूल्यों के अतिव्यापी होने से बचने के लिए 'घबराना' नामक एक अतिरिक्त पैरामीटर पारित किया गया है।
यहां, डेटाफ्रेम पैरामीटर के रूप में दिया गया है।
साथ ही, x और y मान निर्दिष्ट हैं।
यह डेटा कंसोल पर प्रदर्शित होता है।