यदि हम श्रेणियों के भीतर मौजूद डेटा की तुलना करना चाहते हैं, तो बॉक्स प्लॉट चलन में आते हैं। यह एक ऐसा तरीका है जिससे डेटासेट में डेटा वितरण को चतुर्थक की मदद से समझा जा सकता है। इसमें ऊर्ध्वाधर रेखाएँ होती हैं जो बक्सों से विस्तारित होती हैं। इन एक्सटेंशन को व्हिस्कर्स के रूप में जाना जाता है। ये मूंछें बताती हैं कि डेटा ऊपरी और निचले चतुर्थक के बाहर कैसे भिन्न होता है। यही कारण है कि बॉक्स प्लॉट को व्हिस्कर प्लॉट भी कहा जाता है। डेटा में आउटलेयर को अलग-अलग बिंदुओं के रूप में प्लॉट किया जाता है।
वायलिन प्लॉट कर्नेल घनत्व अनुमान (केडीई) के साथ बॉक्स प्लॉट का एक संयोजन है। यह विश्लेषण करना और समझना आसान है कि डेटा कैसे वितरित किया गया है। वायलिन का विस्तृत भाग डेटा के उच्च घनत्व को इंगित करता है। वायलिन का संकीर्ण भाग डेटा के कम घनत्व को इंगित करता है।
एक बॉक्सप्लॉट के भीतर इंटर-क्वार्टाइल रेंज और डेटा का उच्च घनत्व वाला हिस्सा हर श्रेणी में एक ही क्षेत्र में आता है।
वायलिनप्लॉट फ़ंक्शन का सिंटैक्स
seaborn.violinplot(x, y,data,…)
आइए समझते हैं कि डेटा को प्लॉट करने के लिए वायलिन प्लॉट का उपयोग कैसे किया जा सकता है -
उदाहरण
import pandas as pd import seaborn as sb from matplotlib import pyplot as plt my_df = sb.load_dataset('tips') sb.violinplot(x = "day", y = "total_bill", data=my_df) plt.show()
आउटपुट
स्पष्टीकरण
- आवश्यक पैकेज आयात किए जाते हैं।
- इनपुट डेटा 'आईरिस_डेटा' है जो स्किकिट लर्न लाइब्रेरी से लोड किया गया है।
- यह डेटा डेटाफ़्रेम में संग्रहीत किया जाता है।
- 'load_dataset' फ़ंक्शन का उपयोग आईरिस डेटा को लोड करने के लिए किया जाता है।
- इस डेटा को 'वायलिनप्लॉट' फ़ंक्शन का उपयोग करके देखा जाता है।
- यहां, डेटाफ्रेम पैरामीटर के रूप में दिया गया है।
- साथ ही, x और y मान निर्दिष्ट हैं।
- यह डेटा कंसोल पर प्रदर्शित होता है।