Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पाइथन में डेटा को प्रीप्रोसेस करने के लिए स्किकिट लर्निंग लाइब्रेरी का उपयोग कैसे किया जा सकता है?

प्री-प्रोसेसिंग डेटा से तात्पर्य डेटा की सफाई, अमान्य डेटा को हटाने, शोर, प्रासंगिक मूल्यों के साथ डेटा को बदलने आदि से है।

इसका मतलब हमेशा टेक्स्ट डेटा नहीं होता है; यह चित्र या वीडियो प्रसंस्करण भी हो सकता है। यह मशीन लर्निंग पाइपलाइन में एक महत्वपूर्ण कदम है।

डेटा प्री-प्रोसेसिंग मूल रूप से सभी डेटा (जो विभिन्न संसाधनों या एक संसाधन से एकत्र किया जाता है) को एक सामान्य प्रारूप में या एक समान डेटासेट (डेटा के प्रकार के आधार पर) में एकत्रित करने के कार्य को संदर्भित करता है।

ऐसा इसलिए किया जाता है ताकि लर्निंग एल्गोरिथम इस डेटासेट से सीख सके और उच्च सटीकता के साथ प्रासंगिक परिणाम दे सके। चूंकि वास्तविक दुनिया का डेटा कभी भी आदर्श नहीं होता है, इसलिए इस बात की संभावना है कि डेटा में लापता सेल, त्रुटियां, आउटलेयर, कॉलम में विसंगतियां, और बहुत कुछ होगा।

कभी-कभी, छवियों को सही ढंग से संरेखित नहीं किया जा सकता है, या स्पष्ट नहीं हो सकता है या बहुत बड़ा आकार हो सकता है। प्री-प्रोसेसिंग का लक्ष्य इन विसंगतियों और त्रुटियों को दूर करना है। डेटा पूर्व-प्रसंस्करण एक एकल कार्य नहीं है, बल्कि उन कार्यों का एक समूह है जो चरण दर चरण निष्पादित किए जाते हैं।

एक चरण का आउटपुट अगले चरण आदि का इनपुट बन जाता है।

आइए संख्यात्मक मानों को बूलियन मानों में बदलने का उदाहरण लें -

उदाहरण

import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)

आउटपुट

Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]

स्पष्टीकरण

  • आवश्यक पैकेज आयात किए जाते हैं।
  • नम्पी लाइब्रेरी का उपयोग करके इनपुट डेटा जेनरेट किया जाता है।
  • स्केलेर के 'प्रीप्रोसेसिंग' वर्ग में मौजूद 'बिनाराइज़र' फ़ंक्शन का उपयोग संख्यात्मक मानों को बूलियन मानों में बदलने के लिए किया जाता है।
  • बूलियन मान मूल रूप से केवल 1 और 0 को संदर्भित करता है।
  • यह रूपांतरित डेटा कंसोल पर प्रिंट होता है।

  1. पायथन में एक छवि का संकल्प प्राप्त करने के लिए स्किकिट-लर्न लाइब्रेरी का उपयोग कैसे किया जा सकता है?

    डेटा प्री-प्रोसेसिंग मूल रूप से सभी डेटा (जो विभिन्न संसाधनों या एक संसाधन से एकत्र किया जाता है) को एक सामान्य प्रारूप में या एक समान डेटासेट (डेटा के प्रकार के आधार पर) में इकट्ठा करने के कार्य को संदर्भित करता है। चूंकि वास्तविक दुनिया का डेटा कभी भी आदर्श नहीं होता है, इस बात की संभावना है कि डे

  1. पाइथन में हिस्टोग्राम प्रदर्शित करने के लिए सीबोर्न लाइब्रेरी का उपयोग कैसे किया जा सकता है?

    डेटा को विज़ुअलाइज़ करना एक महत्वपूर्ण कदम है क्योंकि यह यह समझने में मदद करता है कि वास्तव में संख्याओं को देखे बिना और जटिल गणना किए बिना डेटा में क्या चल रहा है। यह दर्शकों को मात्रात्मक अंतर्दृष्टि को प्रभावी ढंग से संप्रेषित करने में मदद करता है। सीबॉर्न एक पुस्तकालय है जो डेटा की कल्पना करने

  1. पाइथन में स्कैटर प्लॉट प्रदर्शित करने के लिए सीबोर्न लाइब्रेरी का उपयोग कैसे किया जा सकता है?

    डेटा को विज़ुअलाइज़ करना एक महत्वपूर्ण कदम है क्योंकि यह यह समझने में मदद करता है कि वास्तव में संख्याओं को देखे बिना और जटिल गणना किए बिना डेटा में क्या चल रहा है। सीबॉर्न एक पुस्तकालय है जो डेटा को विज़ुअलाइज़ करने में मदद करता है। स्कैटर प्लॉट डेटा के वितरण को डेटा बिंदुओं के रूप में दिखाता है ज