स्किकिट-लर्न, जिसे आमतौर पर स्केलेर के रूप में जाना जाता है, पायथन में एक पुस्तकालय है जिसका उपयोग मशीन लर्निंग एल्गोरिदम को लागू करने के उद्देश्य से किया जाता है। यह शक्तिशाली और मजबूत है, क्योंकि यह सांख्यिकीय मॉडलिंग करने के लिए विभिन्न प्रकार के टूल प्रदान करता है।
इसमें पायथन में एक शक्तिशाली और स्थिर इंटरफ़ेस की मदद से वर्गीकरण, प्रतिगमन, क्लस्टरिंग, आयामीता में कमी और बहुत कुछ शामिल है। Numpy, SciPy और Matplotlib पुस्तकालयों पर निर्मित।
मशीन लर्निंग एल्गोरिथम को इनपुट डेटा पास करने से पहले, इसे प्रशिक्षण और परीक्षण डेटासेट में विभाजित करना होगा।
एक बार जब डेटा चुने हुए मॉडल में फिट हो जाता है, तो इनपुट डेटासेट को इस मॉडल पर प्रशिक्षित किया जाता है। जब प्रशिक्षण होता है, तो मॉडल डेटा से सीखता है।
यह नए डेटा पर सामान्यीकरण करना भी सीखता है। मॉडल के प्रशिक्षण के दौरान परीक्षण डेटासेट का उपयोग नहीं किया जाएगा।
एक बार जब सभी हाइपरपैरामीटर ट्यून हो जाते हैं, और इष्टतम भार सेट हो जाते हैं, तो परीक्षण डेटासेट मशीन लर्निंग एल्गोरिथम को प्रदान किया जाता है।
यह वह डेटासेट है जिसका उपयोग यह जांचने के लिए किया जाता है कि एल्गोरिथम नए डेटा को कितनी अच्छी तरह से सामान्य करता है। आइए देखें कि स्किकिट-लर्न लाइब्रेरी का उपयोग करके डेटा को कैसे विभाजित किया जा सकता है।
उदाहरण
from sklearn.datasets import load_iris my_data = load_iris() X = my_data.data y = my_data.target from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( X, y, test_size = 0.2, random_state = 2 ) print("The dimensions of the features of training data ") print(X_train.shape) print("The dimensions of the features of test data ") print(X_test.shape) print("The dimensions of the target values of training data ") print(y_train.shape) print("The dimensions of the target values of test data ") print(y_test.shape)
आउटपुट
The dimensions of the features of training data (120, 4) The dimensions of the features of test data (30, 4) The dimensions of the target values of training data (120,) The dimensions of the target values of test data (30,)
स्पष्टीकरण
- आवश्यक पैकेज आयात किए जाते हैं।
- इसके लिए आवश्यक डेटासेट भी परिवेश में लोड किया जाता है।
- सुविधाएं और लक्ष्य मान डेटासेट से अलग किए गए हैं।
- प्रशिक्षण और परीक्षण डेटा को क्रमशः 80 प्रतिशत और 20 प्रतिशत के अनुपात में विभाजित किया गया है।
- इसका मतलब है कि 20 प्रतिशत डेटा का उपयोग यह जांचने के लिए किया जाएगा कि मॉडल नए डेटा पर कितना सामान्यीकरण करता है।
- डेटा के आयामों के साथ ये विभाजन कंसोल पर मुद्रित होते हैं।