निम्नलिखित पूर्व-प्रसंस्करण चरण हैं जिनका उपयोग वर्गीकरण या भविष्यवाणी चरण की सटीकता, प्रभावशीलता और मापनीयता को बढ़ावा देने के लिए डेटा के लिए किया जा सकता है जो इस प्रकार हैं -
-
डेटा सफाई - यह चौरसाई विधियों और लापता मूल्यों के संचालन का उपयोग करके शोर को खत्म करने या कम करने के लिए डेटा के पूर्व-प्रसंस्करण को परिभाषित करता है (उदाहरण के लिए, उस विशेषता के लिए सबसे आम तौर पर दिखने वाले मूल्य के साथ एक लापता मूल्य को बहाल करके, या स्थापित सर्वोत्तम संभावित मूल्य के साथ सांख्यिकी)। हालांकि विभिन्न वर्गीकरण एल्गोरिदम में शोर या लापता जानकारी के प्रबंधन के लिए कुछ संरचनाएं हैं, यह कदम सीखने के दौरान भ्रम को कम करने में सहायता कर सकता है।
-
प्रासंगिकता विश्लेषण - डेटा में विभिन्न विशेषताएं हैं जो वर्गीकरण या भविष्यवाणी कार्य के लिए अप्रासंगिक हो सकती हैं। उदाहरण के लिए, सप्ताह के उस दिन को रिकॉर्ड करना जिस दिन बैंक ऋण सॉफ्टवेयर भरा गया था, सॉफ्टवेयर की सफलता के लिए प्रासंगिक होना असंभव है। इसके अलावा, कुछ अलग विशेषताएँ बेमानी हो सकती हैं।
इसलिए, सीखने की प्रक्रिया से कुछ अप्रासंगिक या निरर्थक विशेषताओं को हटाने के लिए डेटा पर प्रासंगिकता विश्लेषण लागू किया जा सकता है। मशीन लर्निंग में, इस चरण को फीचर सेलेक्शन कहा जाता है। इसमें ऐसी विशेषताएं हैं जो अन्यथा धीमा कर सकती हैं, और संभवतः सीखने के चरण को गुमराह कर सकती हैं।
सही ढंग से, प्रासंगिकता विश्लेषण पर उपयोग किया जाने वाला समय, जब परिणामी "कम" सुविधा उपसमुच्चय से सीखने में उपयोग किए जाने वाले समय में डाला जाता है, और उस समय से कम होना चाहिए जो सुविधाओं के प्रारंभिक सेट से सीखने पर उपयोग किया जाता। इसलिए, इस तरह का विश्लेषण वर्गीकरण प्रभावशीलता और मापनीयता को बढ़ावा देने में मदद कर सकता है।
-
डेटा परिवर्तन - डेटा को बड़े स्तर के दृष्टिकोण के लिए सामान्यीकृत किया जा सकता है। इन लक्ष्यों के लिए अवधारणा पदानुक्रम का उपयोग किया जा सकता है। यह निरंतर-मूल्यवान विशेषताओं के लिए विशेष रूप से सहायक है। उदाहरण के लिए, विशेषता आय के गणितीय मूल्यों को निम्न, मध्यम और उच्च सहित असतत क्षेत्र में सामान्यीकृत किया जा सकता है। इसी तरह, नाममात्र-मूल्यवान विशेषताओं, जैसे कि सड़क, को शहर जैसे बड़े स्तर की अवधारणाओं के लिए सामान्यीकृत किया जा सकता है।
चूंकि सामान्यीकरण प्रारंभिक प्रशिक्षण डेटा को छोटा करता है, इसलिए सीखने के दौरान कम इनपुट/आउटपुट संचालन शामिल किए जा सकते हैं। डेटा को भी सामान्यीकृत किया जा सकता है, खासकर जब तंत्रिका नेटवर्क या दूरी माप वाली तकनीकों का उपयोग सीखने के चरण में किया जाता है।
सामान्यीकरण में किसी दिए गए विशेषता के लिए सभी मानों को स्केल करना शामिल है ताकि वे -1.0 से 1.0, या 0 से 1.0 सहित एक छोटे से निर्दिष्ट क्षेत्र के भीतर घट सकें। उदाहरण के लिए, दूरी माप लागू करने वाले इन दृष्टिकोणों में, यह मूल रूप से उच्च श्रेणियों (जैसे, आय) के साथ विशेषताओं से बच सकता है