डेटा माइनिंग को बड़ी मात्रा में डेटाबेस में चयनित डेटा पर लागू किया जाता है। जब डेटा विश्लेषण और खनन बड़ी मात्रा में डेटा पर किया जाता है तो इसे संसाधित करने में बहुत लंबा समय लगता है, जो इसे अव्यवहारिक और अक्षम बनाता है। यह डेटा विश्लेषण के लिए प्रसंस्करण समय को कम कर सकता है, डेटा कमी तकनीकों का उपयोग डेटासेट के कम प्रतिनिधित्व को प्राप्त करने के लिए किया जाता है जो मूल डेटा की अखंडता को बनाए रखते हुए मात्रा में बहुत छोटा होता है। डेटा को कम करके, डेटा माइनिंग प्रक्रिया की दक्षता में सुधार होता है जो समान विश्लेषणात्मक परिणाम उत्पन्न करता है।
डेटा में कमी का उद्देश्य इसे और अधिक कॉम्पैक्ट रूप से परिभाषित करना है। जब डेटा का आकार छोटा होता है, तो परिष्कृत और कम्प्यूटेशनल रूप से उच्च-मूल्य वाले एल्गोरिदम को लागू करना आसान होता है। डेटा की कमी पंक्तियों की संख्या (रिकॉर्ड) या स्तंभों की संख्या (आयाम) के संदर्भ में हो सकती है।
डेटा में कमी के लिए विभिन्न रणनीतियाँ हैं जो इस प्रकार हैं -
डेटा क्यूब एकत्रीकरण - इस पद्धति में, जहां डेटा क्यूब के निर्माण में डेटा के लिए एकत्रीकरण संचालन का उपयोग किया जाता है। इन आंकड़ों में वर्ष 2002 से 2004 के लिए प्रति तिमाही सभी इलेक्ट्रॉनिक्स बिक्री शामिल है। यह कुल प्रति तिमाही के बजाय वार्षिक बिक्री (कुल प्रति वर्ष) में रुचि रखता है। इस प्रकार डेटा को एकत्र किया जा सकता है ताकि परिणामी डेटा प्रति तिमाही के बजाय प्रति वर्ष कुल बिक्री को सारांशित करे। विश्लेषण कार्य के लिए आवश्यक डेटा की हानि के बिना परिणामी डेटा सेट मात्रा में छोटा होता है।
विशेषता उपसमुच्चय चयन - इस पद्धति में, जहां अप्रासंगिक, कमजोर रूप से प्रासंगिक, या निरर्थक विशेषताओं या आयामों को खोजा और हटाया जा सकता है। विश्लेषण के लिए डेटा सेट में सैकड़ों विशेषताएँ शामिल हो सकती हैं, जिनमें से कुछ खनन कार्य के लिए अप्रासंगिक या निरर्थक हो सकती हैं। उदाहरण के लिए, यदि कार्य ग्राहकों को यह व्यवस्थित करना है कि बिक्री के बारे में अधिसूचित होने पर वे सभी इलेक्ट्रॉनिक्स पर एक लोकप्रिय नई सीडी खरीद सकते हैं या नहीं, तो ग्राहक के टेलीफोन नंबर जैसी विशेषताओं के अप्रासंगिक होने की संभावना है, जैसे कि विशेषताओं के विपरीत उम्र या संगीत_स्वाद।
आयाम में कमी - डेटा सेट के आकार को कम करने के लिए एन्कोडिंग तंत्र का उपयोग किया जाता है। आयामीता में कमी में, मूल डेटा का कम या "संपीड़ित" प्रतिनिधित्व प्राप्त करने के लिए डेटा एन्कोडिंग या परिवर्तन लागू होते हैं। यदि मूल डेटा को बिना किसी जानकारी की हानि के संपीड़ित डेटा से फिर से बनाया जा सकता है, तो डेटा में कमी को दोषरहित कहा जाता है।
संख्या में कमी - डेटा को पैरामीट्रिक मॉडल (जो वास्तविक डेटा के बजाय केवल मॉडल पैरामीटर को बचाने के लिए आवश्यक हैं) या क्लस्टरिंग, सैंपलिंग और हिस्टोग्राम के उपयोग सहित गैर-पैरामीट्रिक विधियों सहित वैकल्पिक, छोटे डेटा प्रतिनिधित्व द्वारा पुनर्स्थापित या भविष्यवाणी की जाती है।
विवेकीकरण और अवधारणा पदानुक्रम पीढ़ी - इस पद्धति में, जहां विशेषताओं के लिए कच्चे डेटा मानों को श्रेणियों या उच्च वैचारिक स्तरों से बदल दिया जाता है। डेटा विवेकीकरण संख्यात्मकता में कमी का एक रूप है जो अवधारणा पदानुक्रमों के स्वचालित उत्पादन के लिए बहुत फायदेमंद है। विवेकीकरण और अवधारणा पदानुक्रम पीढ़ी डेटा खनन के लिए गतिशील उपकरण हैं, जिसमें वे अमूर्तता के विभिन्न स्तरों पर डेटा के खनन को सक्षम करते हैं।