विशेषता सामान्यीकरण निम्नलिखित नियम पर निर्भर करता है:यदि मूल कार्य संबंध में एक विशेषता के लिए अलग-अलग मूल्यों का एक विशाल संग्रह है, और विशेषता पर सामान्यीकरण ऑपरेटरों का एक समूह मौजूद है, इस प्रकार एक सामान्यीकरण ऑपरेटर को चुना जाना चाहिए और विशेषता के लिए उपयोग किया जाना चाहिए ।
यह नियम निम्नलिखित तर्क पर निर्भर करता है। कार्य संबंध में एक टपल, या नियम के अंदर एक विशेषता मान को सामान्यीकृत करने के लिए एक सामान्यीकरण सेवाओं का उपयोग, प्रारंभिक डेटा टुपल्स के अधिक नियम को कवर करेगा, इसलिए उस अवधारणा को सामान्य बनाना जो इसे परिभाषित करता है। यह सामान्यीकरण नियम से मेल खाता है जिसे उदाहरणों से ज्ञान में सामान्यीकरण पेड़ों पर चढ़ने या अवधारणा वृक्ष उदगम के रूप में परिभाषित किया गया है।
यह निहित विशेषताओं या अनुप्रयोग पर आधारित है, एक उपयोगकर्ता कुछ विशेषताओं को मामूली कम अमूर्त पद्धति पर रहने के लिए पसंद कर सकता है जबकि अन्य को उच्च विधि के लिए सामान्यीकृत किया जाता है। किसी विशेषता को कितना ऊंचा सामान्यीकृत किया जाना चाहिए, इसका नियंत्रण आम तौर पर व्यक्तिपरक होता है। इस चरण के नियंत्रण को विशेषता सामान्यीकरण नियंत्रण के रूप में जाना जाता है।
यदि विशेषता को "बहुत अधिक" सामान्यीकृत किया जाता है, तो यह अतिसामान्यीकरण का कारण बन सकता है, और परिणामी नियम बहुत वर्णनात्मक नहीं हो सकते हैं। दूसरे शब्दों में, यदि विशेषता को "पर्याप्त रूप से उच्च स्तर" के लिए सामान्यीकृत नहीं किया जाता है, तो सामान्यीकरण के तहत परिणाम हो सकता है, जहां प्राप्त नियम जानकारीपूर्ण भी नहीं हो सकते हैं। इसलिए, विशेषता-उन्मुख सामान्यीकरण में एक संतुलन हासिल किया जाना चाहिए।
सामान्यीकरण प्रक्रिया को नियंत्रित करने के कई संभावित तरीके इस प्रकार हैं -
विशेषता सामान्यीकरण सीमा नियंत्रण -पहली तकनीक, जिसे विशेषता सामान्यीकरण थ्रेशोल्ड नियंत्रण के रूप में जाना जाता है, या तो कुछ विशेषताओं के लिए एक सामान्यीकरण सीमा निर्धारित करती है, या प्रत्येक विशेषता के लिए एक सीमा निर्धारित करती है। अगर किसी एट्रिब्यूट में कई अलग-अलग मान, एट्रिब्यूट थ्रेशोल्ड से ज़्यादा हैं, तो इसके अलावा एट्रिब्यूट रिमूवल या एट्रिब्यूट जनरलाइज़ेशन लागू किया जाना चाहिए.
डेटा माइनिंग सिस्टम में आमतौर पर 2 से 8 के बीच एक डिफ़ॉल्ट विशेषता थ्रेशोल्ड मान होता है और पेशेवरों और उपयोगकर्ताओं को थ्रेशोल्ड मानों को भी बदलने में सक्षम होना चाहिए। यदि कोई उपयोगकर्ता समझता है कि किसी विशिष्ट विशेषता के लिए सामान्यीकरण बहुत बड़े स्तर तक पहुँच जाता है, तो सीमा में सुधार किया जा सकता है।
सामान्यीकृत संबंध सीमा नियंत्रण - दूसरी तकनीक, जिसे सामान्यीकृत संबंध थ्रेशोल्ड नियंत्रण के रूप में जाना जाता है, ने सामान्यीकृत संबंध के लिए एक सीमा तय की। यदि सामान्यीकृत संबंध में एकाधिक (विशिष्ट) टुपल्स थ्रेशोल्ड से अधिक हैं, तो इसके अलावा सामान्यीकरण को लागू किया जाना चाहिए।
इसलिए, कोई और सामान्यीकरण लागू नहीं किया जाना चाहिए। इस तरह की सीमा को डेटा माइनिंग सिस्टम (आमतौर पर 10 से 30 की सीमा के भीतर) में पूर्व निर्धारित किया जा सकता है, या किसी पेशेवर या उपयोगकर्ता द्वारा निर्धारित किया जा सकता है, और समायोज्य होना चाहिए। उदाहरण के लिए, यदि कोई उपयोगकर्ता समझता है कि सामान्यीकृत संबंध बहुत छोटा है, तो वह थ्रेशोल्ड को बढ़ा सकता है, जिसका अर्थ है ड्रिलिंग डाउन।