गोपनीयता-संरक्षण डेटा माइनिंग डेटा माइनिंग में गोपनीयता सुरक्षा के जवाब में डेटा माइनिंग अनुसंधान का एक अनुप्रयोग है। इसे प्राइवेसी-एन्हांस्ड या प्राइवेसी-सेंसिटिव डेटा माइनिंग कहा जाता है। यह बुनियादी संवेदनशील डेटा मूल्यों का खुलासा किए बिना सही डेटा माइनिंग परिणाम प्राप्त करने से संबंधित है।
अधिकांश गोपनीयता-संरक्षण डेटा माइनिंग दृष्टिकोण गोपनीयता संरक्षण को लागू करने के लिए डेटा पर विभिन्न प्रकार के परिवर्तन का उपयोग करते हैं। आम तौर पर, ऐसी विधियां गोपनीयता बनाए रखने के लिए विवरण की ग्रैन्युलैरिटी को कम करती हैं।
उदाहरण के लिए, वे एकल उपयोगकर्ताओं से उपयोगकर्ता समूहों में डेटा को सामान्य कर सकते हैं। ग्रैन्युलैरिटी में यह कमी डेटा की हानि और संभवतः डेटा माइनिंग परिणामों की उपयोगिता का कारण बनती है। यह डेटा हानि और गोपनीयता के बीच समझौता है।
गोपनीयता-संरक्षण डेटा खनन विधियों को निम्नलिखित तत्वों में परिभाषित किया जा सकता है जो इस प्रकार हैं -
यादृच्छिक तरीके - ये विधियां डेटा के कई मानों को छिपाने के लिए डेटा में शोर सम्मिलित करती हैं। जोड़ा गया शोर बड़ा होना चाहिए ताकि व्यक्तिगत डेटा मान, विशेष रूप से संवेदनशील वाले, प्राप्त नहीं किए जा सकें।
इसे कुशलता से जोड़ा जाना चाहिए ताकि डेटा माइनिंग के अंतिम परिणाम आम तौर पर संरक्षित रहें। गड़बड़ी वाले डेटा से कुल वितरण को बदलने के लिए कई तरीके तैयार किए गए हैं।
के-गुमनाम और एल-विविधता विधियां - ये दोनों विधियां एकल डेटा को बदल देती हैं ताकि उन्हें विशेष रूप से पहचाना न जा सके। के-गुमनाम पद्धति में, डेटा प्रतिनिधित्व की ग्रैन्युलैरिटी को पर्याप्त रूप से कम कर दिया जाता है ताकि कुछ दिए गए डेटा डेटा में न्यूनतम k अन्य रिकॉर्ड पर मैप करें। इसे सामान्यीकरण और दमन जैसी तकनीकों की आवश्यकता है।
k-anonymity विधि कमजोर है, यदि किसी समूह के अंदर संवेदनशील मूल्यों की एकरूपता है, तो बदले गए डेटा के लिए उन मानों का अनुमान लगाया जा सकता है। एल-डायवर्सिटी मॉडल को गुमनामी प्रदान करने के लिए संवेदनशील मूल्यों की इंट्राग्रुप विविधता को लागू करके इस कमजोरी को प्रबंधित करने के लिए डिज़ाइन किया गया था। इसका उद्देश्य विरोधियों के लिए एकल रिकॉर्ड को सटीक रूप से पहचानने के लिए डेटा विशेषताओं के संयोजन का उपयोग करना पर्याप्त रूप से कठिन बनाना है।
वितरित गोपनीयता संरक्षण - बड़े डेटा सेट को या तो क्षैतिज रूप से विभाजित और वितरित किया जा सकता है (यानी, डेटा सेट को डेटा के कई सबसेट में विभाजित किया जाता है और कई साइटों पर वितरित किया जाता है) या लंबवत (यानी, डेटा सेट को उनकी विशेषताओं द्वारा विभाजित और वितरित किया जाता है), या एक में दोनों का सेट।
जबकि एकल साइटों को अपने संपूर्ण डेटा सेट साझा करने की आवश्यकता नहीं हो सकती है, वे कई प्रोटोकॉल के उपयोग के साथ सीमित डेटा साझाकरण के लिए सहमति दे सकते हैं। इस तरह के तरीकों का पूरा प्रभाव कुछ डेटा पर समग्र परिणामों को बदलते हुए, प्रत्येक एक वस्तु के लिए गोपनीयता का समर्थन करना है।
डेटा माइनिंग परिणामों की प्रभावशीलता को कम करना - कई मामलों में, भले ही डेटा उपलब्ध न हो, डेटा माइनिंग के आउटपुट (जैसे, एसोसिएशन नियम और वर्गीकरण मॉडल) के परिणामस्वरूप गोपनीयता का उल्लंघन हो सकता है। इसका समाधान डेटा या खनन परिणामों को बदलकर डेटा माइनिंग की दक्षता को कम करना हो सकता है, जिसमें कुछ एसोसिएशन नियमों को छिपाना या कुछ वर्गीकरण मॉडल को कुछ हद तक विकृत करना शामिल है।