अनपर्यवेक्षित विवेकीकरण के तरीके क्या हैं?

<घंटा/>

एक विशेषता असतत है यदि उसके पास संभावित मूल्यों की एक सहयोगी रूप से छोटी (सीमित) संख्या है, जबकि एक सतत विशेषता को बड़ी संख्या में संभावित मान (अनंत) माना जाता है।

दूसरे शब्दों में, एक असतत डेटा विशेषता को एक फ़ंक्शन के रूप में देखा जा सकता है जिसकी सीमा एक परिमित समूह है, जबकि एक निरंतर डेटा विशेषता एक ऐसा फ़ंक्शन है जिसकी सीमा एक अनंत पूरी तरह से आदेशित समूह है, आमतौर पर एक अंतराल।

विवेकीकरण का उद्देश्य उन संभावित मूल्यों की संख्या को कम करना है जो एक सतत विशेषता उन्हें कई अंतरालों में विभाजित करके लेती है। विवेकीकरण की समस्या के दो तरीके हैं। एक यह है कि प्रशिक्षण वर्ग तथाकथित अनुपयोगी विवेकीकरण में उदाहरणों के वर्गों के कुछ ज्ञान के अभाव में प्रत्येक विशेषता को मापना है।

दूसरा, पर्यवेक्षित विवेकीकरण को ध्यान में रखते हुए कक्षाओं को बनाना है। क्लस्टरिंग समस्याओं से निपटने के लिए पहली ही एकमात्र संभावना है जहां कक्षाएं अज्ञात या गैर-मौजूद हैं।

एक संख्यात्मक विशेषता को अलग करने का स्पष्ट तरीका इसकी सीमा को समान अंतराल की पूर्व निर्धारित संख्या में विभाजित करना है:एक निश्चित, डेटा-स्वतंत्र मानदंड। यह आम तौर पर उस समय पूरा किया जाता है जब जानकारी एकत्र की जाती है।

अनुपयोगी विवेकीकरण पद्धति में, यह उन भेदों को खराब करने का खतरा चलाता है जो बहुत कठोर ग्रेडेशन का उपयोग करके सीखने की प्रक्रिया में फायदेमंद साबित हो सकते हैं या सीमा के प्रतिकूल विकल्प से, कई वर्गों के कई उदाहरणों को अनावश्यक रूप से एक साथ जोड़ सकते हैं। ।

समान-चौड़ाई वाली बिनिंग अक्सर उदाहरणों को बहुत ही रैगिंग तरीके से वितरित करती है - कुछ डिब्बे में कई उदाहरण शामिल होते हैं जबकि अन्य में कोई नहीं होता है। यह अच्छी निर्णय संरचना बनाने में मदद करने के लिए विशेषता की क्षमता को गंभीर रूप से खराब कर सकता है। अंतराल को कई आकारों में सक्षम करने के लिए बेहतर है, उन्हें चुनना ताकि समान संख्या में प्रशिक्षण उदाहरण प्रत्येक में आ सकें।

इस विधि को समान-आवृत्ति बिनिंग के रूप में जाना जाता है, उस अक्ष के साथ उदाहरणों के वितरण के आधार पर विशेषता की सीमा को पूर्व निर्धारित कई डिब्बे में तोड़ देता है जिसे कभी-कभी हिस्टोग्राम समीकरण के रूप में जाना जाता है क्योंकि यदि यह परिणामी डिब्बे के पाठ का हिस्टोग्राम ले सकता है तो यह अक्सर होगा समतल। यदि यह एकाधिक बिन्स को संसाधन के रूप में देख सकता है, तो यह विधि इसका सर्वोत्तम उपयोग विकसित करती है।

समान-आवृत्ति बिनिंग उदाहरणों की कक्षाओं के लिए स्पष्ट है, और यह खराब सीमाएँ उत्पन्न कर सकता है। उदाहरण के लिए, यदि एक बिन में कुछ उदाहरणों में एक वर्ग होता है, और निम्नलिखित बड़े बिन में कुछ उदाहरणों में पहले को छोड़कर दूसरा होता है, जिसमें प्रारंभिक वर्ग होता है, निश्चित रूप से यह वर्ग विभाजनों का सम्मान करने के लिए समझ में आता है और इसमें पहला उदाहरण होता है पहले बिन, एकरूपता के लाभ के लिए समान-आवृत्ति संपत्ति का त्याग।