बाहरी पता लगाने के विभिन्न तरीके इस प्रकार हैं -
पर्यवेक्षित तरीके - पर्यवेक्षित तरीके मॉडल डेटा सामान्यता और असामान्यता। डोमेन पेशेवर मूल डेटा के नमूने का परीक्षण और लेबल लगाते हैं। बाहरी पहचान को वर्गीकरण मुद्दे के रूप में तैयार किया जा सकता है। सेवा एक ऐसे क्लासिफायरियर को समझना है जो आउटलेर्स की पहचान कर सकता है।
नमूने का उपयोग प्रशिक्षण और परीक्षण के लिए किया जा सकता है। विभिन्न अनुप्रयोगों में, पेशेवर केवल सामान्य वस्तुओं को लेबल कर सकते हैं, और सामान्य वस्तुओं के मॉडल को नहीं जोड़ने वाली कई वस्तुओं को आउटलेयर के रूप में प्रलेखित किया जाता है। आउटलेर्स को मॉडल करने के लिए अलग-अलग तरीके हैं और आउटलेर्स के मॉडल को सामान्य रूप से कनेक्ट न करने वाली वस्तुओं पर विचार करें।
अनपर्यवेक्षित तरीके - विभिन्न अनुप्रयोग विधियों में, "सामान्य" या "बाहरी" के रूप में लेबल किए गए ऑब्जेक्ट लागू नहीं होते हैं। इसलिए, एक अनुपयोगी शिक्षण दृष्टिकोण का उपयोग किया जाना चाहिए। गैर-पर्यवेक्षित बाहरी पता लगाने के तरीके एक अंतर्निहित धारणा बनाते हैं जैसे कि सामान्य वस्तुएं काफी "क्लस्टर" होती हैं।
एक अनुपयोगी बाहरी पहचान पद्धति यह भविष्यवाणी करती है कि सामान्य वस्तुएं आउटलेर्स की तुलना में कहीं अधिक सामान्य रूप से एक पैटर्न का पालन करती हैं। सामान्य वस्तुओं को बड़ी समानता साझा करने वाली एक टीम में गिरावट की आवश्यकता नहीं होती है। इसके बजाय, वे कई समूह बना सकते हैं, जहां प्रत्येक समूह में कई विशेषताएं होती हैं।
यह धारणा कभी-कभी सच नहीं हो सकती। सामान्य वस्तुएं कुछ मजबूत पैटर्न नहीं भेजती हैं। इसके बजाय, वे समान रूप से वितरित किए जाते हैं। सामूहिक आउटलेयर, एक छोटे से क्षेत्र में बड़ी समानता साझा करते हैं।
अनुपयोगी तरीके ऐसे आउटलेर्स की कुशलता से पहचान नहीं कर सकते हैं। कुछ अनुप्रयोगों में, सामान्य वस्तुओं को अलग से वितरित किया जाता है, और कई वस्तुएं मजबूत पैटर्न का पालन नहीं करती हैं। उदाहरण के लिए, कुछ घुसपैठ का पता लगाने और कंप्यूटर वायरस का पता लगाने के मुद्दों में, सामान्य गतिविधियां अलग होती हैं और कुछ उच्च गुणवत्ता वाले समूहों में नहीं आती हैं।
कुछ क्लस्टरिंग विधियों को अनुपयोगी बाहरी पहचान विधियों के रूप में सुविधाजनक बनाने के लिए अनुकूलित किया जा सकता है। मुख्य विचार पहले क्लस्टर की खोज करना है, और इसलिए डेटा ऑब्जेक्ट जो कुछ क्लस्टर से संबंधित नहीं हैं, उन्हें आउटलेयर के रूप में पहचाना जाता है। हालाँकि, ऐसे तरीके दो मुद्दों से बिगड़ते हैं। सबसे पहले, एक डेटा ऑब्जेक्ट जो कुछ क्लस्टर से संबंधित नहीं है, एक बाहरी के बजाय शोर हो सकता है। दूसरा, पहले क्लस्टर खोजना और फिर आउटलेयर की खोज करना महंगा है।
अर्ध-पर्यवेक्षित तरीके - कई अनुप्रयोगों में, हालांकि कुछ लेबल किए गए उदाहरण प्राप्त करना संभव है, ऐसे लेबल किए गए उदाहरणों की संख्या कम है। यह ऐसे मामलों का सामना कर सकता है जहां सामान्य और बाहरी वस्तुओं के केवल एक छोटे समूह को लेबल किया जाता है, लेकिन कुछ डेटा लेबल रहित होते हैं। इस तरह के तरीकों से निपटने के लिए अर्ध-पर्यवेक्षित बाहरी पहचान विधियों का उत्पादन किया गया।
अर्ध-पर्यवेक्षित बाहरी पहचान विधियों का संबंध अर्ध-पर्यवेक्षित शिक्षण दृष्टिकोणों के अनुप्रयोगों के रूप में हो सकता है। उदाहरण के लिए, जब कुछ लेबल वाली सामान्य वस्तुएं पहुंच योग्य होती हैं, तो यह उन्हें सामान्य वस्तुओं के लिए एक मॉडल को प्रशिक्षित करने के लिए, पास में मौजूद बिना लेबल वाली वस्तुओं के साथ उपयोग कर सकती है। सामान्य वस्तुओं के मॉडल का उपयोग आउटलेयर की पहचान करने के लिए किया जाता है—वे वस्तुएं जो सामान्य वस्तुओं के मॉडल के लिए उपयुक्त नहीं होती हैं उन्हें आउटलेयर के रूप में परिभाषित किया जाता है।