बायेसियन क्लासिफायर सांख्यिकीय क्लासिफायरियर हैं। वे वर्ग सदस्यता की संभावनाओं का अनुमान लगा सकते हैं, जैसे कि किसी दिए गए नमूने के किसी विशेष वर्ग से संबंधित होने की प्रायिकता। बड़े डेटाबेस पर लागू होने पर बायेसियन क्लासिफायर ने भी उच्च सटीकता और गति का प्रदर्शन किया है।
एक बार वर्गों को परिभाषित करने के बाद, सिस्टम को उन नियमों का अनुमान लगाना चाहिए जो वर्गीकरण को नियंत्रित करते हैं, इसलिए सिस्टम को प्रत्येक वर्ग का विवरण खोजने में सक्षम होना चाहिए। विवरण केवल प्रशिक्षण सेट की भविष्यवाणी विशेषताओं को संदर्भित करना चाहिए ताकि केवल सकारात्मक उदाहरण विवरण को संतुष्ट कर सकें, न कि नकारात्मक उदाहरण। एक नियम को सही कहा जाता है यदि उसके विवरण में सभी सकारात्मक उदाहरण शामिल हैं और किसी वर्ग के नकारात्मक उदाहरणों में से कोई भी शामिल नहीं है।
यह मान रहा है कि सभी विशेषताओं का योगदान स्वतंत्र है और प्रत्येक वर्गीकरण समस्या में समान रूप से योगदान देता है, एक सरल वर्गीकरण योजना जिसे नैवे बेयस वर्गीकरण कहा जाता है। प्रत्येक "स्वतंत्र" विशेषता के योगदान का विश्लेषण करके, एक सशर्त संभावना निर्धारित की जाती है। भविष्यवाणी पर विभिन्न विशेषताओं के प्रभाव को मिलाकर एक वर्गीकरण किया जाता है।
Naïve Bayes वर्गीकरण को Naïve कहा जाता है क्योंकि यह वर्ग सशर्त स्वतंत्रता मानता है। किसी दिए गए वर्ग पर एक विशेषता मान का प्रभाव अन्य विशेषताओं के मूल्यों से स्वतंत्र होता है। यह धारणा कम्प्यूटेशनल लागत को कम करने के लिए बनाई गई है और इसलिए इसे भोला माना जाता है।
बेयस प्रमेय - मान लीजिए कि X एक डेटा टपल है। बायेसियन शब्दों में, X को "सबूत" माना जाता है। एच को कुछ परिकल्पना होने दें, जैसे कि डेटा टपल एक्स एक निर्दिष्ट वर्ग सी से संबंधित है। संभावना पी (एच | एक्स) डेटा को वर्गीकृत करने के लिए निर्धारित की जाती है। यह प्रायिकता P (H|X) वह प्रायिकता है जिसके "सबूत" या प्रेक्षित डेटा टपल X दिए जाने पर परिकल्पना H धारण करती है।
पी (एच | एक्स) एक्स पर एच की स्थिति के बाद की संभावना है। उदाहरण के लिए, मान लीजिए कि डेटा टुपल्स की दुनिया क्रमशः विशेषता आयु और आय द्वारा वर्णित ग्राहकों तक ही सीमित है, और एक्स 30 साल के ग्राहक हैं, जिनके पास रु। 20,000 आय। मान लीजिए कि H यह परिकल्पना है कि ग्राहक कंप्यूटर खरीदेगा। तब P (H|X) इस संभावना को दर्शाता है कि ग्राहक X एक कंप्यूटर खरीदेगा, यह देखते हुए कि ग्राहक की आयु और आय ज्ञात है।
पी (एच) एच की पूर्व संभावना है। उदाहरण के लिए, यह संभावना है कि कोई भी ग्राहक एक कंप्यूटर खरीदेगा, चाहे उसकी उम्र, आय या कोई अन्य जानकारी कुछ भी हो। पश्च प्रायिकता P (H|X) पूर्व प्रायिकता P (H) की तुलना में अधिक जानकारी पर आधारित है, जो X से स्वतंत्र है।
इसी तरह, P (X|H) H पर स्थित X की पश्च प्रायिकता है। यह संभावना है कि एक ग्राहक X 30 वर्ष का है और रुपये कमाता है। 20,000.
दिए गए डेटा से P (H), P (X|H), और P (X) का अनुमान लगाया जा सकता है। बेयस प्रमेय पी (एच), पी (एक्स | एच), और पी (एक्स) से पश्च प्रायिकता पी (एच | एक्स) की गणना करने का एक तरीका प्रदान करता है। यह
. द्वारा दिया गया है$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$