एमबीआर के तत्व क्या हैं?

<घंटा/>

एमबीआर के विभिन्न तत्व हैं जो इस प्रकार हैं -

प्रशिक्षण सेट चुनना - प्रशिक्षण सेट में 49,652 समाचार शामिल थे, जो इस लक्ष्य के लिए समाचार पुनर्प्राप्ति सेवा द्वारा समर्थित थे। ये कहानियाँ लगभग तीन महीने के समाचारों और लगभग 100 एकाधिक स्रोतों से प्रकट होती हैं।

प्रत्येक कहानी में औसतन 2,700 शब्द शामिल थे और इसके लिए आठ कोड बनाए गए थे। प्रशिक्षण सेट विशेष रूप से नहीं बनाया गया था, इसलिए प्रशिक्षण सेट में कोड की आवृत्ति सामान्य रूप से समाचार कहानियों में कोड की पूर्ण आवृत्ति की नकल करते हुए एक बड़ी बात भिन्न होती है।

दूरी फ़ंक्शन चुनना - अगला चरण दूरी फ़ंक्शन का चयन करना है। इस पद्धति में, एक दूरी फ़ंक्शन मौजूद था, एक अवधारणा पर निर्भर करता है जिसे प्रासंगिकता प्रतिक्रिया के रूप में जाना जाता है जो दो फाइलों की समानता की गणना उन शब्दों के आधार पर करता है जिनमें वे शामिल हैं। प्रासंगिकता प्रतिक्रिया, जिसे साइडबार में अधिक पूर्ण रूप से परिभाषित किया गया है, खोजों को परिष्कृत करने की एक विधि के रूप में दिए गए दस्तावेज़ के समान फ़ाइलों को वापस करने के लिए बनाई गई थी। एमबीआर के लिए उपयोग की जाने वाली पड़ोसी फाइलें वही फाइलें हैं।

संयोजन फ़ंक्शन चुनना - अगला निर्णय संयोजन कार्य है। यह समाचारों के लिए वर्गीकरण कोड बना सकता है जो अधिकांश वर्गीकरण मुद्दों से अलग है। कुछ वर्गीकरण मुद्दे एकल सर्वोत्तम समाधान के लिए देख रहे हैं। लेकिन समाचारों के कई कोड हो सकते हैं, यहां तक कि एक ही तत्व से भी। इस मुद्दे के लिए एमबीआर को अनुकूलित करने की क्षमता इसके लचीलेपन को उजागर करती है।

संयोजन फ़ंक्शन को एक भारित योग दृष्टिकोण की आवश्यकता होती है। क्योंकि अधिकतम दूरी 1 थी, वजन आसानी से एक माइनस दूरी था, इसलिए छोटी दूरी पर पड़ोसियों के लिए वजन बड़ा हो सकता है और बड़ी दूरी पर पड़ोसियों के लिए छोटा हो सकता है।

पड़ोसियों की संख्या चुनना - जांच में 1 और 11 सहित निकटतम पड़ोसियों की संख्या में विविधता है। अधिक पड़ोसियों का उपयोग करने से सर्वोत्तम परिणाम दिखाई देते हैं। लेकिन यह केस स्टडी एमबीआर के कई अनुप्रयोगों से अलग है क्योंकि यह प्रत्येक कहानी के लिए कई श्रेणियां बना रहा है। सामान्य समस्या केवल एक व्यक्तिगत श्रेणी या कोड बनाना है और कम पड़ोसी सर्वोत्तम परिणामों के लिए पर्याप्त होंगे।

यह कोडिंग पर एमबीआर की प्रभावशीलता की गणना कर सकता है, समाचार सेवा में संपादकों का एक बोर्ड था जो कुछ कोडों की समीक्षा करता था, चाहे संपादकों द्वारा या एमबीआर द्वारा, 200 कहानियों के लिए। कुछ ऐसे कोड हैं जिन पर अधिकांश पैनल द्वारा सहमति व्यक्त की गई थी जिन्हें "सही" माना गया था।

शुरू में मानव संपादकों द्वारा बनाए गए कोड के लिए "सही" कोड की तुलना दिलचस्प थी। शुरू में कहानियों (मनुष्यों द्वारा) के लिए बनाए गए 88% कोड सही थे लेकिन मानव संपादकों ने गलतियाँ कीं।