जैविक डेटा विश्लेषण के लिए डेटा माइनिंग के निम्नलिखित पहलू हैं जो इस प्रकार हैं -
विषम, वितरित जीनोमिक और प्रोटिओमिक डेटाबेस का अर्थपूर्ण एकीकरण - जीनोमिक और प्रोटिओमिक डेटा सेट कई प्रयोगशालाओं में और विभिन्न तरीकों से तैयार किए जाते हैं। वे वितरित, विषम, और एक विस्तृत विविधता के हैं। ऐसे डेटा का सिमेंटिक एकीकरण जैविक रिकॉर्ड के क्रॉस-साइट विश्लेषण के लिए महत्वपूर्ण है।
इसके अलावा, शोध साहित्य और उनसे संबंधित जैविक संस्थाओं के बीच सही संबंध खोजना आवश्यक है। इस तरह के एकीकरण और लिंकेज विश्लेषण जीनोम और जैविक रिकॉर्ड के व्यवस्थित और समन्वित विश्लेषण का समर्थन कर सकते हैं। इसने एकीकृत डेटा वेयरहाउस के विकास को बढ़ावा दिया है और बुनियादी और परिवर्तित जैविक डेटा को सहेजने और संभालने के लिए फ़ेडरेटेड डेटाबेस वितरित किए हैं।
डेटा सफाई, डेटा एकीकरण, संदर्भ समाधान, वर्गीकरण, और क्लस्टरिंग विधियां जैविक डेटा विश्लेषण के लिए जैविक रिकॉर्ड के एकीकरण और डेटा वेयरहाउस के विकास का समर्थन करेंगी।
संरेखण, अनुक्रमण, समानता खोज, और बहु न्यूक्लियोटाइड/प्रोटीन अनुक्रमों का तुलनात्मक विश्लेषण - पिछले दो दशकों में विभिन्न जैविक अनुक्रम संरेखण विधियां विकसित की गई हैं। ब्लास्ट और फास्टा, विशेष रूप से, जीनोमिक और प्रोटिओमिक डेटा के व्यवस्थित विश्लेषण के लिए उपकरण हैं। जैविक अनुक्रम विश्लेषण विधियां डेटा खनन अनुसंधान में प्रस्तावित कई अनुक्रमिक पैटर्न विश्लेषण एल्गोरिदम से भिन्न होती हैं।
इन्सर्शन, डिलीट और म्यूटेशन से निपटने के लिए उन्हें क्वेरी सीक्वेंस और सर्च किए जाने वाले सीक्वेंस डेटा के बीच गैप और मिसमैच की अनुमति देनी चाहिए। इसके अलावा, प्रोटीन अनुक्रमों के लिए, दो अमीनो एसिड को भी "मिलान" के रूप में माना जाना चाहिए, यदि एक को दूसरे से प्रतिस्थापन द्वारा बदला जा सकता है जो प्रकृति में प्रकट होने की संभावना है।
संरचनात्मक पैटर्न की खोज और आनुवंशिक नेटवर्क और प्रोटीन पथों का विश्लेषण - जीव विज्ञान में, प्रोटीन अनुक्रमों को त्रि-आयामी संरचनाओं में जोड़ दिया जाता है, और ऐसी संरचनाएं एक दूसरे के साथ उनकी सापेक्ष स्थिति और उनके बीच की दूरी के आधार पर परस्पर क्रिया करती हैं। इस तरह की जटिल बातचीत परिष्कृत आनुवंशिक नेटवर्क और प्रोटीन मार्गों का आधार बनती है।
इस तरह के विशाल लेकिन जटिल जैविक नेटवर्क के बीच संरचनात्मक पैटर्न और नियमितताओं की खोज करना महत्वपूर्ण है। अनुमानित और लगातार संरचनात्मक पैटर्न की खोज करने और ऐसे परस्पर जुड़े जैविक नेटवर्क के बीच नियमितता और अनियमितताओं का अध्ययन करने के लिए शक्तिशाली और स्केलेबल डेटामाइनिंग विधियों को विकसित करना महत्वपूर्ण है।
एसोसिएशन और पथ विश्लेषण - यह सह-होने वाले जीन अनुक्रमों की पहचान कर सकता है और जीन को रोग के विकास के विभिन्न चरणों से जोड़ सकता है। एसोसिएशन विश्लेषण विधियों का उपयोग उन जीनों के प्रकार को विनियमित करने के लिए किया जा सकता है जिनका लक्ष्य नमूनों में पालन करना संभव है। इस तरह के विश्लेषण से जीनों की टीमों की खोज और उनके बीच बातचीत और संबंधों के अध्ययन में मदद मिलेगी।