डाटा माइनिंग

मुक्त ज्ञानकोश विकिपीडिया से
यहाँ जाएँ: भ्रमण, खोज

डाटा माइनिंग डाटा से पैटर्न निकालने की प्रक्रिया है। चूंकि अधिक डाटा एकत्रित हो रहे हैं, जिसमें हर तीन वर्ष में डाटा की राशि दोगुना हो रही है,[1] डाटा माइनिंग इन डाटा को जानकारी में बदलने के लिए तेजी से महत्वपूर्ण उपकरण बनता जा रहा है। सामान्य रूप से इसे विस्तृत व्यवहारों की रूपरेखा बनाने में प्रयोग किया जाता है, जैसे विपणन, निगरानी, धोखाधड़ी पहचान और वैज्ञानिक खोज.

एक ओर जहां डाटा माइनिंग का प्रयोग डाटा नमूनों में पैटर्न को उजागर करने के लिए किया जा सकता है, यह जानना भी महत्वपूर्ण है कि डाटा के गैर-प्रतिनिधि नमूने का प्रयोग ऐसे परिणाम उत्पन्न कर सकता जो डोमेन के सूचक नहीं हैं। इसी तरह, डाटा माइनिंग उन पैटर्न का पता नहीं लगाएगा जो डोमेन में मौजूद हो सकते हैं, अगर वे पैटर्न उस नमूने में मौजूद नहीं हैं जिसकी "माइनिंग" हो रही है। परिणामों को लेकर अपर्याप्त जानकार "उपभोक्ताओं" में एक प्रवृत्ति है जो "डाटा माइनिंग" के लिए "जादुई क्षमता" देखते हैं और इस तकनीक को क्रिस्टल बॉल के समान बिलकुल साफ़ देखने के माध्यम के रूप में लेते हैं। किसी भी अन्य उपकरण की तरह, यह उचित कच्ची सामग्री के सहयोजन में ही कार्य करता है: इस मामले में सूचक और प्रतिनिधि डाटा जिसे उपयोगकर्ता द्वारा पहले जमा करना होगा. इसके अलावा, डाटा के एक विशेष सेट में एक खास पैटर्न की खोज जरूरी नहीं कि पैटर्न की उस पूरी आबादी का प्रतिनिधित्व करे जिससे डाटा लिया गया है। इसलिए, इस प्रक्रिया का एक महत्वपूर्ण हिस्सा है डाटा के अन्य नमूनों पर पैटर्न का सत्यापन और प्रमाणीकरणहै

डाटा माइनिंग शब्द का एक संबंधित लेकिन नकारात्मक अर्थ में भी प्रयोग किया गया है, जहां यह बड़ी संख्या के डाटा में स्पष्ट लेकिन जरूरी नहीं प्रतिनिधि पैटर्न की सुविचारित खोज, को इंगित करता है। दूसरे भाव से भ्रम की स्थिति से बचने के लिए, डाटा ड्रेजिंग और डाटा स्नूपिंग पद का अक्सर इस्तेमाल किया जाता है। ध्यान दें, कि ड्रेजिंग (निकर्षण) और स्नूपिंग को (और कभी-कभी) जब परिकल्पना को विकसित और स्पष्ट किया जा रहा हो तो एक अन्वेषण के उपकरण के रूप में इस्तेमाल किया जा सकता है।

पृष्ठभूमि[संपादित करें]

मनुष्य सदियों से "हाथों से" डाटा से पैटर्न निकालता रहा है, लेकिन आधुनिक समय में डाटा की बढ़ती मात्रा ने अधिक स्वचालित तरीकों को जरुरी बना दिया है। आंकड़ों में पैटर्न की पहचान के प्रारंभिक तरीकों में शामिल है बाएस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s). कंप्यूटर प्रौद्योगिकी का प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने डाटा संग्रहण और भंडारण को बढ़ा दिया है। चूंकि डाटा सेट, आकार और जटिलता में बड़े हो गए हैं, प्रत्यक्ष वास्तविक रूप से आंकड़ों के विश्लेषण को तेजी से अप्रत्यक्ष, स्वचालित डाटा संसाधन के जरिये संवर्धित किया गया है। कंप्यूटर विज्ञान में अन्य खोजों द्वारा इसे और बढ़ावा मिला है, जैसे न्यूरल नेटवर्क, क्लस्टरिंग, जेनेटिक एल्गोरिदम (1950s), डिसीज़न ट्री (1960s) और सपोर्ट वेक्टर मशीन (1980s). डाटा माइनिंग, छिपे पैटर्न को उद्घाटित करने के इरादे से डाटा पर इन तरीकों को लागू करने की प्रक्रिया है।[2] कई वर्षों से इसका इस्तेमाल उद्योग, वैज्ञानिकों और सरकारों द्वारा आंकड़ों की मात्रा को छानने के लिए किया जाता रहा है जैसे विमान यात्री यात्रा रिकॉर्ड, जनगणना आंकड़े और बाज़ार अनुसंधान रिपोर्ट को उत्पन्न करने के लिए सुपरमार्केट स्कैनर डाटा. (तथापि, ध्यान दें, कि रिपोर्टिंग को हमेशा डाटा माइनिंग नहीं माना जाता है).

व्यवहार के निष्कर्षों के संग्रह के विश्लेषण में सहायता, डाटा माइनिंग के उपयोग का एक मुख्य कारण है। इस तरह के डाटा, अज्ञात अंतर्संबंध के कारण एकरेखस्तता के प्रति संवेदनशील होते हैं। डाटा माइनिंग का एक अपरिहार्य तथ्य यह है कि विश्लेषित किये जा रहे (उप) सेट के आंकड़े पूरे डोमेन के प्रतिनिधि नहीं भी हो सकते हैं और इसलिए हो सकता है कि इसमें कुछ महत्वपूर्ण संबंधों और व्यवहारों के उदाहरण शामिल ना हों जो डोमेन के अन्य भागों में मौजूद हैं। इस तरह की समस्या को सुलझाने के लिए, विश्लेषण को प्रयोग-आधारित और अन्य तरीकों के प्रयोग से, जैसे मानव जनित डाटा के लिए चॉयस मॉडलिंग सुलझाते हैं। इन स्थितियों में, अंतर्निहित अंतरसम्बन्ध को या तो नियंत्रित कर सकते हैं, या पूरी तरह हटा देते हैं, प्रयोगात्मक डिजाइन के निर्माण के दौरान.

डाटा माइनिंग के लिए मानक परिभाषित करने के लिए कुछ प्रयास हुए हैं, उदाहरण के लिए 1999 यूरोपीय क्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंग (CRISP-DM 1.0) और 2004 जावा डाटा माइनिंग मानक (JDM 1.0). ये विकसित हो रहे मानक हैं; इन मानकों के बाद के संस्करण अभी विकास की प्रक्रिया के अधीन हैं। मानकीकरण के इन प्रयासों से मुक्त, खुले-स्रोत के स्वतंत्र रूप से उपलब्ध सॉफ्टवेयर सिस्टम जैसे RapidMiner, Weka, KNIME और R Project, डाटा माइनिंग प्रक्रियाओं को परिभाषित करने के लिए एक अनौपचारिक मानक बन गए हैं। इन प्रणालियों में अधिकांश, PMML (प्रीडिक्टिव मॉडल मार्कअप लेंग्वेज) में मॉडल आयात और निर्यात करने में सक्षम हैं जो डाटा माइनिंग मॉडल को प्रस्तुत करने के लिए एक मानक तरीका प्रदान करता है ताकि इन्हें अलग-अलग सांख्यिकीय अनुप्रयोगों के बीच साझा किया जा सके. PMML, डाटा माइनिंग ग्रुप (DMG)[3], कई डाटा माइनिंग कंपनियों का एक स्वतंत्र समूह, द्वारा विकसित एक XMLआधारित भाषा है। PMML संस्करण 4.0, 2009 जून में जारी हुआ।[3][4][5]

अनुसंधान और विकास[संपादित करें]

मानक और इंट्रोपरेबिलिटी की उद्योग प्रेरित मांग के अलावा, व्यावसायिक और शैक्षणिक गतिविधियों ने भी विधियों और मॉडल के विकास और परिशुद्धता के लिए काफी योगदान दिया है; इंटरनेशनल जर्नल ऑफ़ इन्फोर्मेशन टेक्नोलाजी एंड डिसीज़न मेकिंग के 2008 के अंक में प्रकाशित लेख, एक साहित्य सर्वेक्षण के परिणामों को संक्षिप्त करता है जो इस विकास की पहचान और विश्लेषण करता है।[6]

इस क्षेत्र में प्रमुख व्यावसायिक संगठन है एसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़ स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग (SIGKDD).[कृपया उद्धरण जोड़ें] 1989 से उन्होंने एक वार्षिक अंतरराष्ट्रीय सम्मेलन का आयोजन किया है और उसकी कार्यवाही को प्रकाशित किया है,[7] और 1999 के बाद से "SIGKDD Explorations" नामक एक अर्धवार्षिक अकादमिक पत्रिका प्रकाशित की है।[8] कंप्यूटर डाटा माइनिंग पर अन्य विज्ञान सम्मेलन में शामिल हैं:

  • DMIN - इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[9]
  • DMKD - रिसर्च इश्यूज ऑन डाटा माइनिंग एंड नॉलेज डिस्कवरी;
  • ECML-PKDD - [[यूरोपीयन कॉन्फरेंस ऑन मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ़ नॉलेज डिस्कवरी इन डाटाबेसेस;]]
  • ICDM - IEEE इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[10]
  • MLDM - मशीन लर्निंग एंड डाटा माइनिंग इन पैटर्न रिकगनिशन;
  • SDM - SIAM इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग

प्रक्रिया[संपादित करें]

नॉलेज डिस्कवरी इन डाटाबेसेस (KDD), दिलचस्प, विश्लेषित, उपयोगी और नवीन डाटा को खोजने की प्रक्रिया के वर्णन के लिए, 1989 में ग्रेगरी पियातेट्सकी-शपिरो द्वारा गढ़ा गया नाम था। इस प्रक्रिया में कई बारीकियां हैं, लेकिन मोटे तौर पर इसके चरण हैं कच्चे डाटा को प्रीप्रोसेस करना, डाटा को माइन करना और परिणामों की व्याख्या करना.[11]

प्री-प्रोसेसिंग[संपादित करें]

एक बार KDD प्रक्रिया का उद्देश्य ज्ञात होने के बाद, एक लक्ष्य डाटा सेट एकत्रित किया जाना चाहिए है। चूंकि डाटा माइनिंग केवल आंकड़ों में पहले से ही मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डाटा सेट इतना बड़ा होना चाहिए कि इसमें ये पैटर्न शामिल हों जबकि यह इतना संक्षिप्त हो कि एक स्वीकार्य समय सीमा में इसकी माइनिंग हो सके. आंकड़ों के लिए एक आम स्रोत एक डाटामार्ट या डाटा वेयरहाउस है।

निर्धारित लक्ष्य को तब साफ किया जाता है। सफाई, शोर और लापता डाटा के साथ टिप्पणियों को हटा देती है।

साफ डाटा को फीचर वेक्टर में परिणत किया जाता है, प्रति प्रेक्षण एक वेक्टर. एक फीचर वेक्टर, कच्चे डाटा प्रेक्षण का एक संक्षिप्त संस्करण है। उदाहरण के लिए, एक चेहरे की श्वेत और श्याम छवि जो 100px गुना 100px है उसमें 10,000 बिट्स कच्चे आंकड़े शामिल होंगे. छवि में आंख और मुंह का पता लगा कर इसे फीचर वेक्टर में बदला जा सकता है। ऐसा करने से प्रत्येक वेक्टर के लिए डाटा कम होकर 10,000 बिट्स से लोकेशंस के लिए तीन कोड होगा, नाटकीय रूप से माइन किये जाने वाले डाटासेट के आकार को कम करेगा और इस तरह प्रसंस्करण के कार्य को कम करेगा. चयनित फीचर इस पर निर्भर करेगा कि उद्देश्य क्या है (हैं); जाहिर है, "सही" फीचर (रों) का चुनाव सफल डाटा माइनिंग के लिए आधार है।

फीचर वैक्टर को दो सेट में विभाजित किया गया है, "प्रशिक्षण सेट" और "परीक्षण सेट". प्रशिक्षण सेट को डाटा माइनिंग एल्गोरिथ्म को प्रशिक्षित करने के लिए इस्तेमाल किया जाता है, जबकि परीक्षण सेट को किसी भी प्राप्त पेटर्न की सटीकता को सत्यापित करने के लिए किया जाता है।

डाटा माइनिंग[संपादित करें]

डाटा माइनिंग में सामान्य रूप से चार वर्गों के कार्य शामिल हैं:[11]

  • वर्गीकरण - पूर्वनिर्धारित समूहों में डाटा को व्यवस्थित करता है। उदाहरण के लिए, एक ईमेल प्रोग्राम एक ईमेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है। आम एल्गोरिदम में शामिल हैं डिसीज़न ट्री लर्निंग, निअरेस्ट नेबर, नाइव बाएसियन वर्गीकरण और न्यूरल नेटवर्क .
  • क्लस्टरिंग - वर्गीकरण की तरह है, लेकिन समूह पूर्वनिर्धारित नहीं होते हैं, तो एल्गोरिथ्म समान चीज़ों को समूहों में इकठ्ठा करने की कोशिश करेगा.
  • प्रतिगमन - एक कार्य को खोजने का प्रयास करता है जो कम से कम त्रुटि के साथ डाटा को मॉडल करे. एक आम तरीका जेनेटिक प्रोग्रामिंग का प्रयोग है।
  • एसोसिएशन रुल लर्निंग - चर के बीच संबंधों को खोजता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहकों की खरीददारी की आदतों पर डाटा इकट्ठा कर सकता है। एसोसिएशन रुल लर्निंग के प्रयोग से, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पादों को अक्सर एक साथ ख़रीदा जाता है और इस जानकारी का उपयोग विपणन प्रयोजनों के लिए कर सकता है। इसे कभी-कभी "मार्केट बास्केट अनैलिसिस" कहा जाता है।

परिणाम सत्यापन[संपादित करें]

डाटा से ज्ञान की खोज का अंतिम चरण है डाटा माइनिंग एल्गोरिदम द्वारा उत्पन्न पैटर्न को सत्यापित करना जो व्यापक डाटा सेट में होते हैं। डाटा माइनिंग एल्गोरिदम द्वारा पाए गए सभी पैटर्न जरूरी नहीं कि सही हों. डाटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में पैटर्न का पता लगाना आम है जो सामान्य डाटा सेट में मौजूद नहीं हैं, इसे ओवरफाइटिंग कहा जाता है। इस पर काबू पाने के लिए, मूल्यांकन, डाटा के एक परीक्षण सेट का उपयोग करता है, जिसपर डाटा माइनिंग एल्गोरिथ्म प्रशिक्षित नहीं था। लर्न्ट पैटर्न को इस परीक्षण सेट पर लागू किया जाता है जिसके प्राप्त परिणाम को वांछित परिणाम से तुलना की जाती है। उदाहरण के लिए, एक डाटा माइनिंग एल्गोरिथ्म जो वैध ईमेल को स्पैम से अलग करने की कोशिश कर रहा है वह नमूने ईमेलों के प्रशिक्षण सेट पर प्रशिक्षित होगा. एक बार प्रशिक्षित होने के बाद, लर्न्ट पैटर्न को ईमेल के परीक्षण सेट पर लागू किया जाएगा जिसपर इसे प्रशिक्षित नहीं किया गया था, इन पैटर्न की सटीकता को, कितने ईमेल को उन्होंने सही ढंग से वर्गीकृत किया है, इस बात से मापा जा सकता है। एल्गोरिथ्म के मूल्यांकन के लिए कई सांख्यिकीय तरीकों का प्रयोग किया जा सकता है जैसे ROC कर्व्स.

यदि लर्न्ट पैटर्न वांछित मानकों को पूरा नहीं करते, तो पुनर्मूल्यांकन करना और प्रीप्रोसेसिंग और डाटा माइनिंग को बदलना आवश्यक है। यदि लर्न्ट पैटर्न वांछित मानकों को पूरा करते हैं तो अंतिम प्रक्रिया उन लर्न्ट पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

उल्लेखनीय उपयोग[संपादित करें]

खेल[संपादित करें]

1960 के दशक के प्रारंभ से, कुछ मिश्रित खेलों के लिए ऑरैक्कल की उपलब्धता के साथ, जिन्हें टेबलबेसेस (उदाहरण, 3x3-शतरंज) भी कहा जाता था, किसी भी शुरुआती विन्यास, छोटे बोर्ड डॉट्स-एंड-बॉक्सेस, छोटे बोर्ड हेक्स और शतरंज में कुछ एंडगेम्स, डॉट्स-एंड-बॉक्सेस और हेक्स; के साथ डाटा माइनिंग के लिए एक नया क्षेत्र खुल गया है। यह, इन ऑरैक्कल से मानव उपयोगी रणनीति का निष्कर्षण है। मौजूदा पैटर्न पहचान तरीकों के पास सफलतापूर्वक लागू किये जाने के लिए पृथक्करण का आवश्यक उच्च स्तर नहीं. इसके बजाय, अच्छी तरह से डिजाइन की गई समस्याओं के टेबलबेस उत्तर के गहन अध्ययन के संयोजन में, टेबलबेसेस के साथ व्यापक प्रयोग और पूर्व कला के ज्ञान, अर्थात पूर्व टेबलबेस ज्ञान के साथ, का प्रयोग व्यावहारिक पैटर्न उत्पन्न करने के लिए किया जाता है डॉट्स-एंड-बॉक्सेस आदि में बेरलेकंप और शतरंज एंडगेम्स में जॉन नन इस काम को कर रहे प्रमुख अनुसंधानकर्ताओं के उदाहरण हैं, हालांकि वे टेबलबेस जनन में शामिल नहीं है।

व्यावसाय[संपादित करें]

ग्राहक संबंध प्रबंधन अनुप्रयोगों में, डाटा माइनिंग निचली पंक्ति में काफी योगदान कर सकता है।[कृपया उद्धरण जोड़ें] एक संभावना या ग्राहक से बेतरतीब ढंग से एक कॉल सेंटर या मेल भेज कर संपर्क करने के बजाए, एक कंपनी अपने प्रयासों को संभावनाओं पर केंद्रित कर सकती है जिनके किसी प्रस्ताव के जवाब देने की एक उच्च संभावना है। अभियान में संसाधनों को अधिकतम इस्तेमाल करने के लिए अधिक परिष्कृत तरीके का प्रयोग किया जा सकता है ताकि यह भविष्यवाणी की जा सके कि एक व्यक्ति द्वारा कौन से चैनल और कौन सी पेशकश के प्रति उत्तर देने की अधिक संभावना है - सारे क्षमतावान उत्पादों में. इसके अतिरिक्त, मेलिंग को स्वचालित करने के लिए परिष्कृत अनुप्रयोगों का प्रयोग किया जा सकता है। डाटा माइनिंग (संभावित संभावना/ग्राहक और चैनल/पेशकश) से एक बार परिणाम निर्धारित हो जाने पर, यह "परिष्कृत अनुप्रयोग" स्वतः ही एक ई-मेल या नियमित मेल, दोनों भेज सकता है। अंत में, ऐसे मामलों में जहां बिना किसी प्रस्ताव के कई लोग एक प्रतिक्रिया करेंगे, अपलिफ्ट मॉडलिंग का प्रयोग यह निर्धारित करने के लिए किया जा सकता है कि एक प्रस्ताव देने पर किन लोगों की प्रतिक्रिया में सबसे ज्यादा वृद्धि होगी. डाटा क्लस्टरिंग का प्रयोग स्वचालित रूप से एक ग्राहक डाटा सेट के भीतर वर्ग या समूह की खोज के लिए किया जा सकता है।

डाटा माइनिंग को अपनाने वाले कारोबार एक वापसी या निवेश देख सकते हैं, लेकिन वे यह भी देखते हैं कि भविष्यसूचक मॉडलों की संख्या तेजी से बहुत बड़ी हो सकती है। कौन सा ग्राहक प्रतिक्रिया देगा यह बताने के लिए एक मॉडल के बजाय, एक उद्योग प्रत्येक क्षेत्र और ग्राहक प्रकार के लिए एक अलग मॉडल बना सकता है। तब प्रतिक्रिया देने वाले सभी सभावित लोगों के लिए एक प्रस्ताव भेजने के बजाय, वह केवल उन ग्राहकों को प्रस्ताव भेजना चाहेगा जो संभावित रूप से प्रस्ताव को लेने वाले हों. और अंत में, वह यह भी तय करना चाहेगा कि कौन से ग्राहक एक समय अवधि में लाभदायक होंगे और केवल उन्ही लोगों के लिए प्रस्ताव भेजेगा जिनके लाभदायक होने की संभावना है। मॉडल की इस मात्रा को बनाए रखने के लिए, उन्हें मॉडल संस्करण प्रबंधन और स्वचालित डाटा माइनिंग की तरफ बढ़ने की जरूरत है।

डाटा माइनिंग मानव संसाधन विभाग के लिए, अपने सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने में भी उपयोगी हो सकते हैं। प्राप्त जानकारी, जैसे बेहद सफल कर्मचारियों द्वारा शिक्षा के लिए प्रयुक्त विश्वविद्याल, HR को तदनुसार भर्ती प्रयासों पर ध्यान केंद्रित करने में मदद कर सकता है। इसके अतिरिक्त, रणनीतिक उद्यम प्रबंधन अनुप्रयोग, एक कंपनी को कॉर्पोरेट स्टार के लक्ष्यों को अनुदित करने में मदद करते हैं, जैसे लाभ और मार्जिन शेयर लक्ष्य, परिचालन निर्णयों के अन्दर, जैसे उत्पादन योजनाएं और कार्यबल स्तर.[12]

डाटा माइनिंग का एक और उदाहरण, जिसे अक्सर मार्केट बास्केट अनैलिसिस कहा जाता है, खुदरा बिक्री में इसके उपयोग से संबंधित है। यदि एक कपड़े की दुकान, ग्राहकों की खरीद को दर्ज करती है, एक डाटा माइनिंग प्रणाली उन ग्राहकों को चिह्नित कर सकती है जो कपास की जगह सिल्क शर्ट को अधिक पसंद करते हैं। हालांकि संबंधों के कुछ स्पष्टीकरण मुश्किल हो सकते हैं, इसका लाभ लेना आसान है। यह उदाहरण, लेनदेन आधारित डाटा के भीतर साहचर्य नियम की चर्चा करता है। सभी डाटा लेनदेन आधारित और तार्किक या अयथार्थ नहीं हैं, नियम एक डाटाबेस के भीतर भी मौजूद हो सकता है। एक विनिर्माण अनुप्रयोग में, एक अयथार्थ नियम यह कह सकता है कि 73% उत्पाद जिनमें एक विशिष्ट दोष या समस्या है, उनमें अगले छह महीने के भीतर एक द्वितीयक समस्या भी पनपेगी.

मार्केट बास्केट अनैलिसिस का इस्तेमाल अल्फा उपभोक्ता की खरीददारी पैटर्न को पहचानने के लिए किया गया है। अल्फा उपभोक्ता, वे लोग हैं जो एक उत्पाद के पीछे की अवधारणा के साथ जोड़ने में महत्वपूर्ण भूमिका निभाते हैं, फिर उस उत्पाद को अपनाते हैं और अंत में बाकी समाज के लिए पुष्ट करते हैं। इन प्रकार के उपयोगकर्ताओं पर एकत्र आंकड़ों का विश्लेषण कंपनियों को भविष्य की खरीददारी के रुझान की भविष्यवाणी करने और आपूर्ति-मांग की भविष्यवाणी करने में सक्षम करते हैं।

डाटा माइनिंग, सूची विपणन उद्योग में एक अत्यंत प्रभावी उपकरण है। केटालॉगर के पास कई वर्षों का, लाखों ग्राहक पर ग्राहक लेनदेन का एक समृद्ध इतिहास है। डाटा माइनिंग उपकरण, ग्राहकों के बीच पैटर्न की पहचान कर सकते हैं और आगामी मेलिंग अभियान के प्रति प्रतिक्रिया देने वाले सबसे अधिक संभावित ग्राहकों की पहचान करने में मदद कर सकता है।

एक एकीकृत सर्किट उत्पादन लाइन से सम्बंधित, डाटा माइनिंग का एक उदाहरण पत्र में वर्णित है "माइनिंग IC टेस्ट डाटा टु ओप्टीमाइज़ VLSI टेस्टिंग."[13] इस पत्र में डाटा माइनिंग का अनुप्रयोग और डाई-लेवल कार्यात्मक परीक्षण समस्या का निर्णय विश्लेषण वर्णित है। इस पत्र में वर्णित प्रयोग डाई फेल्योर पैटर्न के एक संभाव्य मॉडल के निर्माण में, ऐतिहासिक डाई-लेवल डाटा माइनिंग को लागू करने की क्षमता को दर्शाते हैं जो उसके बाद वास्तविक माहौल में यह निर्णय करने में उपयोग किये जाते हैं कि किस डाई को अगली बार परीक्षण करना है और कब टेस्टिंग को रोक देना है। ऐतिहासिक परीक्षण डाटा के साथ प्रयोग के आधार पर, यह दिखाया गया है कि इस प्रणाली में परिपक्व IC उत्पादों पर लाभ बढ़ाने की क्षमता है।

विज्ञान और इंजीनियरी[संपादित करें]

हाल के वर्षों में, डाटा माइनिंग का प्रयोग व्यापक रूप से विज्ञान और इंजीनियरिंग के क्षेत्र में किया गया है जैसे बायोइन्फोरमेटिक्स, आनुवांशिकी, चिकित्सा, शिक्षा और विद्युत शक्ति इंजीनियरिंग.

मानव आनुवांशिकी पर अध्ययन के क्षेत्र में महत्वपूर्ण लक्ष्य, मानव के DNA अनुक्रम और बीमारी के प्रति संवेदनशीलता की परिवर्तनशीलता में वैयक्तिक भिन्नता के बीच सम्बन्ध को चित्रित करना है। सामान्य शब्दावली में, यह पता लगाना कि कैसे एक व्यक्ति के DNA अनुक्रम में परिवर्तन, आम रोगों जैसे कैंसर के विकास के जोखिम को प्रभावित करते हैं। यह निदान, रोकथाम तथा रोगों के उपचार में सुधार लाने में बहुत मदद करता है। डाटा माइनिंग तकनीक, जिसे इस कार्य के लिए प्रयोग किया जाता है उसे मल्टीफैक्टर डाईमेंशनैलिटी रिडक्शन के रूप में जाना जाता है।[14]

विद्युत् इंजीनियरिंग में, डाटा माइनिंग तकनीक का व्यापक रूप से उच्च वोल्टेज बिजली उपकरणों की स्थिति निगरानी के लिए इस्तेमाल किया जाता है। स्थिति निगरानी का प्रयोजन, इन्सुलेशन के उपकरणों की स्वास्थ्य स्थिति पर बहुमूल्य जानकारी प्राप्त करना है। डाटा क्लस्टरिंग जैसे सेल्फ-ओर्गनाइजिंग मैप (SOM), को कंपन निगरानी और ट्रांसफॉर्मर के ऑन लोड टैप-परिवर्तक (OLTCS) के विश्लेषण पर लागू किया गया है। कंपन निगरानी का प्रयोग कर के, यह देखा जा सकता है कि प्रत्येक टैप परिवर्तन संक्रिया एक संकेत उत्पन्न करती है जिसमें टैप परिवर्तक संपर्क और ड्राइव तंत्र की स्थिति के बारे में जानकारी शामिल होती है। जाहिर है, विभिन्न टैप स्थितियां अलग संकेत पैदा करेंगी. हालांकि बिलकुल समान टैप स्थिति के लिए, सामान्य स्थिति संकेतों के बीच, काफी परिवर्तनशीलता थी। SOM को असामान्य स्थितियों का पता लगाने और असामान्यताओं की प्रकृति का अनुमान लगाने के लिए लागू किया गया है।[15]

डाटा माइनिंग तकनीक को विद्युत् ट्रांसफार्मर पर भंग गैस विश्लेषण (DGA) के लिए लागू किया गया है। विद्युत् ट्रांसफार्मर के लिए एक निदान के रूप में DGA, कई वर्षों से उपलब्ध है। डाटा माइनिंग तकनीक, जैसे की SOM को, डाटा विश्लेषण और रुझानों को निर्धारित करने के लिए लागू किया जाता है जो डुवल ट्रायंगल जैसी मानक DGA अनुपात तकनीकों को स्पष्ट नहीं हैं।[15]

विज्ञान/इंजीनियरिंग के क्षेत्र में डाटा माइनिंग के प्रयोग का एक चौथा क्षेत्र है शैक्षिक अनुसंधान, जहां डाटा माइनिंग का प्रयोग उन प्रमुख कारकों का अध्ययन करने के लिए किया जाता है जो छात्रों को ऐसे व्यवहार के चुनाव के लिए प्रेरित करते हैं जो उनके अध्ययन को घटाती हैं[16] और उन कारकों को समझना जो विश्वविद्यालय के छात्र प्रतिधारण को प्रभावित करती हैं।[17]. डाटा माइनिंग के सामाजिक अनुप्रयोग का एक ऐसा ही उदाहरण है, विशेषज्ञता खोज प्रणाली में इसका उपयोग, जिसके तहत मानव विशेषज्ञता के विवर्णक निकाले जाते हैं, सामान्य किये जाते हैं और वर्गीकृत किये जाते हैं ताकि विशेषज्ञों की खोज को सुविधाजनक बनाया जा सके, विशेष रूप से वैज्ञानिक और तकनीकी क्षेत्रों में. इस तरह से, डाटा माइनिंग संस्थागत स्मृति में मदद कर सकते हैं।

डाटा माइनिंग तकनीक के अनुप्रयोग को लागू करने के अन्य उदाहरण हैं डोमेन ओंटोलोजीस द्वारा सरलीकृत जैव चिकित्सा डाटा,[18] चिकित्सीय परीक्षण डाटा माइनिंग,[19] SOM के प्रयोग से यातायात विश्लेषण,[20] वगैरह.

प्रतिकूल दवा प्रतिक्रिया निगरानी में उप्साला निगरानी केन्द्र ने, 1998 से 4.6 मीलियन संदिग्ध प्रतिकूल दवा प्रतिक्रिया घटनाओं के WHO के वैश्विक डाटाबेस में उभरते सुरक्षित दवा मुद्दों पर नियमित रूप से डाटा माइनिंग तरीकों के प्रयोग से पैटर्न की रिपोर्टिंग की है। हाल ही में, ऐसे ही दवाओं के नुस्खे सम्बंधित चिकित्सा निदान[21] के अस्थायी पैटर्न के लिए इलेक्ट्रॉनिक स्वास्थ्य रिकार्ड के विशाल संग्रह को माइन करने के लिए समान प्रक्रिया विकसित की गई है।[21]

स्थानिक डाटा माइनिंग[संपादित करें]

स्थानिक डाटा माइनिंग, स्थानिक डाटा पर डाटा माइनिंग तकनीक का अनुप्रयोग है। स्थानिक डाटा माइनिंग, डाटा माइनिंग में समान प्रक्रियाओं का पालन करते हैं, जहां इनका अंतिम उद्देश्य होता है भूगोल में पैटर्न पता करना. अब तक, डाटा माइनिंग और भौगोलिक सूचना प्रणाली (GIS) का, दो अलग प्रौद्योगिकी के रूप में अस्तित्व रहा है, दोनों ही अपनी अलग परंपराओं, तरीकों और विजुअलाइजेशन और डाटा विश्लेषण के प्रति अपने दृष्टिकोण के साथ रहे हैं। विशेष रूप से, सबसे समकालीन GIS में बहुत बुनियादी स्थानिक विश्लेषण कार्यशीलता है। IT विकास के कारण हुए भौगोलिक दृष्टि से संदर्भित डाटा में भारी विस्फोट, डिजिटल मैपिंग, दूरसंवेदी आंकड़े और GIS का वैश्विक प्रसार, भौगोलिक विश्लेषण और मॉडलिंग के लिए डाटा संचालित आगमनात्‍मक दृष्टिकोण के विकास के महत्व पर जोर देता है।

डाटा माइनिंग, जो विशाल डाटाबेस में छिपे पैटर्न के लिए आंशिक रूप से स्वचालित खोज है, व्यावहारिक GIS-आधारित निर्णय प्रक्रिया के लिए अत्यधिक क्षमतावान लाभ प्रदान करता है। हाल ही में, इन दोनों प्रौद्योगिकियों को एकीकृत करने का कार्य महत्वपूर्ण हो गया है, विशेष रूप से विभिन्न सार्वजनिक और निजी क्षेत्र के संगठन जिनके पास विषयगत और भौगोलिक दृष्टि से संदर्भित डाटा सहित विशाल डाटाबेस है, वहां छिपी सूचना की प्रचंड क्षमता का एहसास करना शुरू किया है। उन संगठनों में से हैं:

  • विश्लेषण या भू-संदर्भित सांख्यिकीय डाटा के प्रसार की आवश्यकता वाले कार्यालय
  • सार्वजनिक स्वास्थ्य सेवाएं जिन्हें बीमारी समूहों के स्पष्टीकरण की खोज है
  • पर्यावरण एजेंसियां जो जलवायु परिवर्तन पर भूमि प्रयोग की बदलती पद्धति का असर का मूल्यांकन कर रहे हैं
  • भू-विपणन कंपनियां जो स्थानिक अवस्थिति के आधार पर ग्राहक विभाजन कर रही हैं
चुनौतियां[संपादित करें]

भूस्थानिक डाटा भण्डार बहुत विशाल होता है। इसके अलावा, मौजूदा GIS डाटासेट, अक्सर फीचर और विशेषता घटकों में बंटे होते हैं, जो पारंपरिक रूप से संकर डाटा प्रबंधन प्रणालियों में संग्रहीत होते हैं। एल्गोरिथम आवश्यकताएं, संबंधपरक (विशेषता) डाटा प्रबंधन और टोपोलोजिकल (फीचर) डाटा प्रबंधन के लिए काफी अलग होती हैं।[22] इस से संबंधित है भौगोलिक डाटा प्रारूप की विविधता और रेंज, जो अद्वितीय चुनौतियां भी प्रस्तुत करता है। डिजिटल भौगोलिक डाटा क्रांति, पारंपरिक "वेक्टर" और "रास्टर" स्वरूप के परे एक नए प्रकार के डाटा फोर्मेट को निर्मित कर रही है। भौगोलिक डाटा भंडार में तेज़ी से खराब संरचित डाटा, जैसे कल्पनिक चित्र और भू संदर्भित मल्टी-मीडिया शामिल हो रहें हैं।

भौगोलिक ज्ञान खोज और डाटा माइनिंग में कई महत्वपूर्ण अनुसंधान चुनौतियां हैं। मिलर और हान[23] इस क्षेत्र में उभरते अनुसंधान विषयों की निम्नलिखित सूची प्रदान करते हैं:

  • भौगोलिक डाटा भण्डार का विकास और समर्थन - स्थानिक गुणों को अक्सर मुख्य धारा डाटा भंडारों में सरल अस्थानिक गुणों में सीमित कर दिया जाता है। एक एकीकृत GDW के निर्माण में, स्थानिक और अस्थाई डाटा इंट्रोपरेबिलिटी के मुद्दों को सुलझाने की आवश्यकता होती है, सिमेंटिक, संदर्भित प्रणाली, ज्यामिति, सटीकता और स्थिति में मतभेद सहित.
  • भौगोलिक ज्ञान खोज में बेहतर स्थानिक-अस्थाई निरूपण - वर्तमान भौगोलिक ज्ञान खोज (GKD) तकनीक आमतौर पर भौगोलिक वस्तुओं और स्थानिक रिश्तों का बहुत सरल प्रतिवेदनों का उपयोग करती हैं। भौगोलिक डाटा माइनिंग तकनीकों को और अधिक जटिल भौगोलिक वस्तुओं (लाइनें और बहुभुज) और रिश्तों (भौगोलिक स्थान जैसे भू भाग के माध्यम से गैर इयूक्लिडियन दूरी, दिशा, संपर्क और मेल). समय को इन भौगोलिक प्रतिवेदनों और संबंधों में और अधिक पूरी तरह से एकीकृत किया जाना चाहिए.
  • विविध प्रकार के डाटा के उपयोग से भौगोलिक ज्ञान खोज - ऐसी GKD तकनीक को विकसित करना चाहिए जो पारंपरिक रास्टर और वेक्टर मॉडल से परे विभिन्न प्रकार के डाटा को संभाल सके, जिसमें शामिल है काल्पनिक चित्र और भू-संदर्भित मल्टीमीडिया, साथ ही साथ गतिशील डाटा प्रकार (वीडियो धारा, एनिमेशन).

निगरानी[संपादित करें]

अमेरिकी सरकार के तहत आतंकवादी कार्यक्रम रोकने के लिए पूर्व की डाटा माइनिंग में शामिल हैं कुल सूचना जागरूकता (TIA) कार्यक्रम, सुरक्षित उड़ान (पूर्व में कंप्यूटर-एसिसटेड पैसेंजर प्रीस्क्रीनिंग सिस्टम (CAPPS II) विश्लेषण, प्रसार, विज़ुअलाइज़ेशन, इनसाइट, अर्थ संवर्धन (ADVISE)[24] और मल्टीस्टेट एंटी-टेरोरिज़म इन्फोर्मेशन एक्सचेंज (मैट्रिक्स)[25] इन प्रोग्रामों को, अमेरिकी संविधान के चौथे संशोधन का उल्लंघन करने के विवाद के कारण बंद कर दिया गया, हालांकि उनके तहत गठित कई कार्यक्रमों को विभिन्न संगठनों, या विभिन्न नामों के तहत पैसा मिलना जारी रहा.[26]

आतंकवाद का मुकाबला करने के सन्दर्भ में दो संभावित डाटा माइनिंग तकनीक हैं "पैटर्न माइनिंग" और "सब्जेक्ट बेस्ड डाटा माइनिंग".

पैटर्न माइनिंग[संपादित करें]

"पैटर्न माइनिंग" एक डाटा माइनिंग तकनीक है जिसमें डाटा में पहले से मौजूद पैटर्न की खोज शामिल है। इस संदर्भ में पैटर्न का अर्थ अक्सर संगत नियम होता है। संगत नियमों के खोज के लिए मूल प्रेरणा, सुपरमार्केट लेनदेन डाटा के विश्लेषण की इच्छा से आई, अर्थात, खरीदे गए उत्पादों के मामले में ग्राहक के व्यवहार की जांच. उदाहरण के लिए, एक संगत नियम "बियर => क्रिस्प्स (80%)" यह कहता है कि पांच ग्राहकों में से जिन चार ने बियर खरीदा उन्होंने क्रिस्प्स भी खरीदा.

आतंकवादी गतिविधि की पहचान के एक उपकरण के रूप में पैटर्न माइनिंग के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "पैटर्न आधारित डाटा माइनिंग पैटर्न खोजता है (विषम डाटा पैटर्न सहित) जो हो सकता है कि आतंकवादी गतिविधियों से जुड़ा हो - इन पैटर्न को शोर के महासागर में एक छोटा संकेत माना जा सकता है।"[27][28][29] पैटर्न माइनिंग में नए क्षेत्र शामिल हैं जैसे एक संगीत सूचना पुनःप्राप्ति (MIR) जहां अस्थाई और गैर अस्थाई, दोनों डोमेन में देखे जाने वाले पैटर्न शास्त्रीय ज्ञान खोज के लिए तलाश तकनीक में आयात किये जाते हैं।

विषय आधारित डाटा माइनिंग[संपादित करें]

"विषय आधारित डाटा माइनिंग", एक डाटा माइनिंग तकनीक है जिसमें डाटा में व्यक्तियों के बीच साहचर्य की खोज शामिल है। आतंकवाद से लड़ने के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "विषय आधारित डाटा माइनिंग शुरुआत करने वाले एक व्यक्ति या अन्य तथ्य का उपयोग करता है जो, अन्य जानकारी पर आधारित, उच्च उपयोगिता वाला माना जाता है और लक्ष्य, यह निर्धारित करना होता है कि उस शुरुआत करने वाले आंकड़ों से कौन से अन्य व्यक्ति या वित्तीय लेनदेन या आंदोलन, आदि, संबंधित हैं।"[28]

गोपनीयता चिंताएं और नैतिकता[संपादित करें]

कुछ लोगों का मानना है कि डाटा माइनिंग खुद ही नैतिकता की दृष्टि से तटस्थ है।[30] तथापि, जिन तरीकों से डाटा माइनिंग का प्रयोग किया जा सकता है वे गोपनीयता, वैधता और नैतिकता के सवाल उठा सकते हैं।[31] विशेष रूप से, डाटा माइनिंग सरकार या राष्ट्रीय सुरक्षा या कानून प्रवर्तन प्रयोजनों के लिए जैसे कुल सूचना जागरूकता कार्यक्रम या ADVISE में, व्यावसायिक डाटा सेट ने गोपनीयता सम्बंधित चिंताओं को बढ़ाया है।[32][33]

डाटा माइनिंग को डाटा रचना की आवश्यकता होती है जो उन जानकारीयों या पैटर्न को उजागर कर सकता है जो गोपनीयता और निजता नियमों से समझौता कर सकते हैं। ऐसी घटना के होने का एक आम तरीका है डाटा एकत्रीकरण के माध्यम से. डाटा एकत्रिकरण तब है जब डाटा एकत्रित किया जाता है, संभवतः विभिन्न स्रोतों से और एक साथ रखा जाता है ताकि विश्लेषण किया जा सके.[34] यह स्वतः डाटा माइनिंग नहीं है, लेकिन विश्लेषण के प्रयोजनों के लिए और के पहले डाटा की तैयारी का एक परिणाम है। एक व्यक्ति की गोपनीयता को खतरा तब होने लगता है जब डाटा, एक बार संकलित होने के बाद, डाटा माइन करने वाले को या किसी को भी जिसकी पहुंच नए संकलित डाटा सेट तक है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम बनाती है, विशेष रूप से जब मूलतः डाटा गुमनाम थे।

यह अनुशंसा की जाती है कि एक व्यक्ति को, डाटा के एकत्र करने से पहले निम्नलिखित के बारे में अवगत कराना चाहिए:

  • डाटा संग्रह के उद्देश्य और कोई भी डाटा माइनिंग परियोजना,
  • डाटा का उपयोग कैसे किया जाएगा,
  • डाटा को माइन करने में और उन्हें इस्तेमाल करने में कौन योग्य होगा
  • डाटा तक पहुंच की सुरक्षा और इसके अतिरिक्त,
  • एकत्रित डाटा कैसे नवीनीकृत किया जा सकता है[34]

कोई व्यक्ति अतिरिक्त रूप से, डाटा को इतना संशोधित कर सकता है कि वे गुमनाम हो जाएं, ताकि लोगों को आसानी से नहीं पहचाना जा सके.[34] हालांकि, यहां तक की गैर-चिह्नित डाटा सेट में किसी व्यक्ति की पहचान करने के लिए पर्याप्त जानकारी हो सकती है, जैसा तब हुआ, जब अनजाने में AOL द्वारा जारी किए गए खोज इतिहास के एक सेट के आधार पर पत्रकार कई लोगों को ढूंढने में सक्षम हो गए।[35][35]

बाजार सर्वेक्षण[संपादित करें]

हर साल कई संगठन, बाजार सर्वेक्षण करते हैं और वर्तमान डाटा माइनिंग बाज़ार आवश्यकताओं की रिपोर्ट प्रस्तुत करते हैं और उन उपकरणों और विक्रेताओं की तुलना जो उन्हें मुहैय्या करा रहे हैं। इन वार्षिक रिपोर्ट में कुछ शामिल हैं:

  • द गार्टनर "मैजिक क्वाड्रन्ट" रिपोर्ट.[36]
  • द रेक्सर एनालिटिक रिपोर्ट.[37]

समूह और संगठन[संपादित करें]

  • SIGKDD, ACM स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग.

यह भी देखें[संपादित करें]

अनुप्रयोग[संपादित करें]

विधियां[संपादित करें]

विविध[संपादित करें]

डाटा माइनिंग, डाटा के विश्लेषण के बारे में है, डाटा से जानकारी निकालने के बारे में जानकारी के लिए, देखें:

संदर्भ[संपादित करें]

  1. Lyman, Peter; Hal R. Varian (2003). "How Much Information". http://www.sims.berkeley.edu/how-much-info-2003. अभिगमन तिथि: 2008-12-17. 
  2. Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. आई॰ऍस॰बी॰ऍन॰ 0471228524. OCLC 50055336. 
  3. The Data Mining Group (DMG).. DMG एक स्वतंत्र, विक्रेता प्रधान समूह है जो डाटा माइनिंग मानक विकसित करता है, जैसे प्रिडीक्टीव मॉडल मार्कअप लेंग्वेज (PMML)
  4. PMML Project Page
  5. एलेक्स गुअज़ेली, माइकल जेलर, वेन-चिंग लिन, ग्राहम विलियम्स. PMML: An Open Standard for Sharing Models द आर जर्नल Vol 1/1, मई 2009.
  6. साँचा:Cite Journal
  7. Proceedings अंतर्राष्ट्रीय ज्ञान डिस्कवरी और डाटा माइनिंग, ACM, न्यूयॉर्क के सम्मेलन पर.
  8. SIGKDD Explorations, ACM, न्यूयॉर्क.
  9. इंटरनेशनल डाटा माइनिंग पर सम्मेलन: 5th (2009); 4th (2008); 3rd (2007); 2nd (2006); 1st (2005)
  10. IEEE International Conference on Data Mining: ICDM09 ICDM09, मियामी, FL; ICDM08, पीसा (इटली); ICDM07, ओमाहा, पूर्वोत्तर, ICDM06, हांगकांग, ICDM05, ह्यूस्टन, TX; ICDM04, Brighton (ब्रिटेन); ICDM03, मेलबोर्न, FL; ICDM02, माएबाशी सिटी (जापान); ICDM01, सैन जोस, CA.
  11. Fayyad, Usama; Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996). "From Data Mining to Knowledge Discovery in Databases". http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf. अभिगमन तिथि: 2008-12-17. 
  12. Ellen Monk, Bret Wagner (2006). Concepts in Enterprise Resource Planning, Second Edition. Thomson Course Technology, Boston, MA. आई॰ऍस॰बी॰ऍन॰ 0-619-21663-8. OCLC 224465825. 
  13. टोनी फाउन्टेन, थॉमस डिटरिश और बिल सुदिका (2000) Mining IC Test Data to Optimize VLSI Testing छठी ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में. (pp. 18-25). ACM प्रेस.
  14. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New Your. pp. 18. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7. 
  15. साँचा:Cite Journal
  16. साँचा:Cite Journal
  17. साँचा:Cite Journal
  18. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New York. pp. 163–189. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7. 
  19. ibid पीपी. 31-48.
  20. साँचा:Cite Journal
  21. नोरेन GN, बेट ए, होपस्तदिअस J, स्टार K, एडवर्ड IR. टेम्पोरल पैटर्न डिस्कवरी एंड ट्रेंड्स एंड ट्रांसीएंट इफेक्ट: इट्स एप्लीकेशन टु पेशेंट रिकॉर्ड्स. चौदहवें ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही SIGKDD 2008, पृष्ठ 963-971 लास वेगास NV, 2008.
  22. हेले, आर, 1991, डाटाबेस प्रबंधन प्रणालियां. इन मेग्वर, डी, गुडचाइल्ड, MF और रिंड, डी, (eds.), भौगोलिक सूचना प्रणाली: सिद्धांत और अनुप्रयोग (लंदन: Longman).
  23. मिलर, एच. और हान, जे, (eds.), 2001, भौगोलिक डाटा माइनिंग और ज्ञान डिस्कवरी, (लंदन: टेलर और फ्रांसिस).
  24. सरकार जवाबदेही कार्यालय, डाटा माइनिंग: अर्ली अटेंशन टु प्राइवेसी इन डेवलपिंग अ की DHS प्रोग्राम कुड रिड्यूस रिस्क गाओ-07-293, वाशिंगटन, डीसी: फरवरी, 2007
  25. Secure Flight Program report MSNBC.
  26. "Total/Terrorism Information Awareness (TIA): Is It Truly Dead?". Electronic Frontier Foundation (official website). 2003. http://w2.eff.org/Privacy/TIA/20031003_comments.php. अभिगमन तिथि: 2009-03-15. 
  27. आर अग्रवाल अन्य., फास्ट डिस्कवरी ऑफ़ असोसीएशन रूल्स इन अडवांसेस इन नॉलेज डिस्कवरी एंड डाटा माइनिंग पीपी. 307-328, MIT प्रेस, 1996.
  28. राष्ट्रीय अनुसंधान परिषद, आतंकवादियों के खिलाफ संघर्ष में व्यक्तिगत गोपनीयता की रक्षा: कार्यक्रम के आकलन के लिए एक फ्रेमवर्क वाशिंगटन, DC राष्ट्रीय अकादमियों प्रेस, 2008.
  29. Stephen Haag et al. (2006). Management Information Systems for the information age. Toronto: McGraw-Hill Ryerson. pp. 28. आई॰ऍस॰बी॰ऍन॰ 0-07-095569-7. OCLC 63194770. 
  30. William Seltzer. The Promise and Pitfalls of Data Mining: Ethical Issues. http://www.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf. 
  31. Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm. 
  32. K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review 5 (2). SSRN 546782 / OCLC 45263753. http://www.stlr.org/cite.cgi?volume=5&article=2. 
  33. John Resig, Ankur Teredesai (2004). "A Framework for Mining Instant Messaging Services". In Proceedings of the 2004 SIAM DM Conference. http://citeseer.ist.psu.edu/resig04framework.html. 
  34. Think Before You Dig: Privacy Implications of Data Mining & Aggregation NASCIO अनुसंधान ब्रीफ, सितम्बर, 2004
  35. AOL search data identified individuals, सिक्योरिटीफोकस, अगस्त, 2006
  36. गैरेथ हर्शेल (1 जुलाई 2008) Magic Quadrant for Customer Data-Mining Applications गार्टनर इंक
  37. कार्ल रेक्सार, पॉल गिअरन और हीदर एलन (2008) 2008 Data Miner Survey Summary SPSS डाईरेकशन सम्मेलन, 2008 अक्टूबर और Oracle BIWA शिखर सम्मेलन, 2008 नवम्बर

अतिरिक्त पठन[संपादित करें]

  • भगत, फिरोज़ पैटर्न रिकोगनिशन इन इंडसट्री एल्सेविअर ISBN 0-08-044538-1
  • काबेना, पीटर, पाब्लो हज्नियन, रॉल्फ स्टाद्लर, जाप वेरहीस और अलेसांद्रो ज़नासी (1997) डिस्कवरिंग डाटा माइनिंग: फ्रॉम कोंसेप्त टु इम्प्लीमेंटेशन अप्रेंटिस हॉल, ISBN 0-13-743980-6
  • डमर, स्टीफन डब्ल्यू, फाल्स पोसिटिव एंड सिक्योर फ्लाईट युसिंग डाटाविलांस व्हेन व्युड थ्रू द एवर इन्क्रीसिंग लाइक्लीहुड ऑफ़ आईडेनटीटी थेफ्ट 11 जे. टेक. विधि और सिद्धांत 259 (2006).
  • डमर, स्टीफन डब्ल्यू, कमेन्ट: सिक्योर फ्लाईट एंड डाटाविलांस, अ न्यू टैप ऑफ़ सिविल लिबर्टीज इरोज़न: स्ट्रिपिंग योर राइट्स व्हेन यु डोन्ट इवेन नो इट 75 MISS LJ 583 (2005).
  • फेल्ड्मन, रोनेन और जेम्स संगेर द टेक्स्ट माइनिंग हैंडबुक कैम्ब्रिज यूनिवर्सिटी प्रेस, ISBN 978-0-521-83657-9.
  • गुओ, येक और रॉबर्ट ग्रॉसमैन, संपादक (1999) हाई परफोर्मेंस डाटा माइनिंग: स्केलिंग एल्गोरिदम, एप्लीकेशन एंड सिस्टम क्लुवेर अकादमिक प्रकाशक.
  • हस्ती, ट्रेवर, रॉबर्ट टिबशिरानी और जेरोम फ्रीडमन (2001). द एलिमेंट्स ऑफ़ स्टेटीस्टीकल लर्निंग: डाटा माइनिंग, इनफरेंस एंड प्रिडिकशन स्प्रिंगर, 0387952845 ISBN.
  • होर्निक, मार्क एफ, एरिक मर्काद और सुनील वेंकेला जावा डाटा माइनिंग: स्ट्रेटेजी, स्टेनडर्ड, एंड प्रैक्टिस: अ प्रेक्टिकल गाइड फॉर आर्कीटेक्चर, डिजाइन, एंड इम्प्लीमेनटेशन (Broché).
  • बिंग लियू (2007). वेब डाटा माइनिंग: एक्स्प्लोरिंग हाइपरलिंक्स कोंटेंट्स एंड यूसेज डाटा. स्प्रिंगर 3540378812 ISBN.
  • मिअरसवा, इंगो, माइकल वुर्स्त, राल्फ क्लिनकेंबर्ग, मार्टिन शोल्ज़ और टीम युलर (2006) YALE: रैपिड प्रोटोटाइपिंग फॉर कोम्प्लेक्स डाटा माइनिंग टास्क 12 वीं ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में (KDD-06).
  • निस्बेट, रॉबर्ट, जॉन एल्डर, गैरी माइनर, 'सांख्यिकीय विश्लेषण और डाटा माइनिंग अनुप्रयोग की पुस्तिका, अकैडमिक प्रेस / एल्सेविअर ISBN 978-0-12-374765-5 (2009)
  • पोंसलेट, पास्कल, फ्लोरेंट मसेग्लिया और मागुलोन टेसेरे, संपादक (अक्टूबर 2007) डाटा माइनिंग पैटर्न: नए तरीके और अनुप्रयोग, सूचना विज्ञान संदर्भ, ISBN 978-1-59904-162-9.
  • पेंग-निंग टैन, माइकल स्टीनबख और विपिन कुमार, डाटा माइनिंग परिचय (2005), ISBN 0-321-32136-7
  • वैंग, XZ; मेदसनी, एस; मरहून, एफ, अल बजाज, एच. (2004 मल्टीडाइमेन्शनल विजुअलाइजेशन ऑफ़ प्रिंसिपल कोम्पोनेंट स्कोर्स फॉर प्रोसेस हिस्टोरिकल डाटा अनैलिसिस औद्योगिक एंड इंजीनियरिंग रसायन विज्ञान अनुसंधान, 43(22), pp. 7,036-7,048.
  • वैंग, XZ (1999) प्रक्रिया निगरानी और नियंत्रण के लिए डाटा माइनिंग और ज्ञान की खोज स्प्रिंगर, लंदन.
  • वाइस और इन्दुर्ख्या पूर्वानुमान डाटा माइनिंग, मॉर्गन कॉफमन
  • विटन, इयान और एइब फ्रैंक (2000) डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा इम्प्लीमेनटेशन ISBN 1-55860-552-5 (यह भी देखें फ्री वेका सॉफ्टवेयर)

बाह्य संबंध[संपादित करें]