खोज संयन्त्र

मुक्त ज्ञानकोश विकिपीडिया से
यहाँ जाएँ: भ्रमण, खोज

ऐसे कम्प्यूटर प्रोग्राम खोजी इंजन (search engine) कहलाते हैं जो किसी कम्प्यूटर सिस्टम पर भण्डारित सूचना में से वांछित सूचना को ढूढ निकालते हैं। ये इंजन प्राप्त परिणामों को प्रायः एक सूची के रूप में प्रस्तुत करते हैं जिससे वांछित सूचना की प्रकृति और उसकी स्थिति का पता चलता है। खोजी इंजन किसी सूचना तक अपेक्षाकृत बहुत कम समय में पहुँचने में हमारी सहायता करते हैं। वे 'सूचना ओवरलोड' से भी हमे बचाते हैं।

खोजी इंजन का सबसे प्रचलित रूप 'वेब खोजी इंजन' है जो वर्ल्ड वाइड वेब पर सूचना खोजने के लिये प्रयुक्त होता है।

इतिहास[संपादित करें]

समयरेखा
नोट: "प्रक्षेपण" का आशय
मूल क्र्रोल पर आधारित
खोज इंजन परिणाम केवल वेब की उपलब्धता है पूर्ण सूची के लिए: खोज इंजन की सूची (List of search engines)
वर्ष इंजन वृतांत
१९९३ एलिवेब (Aliweb) प्रक्षेपण
१९९४ वेबक्रोलर (WebCrawler) प्रक्षेपण
इन्फोसीक (Infoseek) प्रक्षेपण
लाइकोस (Lycos) प्रक्षेपण
१९९५ अल्ताविस्ता (AltaVista) प्रक्षेपण (डीईसी (DEC) का अंग )
मैगलन (Magellan) प्रक्षेपण (मेककिनले समूह)
उतेजना (Excite) प्रक्षेपण
SAPO (SAPO) प्रक्षेपण
१९९६ डोगपाइल (Dogpile) प्रक्षेपण
इन्क्तोमी (Inktomi) संस्थापित
हॉटबोट (HotBot) संस्थापित
जीव्स से पूछें (Ask Jeeves) संस्थापित
१९९७ उतरी लाईट (Northern Light) प्रक्षेपण
यांदेक्स (Yandex) प्रक्षेपण
१९९८ गूगल (Google) प्रक्षेपण
१९९९ ओलदवेब (AlltheWeb) प्रक्षेपण
नावेर (Naver) प्रक्षेपण
तेओमा (Teoma) संस्थापित
विविसिमो (Vivisimo) संस्थापित
२००० बैदु (Baidu) संस्थापित
२००३ Info.com (Info.com) प्रक्षेपण
२००४ Yahoo! खोज (Yahoo! Search) निर्णायक प्रक्षेपण
A9.com (A9.com) प्रक्षेपण
२००५ एम्एसएन खोज (MSN Search) निर्णायक परिक्षण
Ask.com (Ask.com) प्रक्षेपण
अच्छी खोज (GoodSearch) प्रक्षेपण
२००६ विकिसीक (wikiseek) संथापित
क्वेरो (Quaero) संस्थापित
Ask.com (Ask.com) प्रक्षेपण
लाइव खोज (Live Search)

प्रक्षेपण

चाचा (ChaCha) बीटा प्रक्षेपण
Guruji.com (Guruji.com) बीटा प्रक्षेपण
२००७ विकिसीक (wikiseek) प्रक्षेपण
विकिया खोज (Wikia Search) प्रक्षेपण
२००८ कुइल (Cuil) प्रक्षेपण
१०१३ Aoohe.com (Aoohe) प्रक्षेपण

खोज इंजन से पहले वेब सर्वर्स की पुरी सूची थी. टीम बेर्नेर्स ली द्वारा इन सूचियों का संपादन हुआ और सीइआरएन वेबसर्वर पर होस्ट किया गया . १९९२ से एक ऐतिहासिक आशुचित्र बनी हुई है[1]. जिस प्रकार अधिक से अधिक वेब्सेर्वेर्स ऑनलाइन हो जाने के कारण केन्द्रिये सूचि नही रख सकतें. एनसीएसऐ साईट पर नए सर्वर्स की घोषणा "नया क्या है" शीर्षक से किया गया है ,लेकिन कोई भी पूर्ण सूचि अब मौजूद नही है[2]

आर्ची (Archie).[3] उपकरण का इन्टरनेट (पूर्व वेब) पर खोज के लिए सबसे पहले इस्तेमाल किया गया था। बिना "वि" के "अर्चिव" का नाम बना है यह अलन एम्टेज (Alan Emtage) के द्वारा १९९० में बनाया गया, जो मांट्रियाल के मेकगिल विश्वविद्यालय (McGill University) का एक छात्र था. इस प्रोग्राम में निर्देशिका जिसमें सभी संचिकाओं की सूची सार्वजनिक अनामक ऍफ़ टी पी साईट में स्थित है, डाउनलोड है (संचिका स्थानान्तरण नवाचार खोजी डाटाबेस संचिकाओं के नाम बनाता है लेकिन आर्ची इन साइटों की विषय वस्तु की सूची नही बनाता है।

गोफेर (Gopher) का उदय ( १९९१ में मार्क मेककाहिल (Mark McCahill) के द्वारा मेंनेसोता विश्वविद्यालय (University of Minnesota) में बनाया गया) दो नए खोज प्रोग्राम, वेरोनिका (Veronica) और जगहेड (Jughead) का नेतृत्व करने के लिए हुआ. आर्ची की तरह वे संचिका का नाम और शीर्षक का खोज करते हैं जो गोफेर सूचकांक सारणी/सिस्टम में संगृहीत होता है. विरोनिका( बहुत आसान गिलहरी की तरह व्यापक नेट Iकंप्यूटरीकृत सूचकांक संग्रह) पुरे गोफर सूची के लगभग गोफर मेनू/सूची शीर्षक में मूल शब्द खोज प्रदान करता है . जग हेड ( जोंजिस सार्वलौकिक गोफर अनुक्रम एक्स्कवेसन और प्रदर्शन) विशेष गोफर सर्वर से मेनू/सूची से सुचना प्राप्त करने का उपकरण था हालाँकि "आर्ची (Archie)" नाम का खोज इंजन आर्ची हास्य पुस्तक (Archie comic book) श्रृंखला का उल्लेख नही करती, "वेरोनिका (Veronica)" और "जगहेड (Jughead)" इस श्रृंखला के प्रतिक हैं इस प्रकार वे अपने पुर्वधिकारी को संदर्भित करती हैं.

पहला वेब खोज इंजन वान्देक्स था, एक निष्क्रिये/मृत सूचकांक जो विश्वव्यापी वेब घुम्मकड़ (World Wide Web Wanderer) के द्वारा समाहरित किया गया था, इस वेब क्रॉलर (web crawler) का विकास मैथ्यू ग्रे के द्वारा एम्आईटी में १९९३ में हुआ था. एक अन्य शीघ्र खोज इंजन अलिवेब (Aliweb) भी १९९३ में दिखाई दिया.जम्पस्टेशन (JumpStation) ने (१९९४ के शुरुआत में जारी) खोज के लिए वेब पन्नों को ढूढ़ने के लिए क्रेव्लर का इस्तेमाल किया था, परन्तु वेब पन्नों के शीर्षक तक ही खोज सीमित था सबसे पहले "पुरा पाठ" क्रॉलर पर आधारित खोज इंजन वेब क्रॉलर (WebCrawler) था जो की १९९४ में आया.अपने पूर्वग की तरह, यह अपने उपयोगकर्ता को किसी भी शब्द को वेब पेज पर खोजने में मदद करता है, जो सभी वेब सर्च इंजन के लिए एक मानदंड बन गया है .यह भी एक पहला था जो जनता के द्वारा व्यापक रूप से जाता है.१९९४ में भी लाइकोस (Lycos) (जिसकी शुरुआत कार्नेगी मेलोन विश्वविद्यालय (Carnegie Mellon University) में हुई थी) का आरम्भ हुई थी और वह प्रमुख वाणिज्यिक प्रयास बन गई.

इसके तुंरत बाद, कई खोज इंजन दिखाई देने लगे और लोकप्रियता की और अग्रसर हुए.इसमें मैगलन (Magellan), एक्साईट (Excite), इन्फोसीक (Infoseek), इन्क्तोमी (Inktomi), उत्तरी लाइट (Northern Light) और अल्ताविस्ता (AltaVista) शामिल हैं.लोगों के लिए Yahoo! रुचिपूर्ण वेब पन्नों को ढूढने का सबसे अधिक लोकप्रिय रास्ता था लेकिन इसका खोज कार्य के लिए वेब के पुरा पाठ की अपेक्षा वेब निर्देशिका (web directory) का ही संचालन करती थी सूचना चाहने वाले खोज शब्द पर आधारित खोज के बजाय खोज के लिए निर्देशिका का भी संचालन कर सकतें हैं

१९९६ में, नेट्स्केप (Netscape) को एक विशेष समझौते के लिए अपने चुनिन्दा खोज मशीन के लिए एक विशेष खोज मशीन की तलाश थी. अत्यधिक रूचि के बजाये पॉँच प्रमुख मशीनों के द्वारा नेट्स्केप के साथ वह समझौता रूक गई , जहाँ ५० लाख प्रति वर्ष नेट्स्केप के खोज इंजन पन्नो पर एक खोज इंजन के रोटेशन के लिए होता.ये पॉँच इंजन थे: Yahoo!, मैगलन (Magellan), लाइकोस (Lycos), इन्फोसीक (Infoseek) और एक्साईट (Excite).

इन्टरनेट निवेश के कुछ चमकते सितारों में भी खोज इंजन को जाना जाता है, जो १९९० के अंत में आया था.[4] अनेक कम्पनियाँ ने बाज़ार में प्रवेश किया और प्रारंभिक सार्वजानिक प्रस्ताव (initial public offering) के दौरान उन्हें अत्यधिक लाभ प्राप्त हुआ.कुछ ने अपने सार्वजनिक खोज मशीन वापस ले लिया और विपणन उद्योग के एकमात्र संस्करण को भी, जैसे उत्तरी लाइट कई खोज इंजन कम्पनियाँ dot-com बुलबुला (dot-com bubble) के तहत आ गई थी, एक व्यावसायिक बाज़ार जो १९९९ में उछाल पर थी और २००१ में समाप्त हुई

लगभग २००० में गूगल खोज इंजन (Google search engine) ने प्रमुखता पाई.अनेक खोजों तथा पृष्ठ श्रेणी (PageRank) जैसे नवीन प्रयास के आह्वान से कंपनी ने बेहतर परिणाम पाया. पुनरावृतिये एल्गोरिथम वेब पन्नों का श्रेणी अन्य वेब साइट्स के संख्या और पृष्ठ श्रेणी तथा जोड़ने वाले पन्नों पर इस तथ्य पर आधारित है की अच्छा या वाँछित पन्ने दूसरों से अधिक वेब साइटों से जुड़े हों.खोज इंजन के लिए गूगल ने भी अल्पतम अन्तरफलक को बनाये रखा इसके विपरीत इसके कई प्रतियोगियों ने वेब पोर्टल (web portal) में खोज इंजन सन्निहित किया

२००० तक याहू ने इन्क्तोमी (Inktomi) खोज इंजन पर आधारित खोज सेवाओं को प्रदान करने लगा था. याहू! ने २००० में इन्क्तोमी (Inktomi) को प्राप्त किया और (जिसने ओलदवेब (AlltheWeb) और अल्ताविस्ता (AltaVista) को ख़रीदा) २००३ में प्रस्तावित (Overture) किया.२००४ तक Yahoo! गूगल खोज इंजन के साथ रहा, जब तक उसने सयुंक्त तकनीक पर आधारित अपना ख़ुद का खोज इंजन लॉन्च नही किया था.

१९९८ द्वारा व्यवहृत इन्क्तोमी (Inktomi) का खोज परिणामों के पतन के बाद माइक्रोसॉफ्ट ने सबसे पहले एम्एसएन खोज आरम्भ किया( जब तक कोई दुसरे प्रकार का जीवित खोज (Live Search) न आए) १९९९ में साईट ने लूक्स्मार्ट (Looksmart) और इन्क्तोमी (Inktomi) के परिणामों के साथ सूचीबद्ध शेयर को प्रर्दशित करने लगा था, इसके अलावा १९९९ में कुछ समय के लिए इनके बजाये अल्ताविस्ता (AltaVista) के परिणामों का प्रयोग हुआ था. २००४ में, माइक्रोसॉफ्ट ने अपने ख़ुद के खोज तकनीक में अपने ख़ुद के वेब क्रोलर (web crawler) के आधार पर परिवर्तन करना आरम्भ किया.( एम्एसएनबोट (msnbot) कहलाता है)

२००७ के अंत तक, गूगल सभी लोकप्रिय वेब खोज इंजनों से काफी आगे निकल गया था.[5] [6] देश के कई विशिष्ट खोज इंजन कंपनी प्रमुख बन गए उदहारण के तौर पर जनवादी गणराज्य चीन में सबसे लोकप्रिय खोज इंजन बैदु (Baidu), और भारत[7] में guruji.com (guruji.com)

वेब खोज इंजन कैसे काम करता है[संपादित करें]

एक खोज इंजन, निम्नलिखित आदेश से संचालित होता है

  1. वेब crawling (Web crawling)
  2. अनुक्रमण (Indexing)
  3. खोज रहा है (Searching)

वेब खोज इंजन कई वेब पन्नों में संग्रहित सूचनाओं के आधार पर कार्य करतें हैं जो अपने डब्लू डब्लू डब्लू से पुनः प्राप्त करतें हैं.ये पन्नें वेब क्रोलर (Web crawler) और के द्वारा प्राप्त हैं (कभी कभी मकड़ी के नाम से जाना जाता है) ; एक स्वचालित वेब ब्राउज़र जो हर कड़ी को देखता है.robots.txt (robots.txt) के प्रयोग से निवारण किया जा सकता है प्रत्येक पन्नों के सामग्री का विश्लेषण से निर्धारित किया जा सकता है कैसे इसे अनुक्रमित (indexed) किया जाए (उदहारणस्वरुप, शीर्षकों, विषयवाचक, या विशेष क्षेत्र जिसे मेटा टैग (meta tags) कहते हैं, से शब्द जुडा होता है)बाद के पूछ ताछ के लिए वेब पन्नों के बारें में आधार सामग्री आंकडासंचय सूचकांक में संगृहीत है कुछ खोज मशीने जैसे गूगल स्रोत पन्नों के कुछ अंश या पुरा भाग ( केच (cache) के रूप में) और साथ ही साथ वेब पन्नों के बारे में जानकारी स्टोर कर लेता है जबकि अन्य जैसे अल्ताविस्ता (AltaVista) प्रत्येक पन्नों के प्रत्येक शब्द जो भी पातें हैं उसे संगृहीत कर लेते हैं.यह संचित पन्ना वास्तविक खोज पाठ को हमेशा पकड़े हुए है जबसे इसको वास्तविक रूप में सूचीबद्ध किया गया है इसलिए जब वर्तमान पन्ने का अंतर्वस्तु को अद्यतन करने के बाद और खोज की स्थिति ज्यादा देर तक न होने के बाद यह अत्यन्त उपयोगी हो सकता है लिंक रूट (linkrot) के इस समस्या को हलके रूप में समझना चाहिए और गूगल के संचालन में इसका इस्तमाल (usability) बढ़ा क्योंकि उसने खोज शब्दों को लौटे हुए वेब पृष्ठों के द्वारा उपयोगकर्ताओं के उम्मीदों (user expectations) को पुरा किया यह विस्मय के कम से कम सिधांत (principle of least astonishment) को संतुष्ट करती है आमतौर पर उपयोगकर्ता लौटे हुए पन्नों पर खोज के परिणामों की उम्मीद करता है प्रासंगिक खोज के बढने से संचित पन्ने बहुत उपयोगी हो जाते हैं, यहाँ तक की वें तथ्यों से बाहर के डाटा हो सकते हैं जो कही भी उपलब्ध नहीं है.

जब कोई उपयोगकर्ता खोज इंजन में पूछताछ (query) के लिए प्रवेश करता है ( आमतौर पर मुख्य शब्दों (key word) का प्रयोग करके) खोज मशीन इसके विषय सूचि (index) की परीक्षा करता है और इसके मानदंडों के अनुसार उपयुक्त वेब पन्नों को सूचीबद्ध करता है, सामान्यतः एक छोटी सारांश के साथ जो प्रलेख के शीर्षकों और पाठ के भागों पर आधारित होती है अधिकतर सर्च इंजन बुलियन संचालक (boolean operators) AND, OR and NOT को खोज जिज्ञाशा (search query) शांत करने के लिए समर्थन करतें हैं . कुछ सर्च इंजन उन्नत किस्म के संचालक उपलब्ध कराते हैं जिसे प्रोक्सिमिटी खोज (proximity search) कहा जाता है जो उपभोक्ता को किवर्ड्स कि दूरियां को परिभाषित करने में सहायता करता है .

इस खोज इंजन की उपयोगिता (relevance) उसकी परिणामों की उपयुक्तता पर आधारित है.हालाँकि लाखों वेब पन्नें हैं जिसमें खास शब्द या वाक्यांश हो सकते हैं पर कुछ पन्नें अधिक प्रासंगिक, लोकप्रिय, या अन्य की तुलना में अधिक प्रमाणिक हो सकते हैं. अधिकांश खोज इंजनें ऐसे पद्धितियों (rank) को अपनाते हैं कि उनका परिणाम "सर्ब्श्रेष्ठ" और पहला हो कैसे एक खोज इंजन निर्णय करता है, कौन सा पन्ना सबसे ज्यादा उपयुक्त हो और अनेक व्यापक इंजन से दुसरे इंजनों में से कौन से क्रम में परिणामों को दिखाना चाहिए. समय के साथ पद्धतियों में भी बदलाव हो रहा है जैसे इन्टरनेट का उपयोग बदल रहा है और नई तकनीक का विकास हो रहा है

अधिकांश वेब खोज इंजन व्यावसायिक उद्यमी विज्ञापनों (advertising) की आमदानी से समर्थित होते हैं. जिसके फलस्वरूप कुछ विवादास्पद कार्यप्रणाली, विज्ञापनदाताओं को खोज परिणामों में उंच स्थान/श्रेणी पाने के लिए पैसों के भुगतान के आधार पर अनुमति देती है.वे खोज इंजन जो उनके खोज के परिणामो के लिए धन स्वीकार नही करते वे खोज इंजन परिणामो के साथ चल रहे खोज सम्बन्धी विज्ञापनों द्वारा धन बनातें हैं.कोई भी इनके किसी भी विज्ञापन में क्लिक करता है तो खोज इंजन हर बार धन बनाता है.

अधिकतर खोज मशीनें निजी कंपनियों द्वारा चलाये जाते हैं और वे अल्गोरिथ्म्स और बंद आंकडा संचयों का प्रयोग करते हैं. हालाँकि कुछ (some) सार्वजानिक स्रोत होते हैं.

नवीनतम मेटा खोज इंजन http://77.net अनूठा मेटा खोज प्रणाली का प्रयोग कर रहा है.

वेब खोज पोर्टल्स उद्योग की आमदनी अनुमानित २००८ में १३.४ प्रतिशत बढेगी, तथा ब्रॉडबैंड कनेक्शन के साथ १५.१ प्रतिशत बदने की उम्मीद है.२००८ से २०१२ के बीच उद्दोग आय अनुमानित ५६ प्रतिशत बढ़ा है क्योंकि इन्टरनेट के रूप में अमेरिका के घरों में पूर्ण परिपूर्णता के लिए अभी भी कुछ रास्ता तय करना है इसके आलावा, बढती हुई घरेलु इन्टरनेट उपयोगकर्ताओं के लिए ब्रॉडबैंड सेवाएँ दी जा रही है, फैबर ऑप्टिक और उच्च गति वाले केबल लाइनों के योग से २०१२ तक ११८.७ मिलियन बढ़ जायेगी.[8]

इसे भी देखिये[संपादित करें]

सन्दर्भ[संपादित करें]

नोट्स[संपादित करें]

ऊपर के विवरण के समर्थन के लिए नीचे पाद टिपण्णी दिए जातें हैं.क्योंकि कुछ तथ्यात्मक रहस्यों के स्वामी निजी कंपनिया थी और इसीलिए इनका पत्रिकाओं में प्रलेखन नही हुआ, सार्वजनिक तथ्यों के अनुसार वैसे तथ्य तार्किक हैं.

  • GBMW; ३० दिन की सजा का रिपोर्ट, पुनः; BMW कार निर्माता के पास गूगल से bmw.de जर्मन वेबसाइट था, जैसे slashdot- BMW (०५-feb-२००६)
  • INSIZ: MSN/गूगल/याहू के द्वारा अनुक्रमित वेब पन्नों का "१००-के बी सीमा; अधिकतम पृष्ठ आकार (२८ अप्रैल २००६)

ग्रन्थसूची[संपादित करें]

बाहरी कड़ियाँ[संपादित करें]