ओसीआर

मुक्त ज्ञानकोश विकिपीडिया से
(फोटो टू टेक्सट से अनुप्रेषित)
चित्र:OCR-block-diagram.jpg
छपी हुई सामग्री को टेक्स्ट में बदलने की पूरी प्रक्रिया का ब्लॉक-आरेख

हस्तलिखित, टाइप किए हुए या प्रिन्ट किए हुए पाठ्यांश (टेक्स्ट) की छवि का कम्प्यूटर द्वारा पढ़े जाने योग्य पाठ्यांश रूप में परिवर्तन प्रकाशिक सम्प्रतीक अभिज्ञान (प्रकाश द्वारा सम्प्रतीकों की पहचान/Optical Character Recognition/ओसीआर) कहलाती है। आजकल यह छवि-प्रसंस्करण पर आधारित कम्प्यूटर क्रमादेशों / प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।

वस्तुत: यह प्रतिरूप की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर क्रमादेशों / प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिए गए हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।

उपयोग[संपादित करें]

ओसीआर का मुख्य उपयोग प्रिन्ट की गई पुस्तकों के पृष्ठों के क्रमवीक्षण छवियों को लेकर उससे 'पाठ्यांश' में बदलना है। पाठ्यांश में बदलने से कई लाभ हैं—

  • पाठ्यांश संचिका (फाइल) का आकार प्रतिबिंब संचिका से बहुत कम होता है।
  • पाठ्यांश में खोजना एवं अन्य प्रसंस्करण बहुत आसान हैं, जैसे उसका अनुवाद करना, उस पाठ्यांश की लिपि बदलना, उस पाठ्यांश को ध्वनि में बदलना, तथा उस पाठ्यांश से अन्य सूचनाएँ निकाल पाना आदि।
  • गाड़ियों के नम्बर प्लेट की स्वचालित पहचान
  • प्रिन्ट रूप में मौजूद इलेक्ट्रॉनिक दस्तावेजों की छवियों को खोजने लायक बनाना (जैसे गूगल पुस्तकें)

प्रमुख ओसीआर प्रोग्राम[संपादित करें]

निःशुल्क ओसीआर[संपादित करें]

गूगल ओसीआर, GOCR, SimpleOCR, TopOCR, FreeOCR आदि।

देवनागरी ओसीआर[संपादित करें]

इन्हें भी देखें[संपादित करें]

बाहरी कड़ियाँ[संपादित करें]