ओसीआर

छपी हुई सामग्री को टेक्स्ट में बदलने की पूरी प्रक्रिया का ब्लॉक-आरेख

हस्तलिखित, टाइप किए हुए या प्रिन्ट किए हुए पाठ्यांश (टेक्स्ट) की छवि का कम्प्यूटर द्वारा पढ़े जाने योग्य पाठ्यांश रूप में परिवर्तन प्रकाशिक सम्प्रतीक अभिज्ञान (प्रकाश द्वारा सम्प्रतीकों की पहचान/Optical Character Recognition/ओसीआर) कहलाती है। आजकल यह छवि-प्रसंस्करण पर आधारित कम्प्यूटर क्रमादेशों / प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।

वस्तुत: यह प्रतिरूप की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर क्रमादेशों / प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिए गए हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।

उपयोग[संपादित करें]

ओसीआर का मुख्य उपयोग प्रिन्ट की गई पुस्तकों के पृष्ठों के क्रमवीक्षण छवियों को लेकर उससे 'पाठ्यांश' में बदलना है। पाठ्यांश में बदलने से कई लाभ हैं—

पाठ्यांश संचिका (फाइल) का आकार प्रतिबिंब संचिका से बहुत कम होता है।
पाठ्यांश में खोजना एवं अन्य प्रसंस्करण बहुत आसान हैं, जैसे उसका अनुवाद करना, उस पाठ्यांश की लिपि बदलना, उस पाठ्यांश को ध्वनि में बदलना, तथा उस पाठ्यांश से अन्य सूचनाएँ निकाल पाना आदि।
गाड़ियों के नम्बर प्लेट की स्वचालित पहचान
प्रिन्ट रूप में मौजूद इलेक्ट्रॉनिक दस्तावेजों की छवियों को खोजने लायक बनाना (जैसे गूगल पुस्तकें)

प्रमुख ओसीआर प्रोग्राम[संपादित करें]

निःशुल्क ओसीआर[संपादित करें]

गूगल ओसीआर, GOCR, SimpleOCR, TopOCR, FreeOCR आदि।

देवनागरी ओसीआर[संपादित करें]

गूगल ओसीआर - यह सभी भारतीय भाषाओं के विकिस्रोतों पर सुविधाजनक रूप में उपलब्ध कराया गया है।
टेसरैक्ट-ओसीआर (निःशुल्क, मुक्तस्रोत)
संस्कृत ओसीआर

इन्हें भी देखें[संपादित करें]

बाहरी कड़ियाँ[संपादित करें]

टेसरैक्ट ओसीआर - मुक्तस्रोत ओसीआर जिसमें देवनागरी सहित अन्य लिपियों की पहचान की सुविधा है।
14 Free OCR – Convert JPG / PDF To Editable Texts
ई-अक्षरायन - देवनागरी, तमिल, मलयालम, कन्नड आदि लिपियों के लिए ओसीआर
How to OCR Documents for Free in Google Drive
Convert PDF and photo files to text (in Google Drive using Google OCR)
परिचित (ओसीआर) - भारतीय भाषाओं के लिए मुक्तस्रोत ओसीआर निर्माण की परियोजना
Indian Language Technologies - Devanagari OCR Resources
Deep Learning based Text Recognition (OCR) using Tesseract and OpenCV (2018)
TDIL का वेब आधारित ओसीआर
Recognition of Printed Devnagari. Characters With Regular Expression
White Paper: OCR Softwares for Indian languages
Indian script character recognition: a survey^{[मृत कड़ियाँ]}
Integrating Knowledge Sources in Devanagari Text Recognition System Veena Bansal and R. M. K. Sinha
A Survey of Indian Script OCR Systems
Text - Image Separation in Devanagari Documents
कम्प्यूटर विज्ञान शब्दावली (अंग्रेजी-हिंदी)