ओसीआर
यह सम्पूर्ण पृष्ठ या इसके कुछ विभाग हिन्दी के अतिरिक्त अन्य भाषा(ओं) में भी लिखे गए हैं। आप इनका अनुवाद करके विकिपीडिया की सहायता कर सकते हैं। ![]()
हस्तलिखित, टाइप किये हुए या प्रिन्ट किये हुए पाठ (टेक्स्ट) की छबि का कम्प्यूटर द्वारा पढ़े जाने योग्य टेक्स्ट रूप में परिवर्तन ओसीआर (प्रकाश द्वारा वर्णों की पहचान/Optical charecter recognition) कहलाती है। आजकल यह छबि-प्रसंस्करण पर आधारित कम्प्यूटर प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।
वस्तुत: यह पैटर्न की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिये गये हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।
OCR and ICR technology are analytical artificial intelligence systems that consider only sequences of characters rather than whole words or phrases and do not cross-validate data during the recognition process. Based on the analyses of sequential lines and curves, OCR and ICR make 'best guesses' at characters using database look-up tables to closely associate or match the strings of characters that form words. For these systems to effectively recognize hand printed or machine printed forms, words must be separated into individual characters. That is why most typical administrative forms require people to either hand print into neatly spaced boxes or use combs (tick marks) at the bottom of input lines to force spaces between letters entered on a form. Without the use of combs or boxes, conventional technologies reject fields if people do not follow the structure when filling out forms, resulting in significant administrative overhead and costs to forms processing organizations.
[संपादित करें] इन्हें भी देखें
- टेसरैक्ट (Tesseract)
- रास्टर से वेक्टर
- संस्कृत ओसीआर
[संपादित करें] बाहरी कड़ियाँ
- संस्कृत ओसीआर - इस ओसीआर का इंटरफेस जर्मन में है। यह देवनागरी की ८०-९०% शुद्धता के साथ पहचान करता है। इसका आउटपुट रोमन में आता है जिसको देवनागरी में बदलने का प्रोग्राम उपलब्ध है।
- Indian Language Technologies - Devanagari OCR Resources
- TDIL का वेब आधारित ओसीआर
- तमिल ओसीआर
- http://www.mirlabs.org/nagpur/ppt12.pdf Recognition of Printed Devnagari. Characters With Regular Expression]
- ICDAR'07, ICDAR'09, a comprehensive conference on all aspects of document recognition
- Linux OCR: A review of free optical character recognition software
- 17 Things Explanation of basic handwriting recognition principles and history
- Unicode OCR - Hex Range: 2440-245F Optical Character Recognition in Unicode
- White Paper: OCR Softwares for Indian languages
- Indian script character recognition: a survey
- Final Report on Nepali Optical Character Recognition NepaliOCR
- Integrating Knowledge Sources in Devanagari Text Recognition System Veena Bansal and R. M. K. Sinha
- A Survey of Indian Script OCR Systems
- Text - Image Separation in Devanagari Documents
- Tesseract-Indic-OCR (ब्लॉग)
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||