"प्राकृतिक भाषा संसाधन": अवतरणों में अंतर

Content deleted Content added

Inline

08:30, 5 मार्च 2020 का अवतरण

प्राकृतिक भाषा संसाधन (एनएलपी) कम्प्यूटर विज्ञान, कृत्रिम बुद्धि तथा भाषा विज्ञान का एक क्षेत्र है तथा मानव (प्राकृतिक) भाषाओं और कंप्यूटर के अन्तःक्रियाओं से सम्बन्धित है।^[1] प्राकृतिक भाषा संसाधन, कम्प्यूटर के द्वारा, मानव द्वारा कही या लिखी भाषा से अर्थ निकालने का काम करता है। इसके अलावा प्राकृतिक भाषा का सृजन (लिखित या वाचित रूप में) करने के लिए भी एनएलपी प्रयुक्त होता है।

चुनौती

कम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं-

संदिग्धता : मानव भाषाओं में विभिन्न भाषिक स्तरों पर संदिग्धता पाई जाती है, जैसे- शब्द स्तर पर एक शब्द का एक से अधिक शब्दवर्गों में प्रयोग, जैसे - 'सोना' शब्द संज्ञा भी है और क्रिया भी।
शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या - बोली गयी भाषा में प्रायः शब्दों की सीमा का थीक-ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे मन्दारिन) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है।
गलत आंकड़े - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, ओसीआर से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता।

प्रक्रिया

मार्फोलोजिक विश्लेषण
सिन्टैक्टिकल विश्लेषण
सिमैन्टिक विश्लेषण
प्रैग्मटिक विश्लेषण - सन्दर्भ आदि का ध्यान रखना
वाक्य की योजना बनाना
वाक्यनिर्माण

प्रमुख अनुप्रयोग

कुछ महत्वपूर्ण प्राकृतिक भाषा संसाधन ये हैं-

मशीनी अनुवाद
पाठ सरलीकरण
सूचना निष्कर्षण (इन्फार्मेशन इक्सट्रैक्सन)
सारांशीकरण (summerization)
प्रश्नों के उत्तर देना
संगणकीय भाषाविज्ञान
डाटा खनन (डेटा माइनिंग)
प्राकृतिक भाषा को समझना
अनचाहे मेल (स्पैम) के विरुद्ध संघर्ष

इन्हें भी देखें

बाहरी कड़ियाँ

नेपाली एनएलपी समूह

सन्दर्भ

↑ Charnia, Eugene: Introduction to artificial intelligence, page 2. Addison-Wesley, 1984.

[1] Charnia, Eugene: Introduction to artificial intelligence, page 2. Addison-Wesley, 1984.

[1]

@@ पंक्ति 2: / पंक्ति 2: @@
 [[चित्र: Automated online assistant.png|right|thumb|200px|[[स्वचालित ऑनलाइन सहायक]] आजकल बहुत उपयोगी सिद्ध हो रहे हैं। ]]
-'''प्राकृतिक भाषा संसाधन''' ('''एनएलपी''') [[कम्प्यूटर विज्ञान]], [[कृत्रिम बुद्धि]] तथा [[भाषा विज्ञान]] का एक क्षेत्र है तथा मानव (प्राकृतिक) भाषाओं और [[कंप्यूटर]] के अन्तःक्रियाओं से सम्बन्धित है।<ref>Charnia, Eugene: ''Introduction to artificial intelligence'', page 2. Addison-Wesley, 1984.</ref> प्राकृतिक भाषा संसाधन, कम्प्यूटर के द्वारा, मानव द्वारा कही या लिखी भाषा से अर्थ निकालने का काम करता है। इसके अलावा प्राकृतिक भाषा का सृजन (लिखित या वाचित रूप में) करने के लिए भी एनएलपी प्रयुक्त होता है।
+'''प्राकृतिक भाषा संसाधन''' ('''एनएलपी''') [[कम्प्यूटर विज्ञान]], [[कृत्रिम बुद्धि]] तथा [[भाषाविज्ञान|भाषा विज्ञान]] का एक क्षेत्र है तथा मानव (प्राकृतिक) भाषाओं और [[कंप्यूटर]] के अन्तःक्रियाओं से सम्बन्धित है।<ref>Charnia, Eugene: ''Introduction to artificial intelligence'', page 2. Addison-Wesley, 1984.</ref> प्राकृतिक भाषा संसाधन, कम्प्यूटर के द्वारा, मानव द्वारा कही या लिखी भाषा से अर्थ निकालने का काम करता है। इसके अलावा प्राकृतिक भाषा का सृजन (लिखित या वाचित रूप में) करने के लिए भी एनएलपी प्रयुक्त होता है।
 == चुनौती ==
 कम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं-
 # '''संदिग्धता''' : मानव भाषाओं में विभिन्न भाषिक स्तरों पर संदिग्धता पाई जाती है, जैसे- शब्द स्तर पर एक शब्द का एक से अधिक शब्दवर्गों में प्रयोग, जैसे - 'सोना' शब्द संज्ञा भी है और क्रिया भी।
-# '''शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या''' - बोली गयी भाषा में प्रायः शब्दों की सीमा का थीक-ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे [[मन्दारिन]]) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है।
+# '''शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या''' - बोली गयी भाषा में प्रायः शब्दों की सीमा का थीक-ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे [[मन्दारिन भाषा|मन्दारिन]]) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है।
 # '''गलत आंकड़े''' - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, [[ओसीआर]] से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता।
@@ पंक्ति 21: / पंक्ति 21: @@
 कुछ महत्वपूर्ण प्राकृतिक भाषा संसाधन ये हैं-
-# [[मशीनी अनुवाद]]
+# [[यान्त्रिक अनुवाद|मशीनी अनुवाद]]
 # पाठ सरलीकरण
 # सूचना निष्कर्षण (इन्फार्मेशन इक्सट्रैक्सन)
@@ पंक्ति 27: / पंक्ति 27: @@
 # प्रश्नों के उत्तर देना
 # [[संगणकीय भाषाविज्ञान]]
-# [[डाटा माइनिंग|डाटा खनन]] (डेटा माइनिंग)
+# [[आँकड़ा खनन|डाटा खनन]] (डेटा माइनिंग)
 # प्राकृतिक भाषा को समझना
 # अनचाहे मेल (स्पैम) के विरुद्ध संघर्ष

दे वा सं प्राकृतिक भाषा संसाधन (Natural language processing)
General terms	पाठ संग्रह (Text corpus) वाक् संग्रह (Speech corpus) विराम शब्द (Stopwords) Bag-of-words AI-complete n-gram (Bigram, Trigram)
पाठ खनन (Text mining)	Text segmentation Part-of-speech tagging Text chunking Compound term processing Collocation extraction Stemming Lemmatisation Named-entity recognition Coreference resolution Sentiment analysis Concept mining Parsing Word-sense disambiguation Terminology extraction Truecasing
Automatic summarization	Multi-document summarization Sentence extraction Text simplification
Machine translation	Computer-assisted Example-based Rule-based
Automatic identification and data capture	Speech recognition वाक् संश्लेषण Optical character recognition Natural language generation
Topic model	Pachinko allocation Latent Dirichlet allocation Latent semantic analysis
Computer-assisted reviewing	Automated essay scoring Concordancer Grammar checker Predictive text Spell checker Syntax guessing
Natural language user interface	Automated online assistant Chatbot Interactive fiction Question answering