"प्राकृतिक भाषा संसाधन": अवतरणों में अंतर
Content deleted Content added
अनुनाद सिंह (वार्ता | योगदान) No edit summary |
|||
पंक्ति 3: | पंक्ति 3: | ||
==चुनौती== |
==चुनौती== |
||
कम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं- |
कम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं- |
||
# '''संदिग्धता''' : मानव भाषाओं में विभिन्न भाषिक स्तरों पर संदिग्धता पाई जाती है, जैसे- शब्द स्तर पर एक शब्द का एक से अधिक शब्दवर्गों में प्रयोग, जैसे - 'सोना' शब्द संज्ञा भी है और क्रिया भी। |
|||
# '''संदिग्धता''' |
|||
# '''शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या''' - बोली गयी भाषा में प्रायः शब्दों की सीमा का थीक-ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे [[मन्दारिन]]) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है। |
# '''शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या''' - बोली गयी भाषा में प्रायः शब्दों की सीमा का थीक-ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे [[मन्दारिन]]) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है। |
||
# '''गलत आंकड़े''' - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, [[ओसीआर]] से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता। |
# '''गलत आंकड़े''' - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, [[ओसीआर]] से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता। |
05:49, 18 अगस्त 2014 का अवतरण
प्राकृतिक भाषा संसाधन (एनएलपी) कम्प्यूटर विज्ञान, कृत्रिम बुद्धि तथा भाषा विज्ञान का एक क्षेत्र है तथा मानव (प्राकृतिक) भाषाओं और कंप्यूटर के अन्तःक्रियाओं से सम्बन्धित है। [1] प्राकृतिक भाषा संसाधन, कम्प्यूटर के द्वारा, मानव द्वारा कही या लिखी भाषा से अर्थ निकालने का काम करता है। इसके अलावा प्राकृतिक भाषा का सृजन (लिखित या वाचित रूप में) करने के लिए भी एनएलपी प्रयुक्त होता है।
चुनौती
कम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं-
- संदिग्धता : मानव भाषाओं में विभिन्न भाषिक स्तरों पर संदिग्धता पाई जाती है, जैसे- शब्द स्तर पर एक शब्द का एक से अधिक शब्दवर्गों में प्रयोग, जैसे - 'सोना' शब्द संज्ञा भी है और क्रिया भी।
- शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या - बोली गयी भाषा में प्रायः शब्दों की सीमा का थीक-ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे मन्दारिन) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है।
- गलत आंकड़े - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, ओसीआर से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता।
प्रक्रिया
- मार्फोलोजिक विश्लेषण
- सिन्टैक्टिकल विश्लेषण
- सिमैन्टिक विश्लेषण
- प्रैग्मटिक विश्लेषण - सन्दर्भ आदि का ध्यान रखना
- वाक्य की योजना बनाना
- वाक्यनिर्माण
प्रमुख अनुप्रयोग
कुछ महत्वपूर्ण प्राकृतिक भाषा संसाधन ये हैं-
- मशीनी अनुवाद
- पाठ सरलीकरण
- सूचना निष्कर्षण (इन्फार्मेशन इक्सट्रैक्सन)
- सारांशीकरण (summerization)
- प्रश्नों के उत्तर देना
- संगणकीय भाषाविज्ञान
- डाटा खनन (डेटा माइनिंग)
- प्राकृतिक भाषा को समझना
- अनचाहे मेल (स्पैम) के विरुद्ध संघर्ष
इन्हें भी देखें
सन्दर्भ
- ↑ Charnia, Eugene: Introduction to artificial intelligence, page 2. Addison-Wesley, 1984.