प्राकृतिक भाषा संसाधन की रूपरेखा

प्राकृतिक भाषा संसाधन – कंप्यूटर गतिविधि है, जिसमें कंप्यूटर का उपयोग करके प्राकृतिक भाषाओं (जैसे हिन्दी, फ्रेंच आदि) का विश्लेषण करने, समझने, बदलने, या उत्पन्न करने आदि का कार्य किया जाता है। इसमें किसी भी या सभी भाषाई रूपों, गतिविधियों, या संचार के तरीकों, जैसे बातचीत, पत्राचार, पढ़ना, लिखित रचना, श्रुतलेख, प्रकाशन, अनुवाद, होंठ पढ़ना, और इसी तरह का स्वचालन शामिल है। प्राकृतिक भाषा प्रसंस्करण कंप्यूटर विज्ञान, कृत्रिम बुद्धिमत्ता और भाषा विज्ञान की शाखा का नाम है, जो सभी प्रकारों में प्राकृतिक भाषा (भाषाओं) का उपयोग करने के लिए कंप्यूटर को सक्षम करने से संबंधित है, जिसमें भाषण, प्रिंट, लेखन और हस्ताक्षर तक सीमित नहीं है। ।

प्राकृतिक भाषा संसाधन[संपादित करें]

प्राकृतिक भाषा प्रसंस्करण को निम्न में से सभी के रूप में समझा जा सकता है:

विज्ञान का एक क्षेत्र – व्यवस्थित उद्यम जो ब्रह्मांड के बारे में परीक्षण योग्य स्पष्टीकरण और भविष्यवाणियों के रूप में ज्ञान का निर्माण और आयोजन करता है।
- एक लागू विज्ञान – क्षेत्र जो उपयोगी चीजों के निर्माण या डिजाइन के लिए मानव ज्ञान को लागू करता है।
  - कंप्यूटर विज्ञान का एक क्षेत्र – अभिकलन और उसके अनुप्रयोगों के लिए वैज्ञानिक और व्यावहारिक दृष्टिकोण।
    - कृत्रिम बुद्धिमत्ता की एक शाखा – मशीनों और रोबोटों की बुद्धि और कंप्यूटर विज्ञान की शाखा जो इसे बनाने का लक्ष्य रखती है।
    - कम्प्यूटेशनल भाषाविज्ञान का एक उपक्षेत्र – कम्प्यूटेशनल परिप्रेक्ष्य से प्राकृतिक भाषा के सांख्यिकीय या नियम-आधारित मॉडलिंग के साथ काम करने वाला अंतःविषय क्षेत्र।
- इंजीनियरिंग का एक अनुप्रयोग – विज्ञान, कौशल, और वैज्ञानिक, आर्थिक, सामाजिक और व्यावहारिक ज्ञान प्राप्त करने और लागू करने के लिए, संरचना, मशीन, उपकरण, सिस्टम, सामग्री और प्रक्रियाओं का निर्माण करने के लिए।
  - सॉफ्टवेयर इंजीनियरिंग का एक अनुप्रयोग – सॉफ्टवेयर के एक व्यवस्थित, अनुशासित, मात्रात्मक दृष्टिकोण का अनुप्रयोग, सॉफ्टवेयर का विकास, संचालन और रखरखाव, और इन दृष्टिकोणों का अध्ययन; यह है, सॉफ्टवेयर के लिए इंजीनियरिंग के आवेदन। ^[1] ^[2]
    - कंप्यूटर प्रोग्रामिंग का एक उपक्षेत्र – डिजाइन, लेखन, परीक्षण, डिबगिंग की प्रक्रिया, और कंप्यूटर प्रोग्राम के स्रोत कोड को बनाए रखना। यह स्रोत कोड एक या अधिक प्रोग्रामिंग भाषाओं (जैसे जावा, C ++, C #, पायथन, आदि) में लिखा गया है। )। प्रोग्रामिंग का उद्देश्य निर्देशों का एक सेट बनाना है जो कंप्यूटर विशिष्ट संचालन करने के लिए या वांछित व्यवहारों को प्रदर्शित करने के लिए उपयोग करते हैं।
      - कृत्रिम बुद्धिमत्ता प्रोग्रामिंग का एक उपक्षेत्र –
एक प्रकार की प्रणाली – एक संपूर्ण या तत्वों के एक समूह (अक्सर जिन्हें 'घटक' कहा जाता है) और ऐसे रिश्ते बनाने के लिए परस्पर क्रिया या अन्योन्याश्रित घटकों का सेट, जो सेट या उसके तत्वों के अन्य तत्वों या सेटों के संबंधों से भिन्न होते हैं।
- एक प्रणाली जिसमें सॉफ्टवेयर शामिल है – सॉफ्टवेयर कंप्यूटर प्रोग्राम और संबंधित डेटा का एक संग्रह है जो कंप्यूटर को यह बताने के लिए निर्देश प्रदान करता है कि क्या करना है और कैसे करना है। सॉफ्टवेयर का तात्पर्य कंप्यूटर के भंडारण में रखे गए एक या अधिक कंप्यूटर प्रोग्राम और डेटा से है। दूसरे शब्दों में, सॉफ्टवेयर डेटा प्रोसेसिंग सिस्टम के संचालन से संबंधित कार्यक्रमों, प्रक्रियाओं, एल्गोरिदम और इसके प्रलेखन का एक समूह है।
एक प्रकार की तकनीक – उपकरण, मशीन, तकनीक, शिल्प, प्रणाली, संगठन के तरीके बनाना, संशोधन, उपयोग और ज्ञान, एक समस्या को हल करने के लिए, एक समस्या के लिए एक preexisting समाधान में सुधार करना, एक लक्ष्य प्राप्त करना, एक आवेदन को संभालना इनपुट / आउटपुट संबंध या एक विशिष्ट कार्य करते हैं। यह ऐसे उपकरण, मशीनरी, संशोधनों, व्यवस्थाओं और प्रक्रियाओं के संग्रह को भी संदर्भित कर सकता है। प्रौद्योगिकियां मानव के साथ-साथ अन्य जानवरों की प्रजातियों को नियंत्रित करने और उनके प्राकृतिक वातावरण के अनुकूल होने की क्षमता को महत्वपूर्ण रूप से प्रभावित करती हैं।
- कंप्यूटर प्रौद्योगिकी का एक रूप – कंप्यूटर और उनके अनुप्रयोग। एनएलपी कंप्यूटर, छवि स्कैनर, माइक्रोफोन और कई प्रकार के सॉफ्टवेयर प्रोग्राम का उपयोग करता है।
  - भाषा प्रौद्योगिकी – एक तरफ प्राकृतिक भाषा प्रसंस्करण (एनएलपी) और एक ओर कम्प्यूटेशनल भाषा विज्ञान (सीएल), और दूसरी ओर भाषण प्रौद्योगिकी के होते हैं। इसमें इनमें से कई अनुप्रयोग उन्मुख पहलू भी शामिल हैं। इसे अक्सर मानव भाषा प्रौद्योगिकी (HLT) कहा जाता है।

आवश्यक प्रौद्योगिकी[संपादित करें]

निम्नलिखित प्रौद्योगिकियां प्राकृतिक भाषा प्रसंस्करण को संभव बनाती हैं:

संचार – एक रिसीवर को संदेश भेजने वाले स्रोत की गतिविधि
- भाषा –
  - भाषण –
  - लेखन –
- कम्प्यूटिंग –
  - कंप्यूटर –
  - कंप्यूटर प्रोग्रामिंग –
    - सूचना निष्कर्षण –
    - उपयोगकर्ता इंटरफ़ेस –
  - सॉफ्टवेयर –
    - पाठ संपादन – सादे पाठ फ़ाइलों को संपादित करने के लिए उपयोग किया जाने वाला कार्यक्रम
    - वर्ड प्रोसेसिंग – सॉफ्टवेयर का टुकड़ा जिसका उपयोग कंपोजिंग, संपादन, प्रारूपण, मुद्रण दस्तावेजों के लिए किया जाता है
  - इनपुट डिवाइस – कंप्यूटर पर डेटा भेजने के लिए हार्डवेयर के टुकड़े को संसाधित किया जाना है ^[3]
    - कंप्यूटर कीबोर्ड – टाइपराइटर स्टाइल इनपुट डिवाइस जिसका इनपुट परिस्थितियों के आधार पर विभिन्न डेटा में परिवर्तित हो जाता है
    - छवि स्कैनर –

प्राकृतिक भाषा संसाधन के उपक्षेत्र[संपादित करें]

सूचना निष्कर्षण (IE) – पाठ से शब्दार्थ जानकारी के निष्कर्षण के साथ सामान्य रूप से संबंधित क्षेत्र। इसमें निकाय मान्यता, मूल संकल्प, संबंध निष्कर्षण आदि जैसे कार्य शामिल हैं।
ओन्टोलॉजी इंजीनियरिंग – क्षेत्र, जो ऑन्कोलॉजी के निर्माण के तरीकों और विधियों का अध्ययन करता है, जो एक डोमेन के भीतर अवधारणाओं के सेट और उन अवधारणाओं के बीच संबंधों के औपचारिक प्रतिनिधित्व हैं।
भाषण प्रसंस्करण – क्षेत्र जो भाषण मान्यता, पाठ से भाषण और संबंधित कार्यों को कवर करता है।
सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण –
- सांख्यिकीय शब्दार्थ – कम्प्यूटेशनल शब्दार्थ का एक उपक्षेत्र जो शब्दों को उनके संदर्भों की जांच करने के लिए शब्दार्थ संबंध स्थापित करता है।
  - डिस्ट्रीब्यूटेंट सिमेंटिक्स – सांख्यिकीय शब्दार्थों का एक उपक्षेत्र जो किसी कॉर्पोरा में या डेटा के बड़े नमूनों में शब्दों के शब्दार्थ संबंध की जांच करता है।

प्राकृतिक भाषा संसाधन में प्रयुक्त संरचनाएं[संपादित करें]

अनाफोरा – अभिव्यक्ति का प्रकार जिसका संदर्भ किसी अन्य संदर्भ तत्व पर निर्भर करता है। उदाहरण के लिए, वाक्य में 'सैली ने खुद की कंपनी को प्राथमिकता दी', 'खुद' एक अनौपचारिक अभिव्यक्ति है कि यह वाक्य के विषय 'सैली' के साथ महत्वपूर्ण है।
प्रसंग-मुक्त भाषा –
नियंत्रित प्राकृतिक भाषा – अस्पष्टता और जटिलता को खत्म करने के लिए इसके व्याकरण और शब्दावली पर प्रतिबंध के साथ एक प्राकृतिक भाषा
कॉर्पस – डेटा का शरीर, वैकल्पिक रूप से टैग किया गया (उदाहरण के लिए, पार्ट-ऑफ-स्पीच टैगिंग के माध्यम से), विश्लेषण और तुलना के लिए वास्तविक दुनिया के नमूने प्रदान करता है।
- टेक्स्ट कॉर्पस – ग्रंथों का बड़ा और संरचित सेट, आजकल आमतौर पर इलेक्ट्रॉनिक रूप से संग्रहीत और संसाधित किया जाता है। वे एक विशिष्ट विषय (या डोमेन ) के भीतर सांख्यिकीय विश्लेषण और परिकल्पना परीक्षण, घटनाओं की जाँच या भाषाई नियमों को मान्य करने के लिए उपयोग किया जाता है।
- स्पीच कॉर्पस – भाषण ऑडियो फाइलों और टेक्स्ट ट्रांसक्रिप्शन का डेटाबेस। भाषण प्रौद्योगिकी में, भाषण कॉर्पोरा का उपयोग अन्य चीजों के साथ, ध्वनिक मॉडल बनाने के लिए किया जाता है (जो तब भाषण मान्यता इंजन के साथ उपयोग किया जा सकता है)। भाषाविज्ञान में, ध्वन्यात्मक, वार्तालाप विश्लेषण, भाषाविज्ञान और अन्य क्षेत्रों में अनुसंधान करने के लिए बोली जाने वाली कॉर्पोरा का उपयोग किया जाता है।
व्याकरण –
- संदर्भ-मुक्त व्याकरण (सीएफजी) –
- बाधा व्याकरण (CG) –
- निश्चित खंड व्याकरण (DCG) –
- कार्यात्मक एकीकरण व्याकरण (FUG) –
- सामान्यीकृत वाक्यांश संरचना व्याकरण (GPSG) –
- हेड-चालित वाक्यांश संरचना व्याकरण (HPSG) –
- लेक्सिकल फंक्शनल ग्रामर (LFG) –
- संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) – स्टोचैस्टिक संदर्भ-मुक्त व्याकरण का दूसरा नाम।
- स्टोकेस्टिक संदर्भ-मुक्त व्याकरण (SCFG) –
- प्रणालीगत कार्यात्मक व्याकरण (SFG) –
- पेड़ से सटे व्याकरण (TAG) –
प्राकृतिक भाषा –
n -ग्राम - n की संख्या का टोकन क्रम, जहाँ एक "टोकन" एक वर्ण, शब्दांश या शब्द है। N को एक नंबर से बदल दिया गया है। इसलिए, एक 5-ग्राम 5 अक्षरों, शब्दांशों या शब्दों का एक एन -ग्राम है। "इसे खाओ" एक 2-ग्राम (जिसे एक आश्रम के रूप में भी जाना जाता है)।
- बिग्राम – 2 टोकन के एन -ग्राम। टोकनों की एक स्ट्रिंग में 2 आसन्न तत्वों का प्रत्येक क्रम एक बिग्राम है। बिग्रेड का उपयोग भाषण मान्यता के लिए किया जाता है, इनका उपयोग क्रिप्टोग्रम्स को हल करने के लिए किया जा सकता है, और बिग्राम आवृत्ति सांख्यिकीय भाषा पहचान के लिए एक दृष्टिकोण है।
- त्रिग्राम - n -gram का विशेष मामला, जहां n 3 है।
ओन्टोलॉजी – एक डोमेन के भीतर अवधारणाओं का एक सेट और उन अवधारणाओं के बीच संबंधों का औपचारिक प्रतिनिधित्व।
- वर्गीकरण – अभ्यास और वर्गीकरण का विज्ञान, जिसमें अंतर्निहित वर्गीकरण, और चीजों या अवधारणाओं को वर्गीकृत करने के तरीके शामिल हैं।
  - हाइपोनेमी और हाइपरनेमी – सम्मोहन और हाइपरनीम्स की भाषाविज्ञान। एक हाइपरनेम अपने हाइपरनेम के साथ एक प्रकार का संबंध साझा करता है। उदाहरण के लिए, कबूतर, कौआ, चील और सीगल सभी पक्षी (उनके हाइपरनम) के सम्मोहन हैं; जो, बदले में, पशु का एक नाम है।
  - खोज इंजन के लिए वर्गीकरण – आमतौर पर "संस्थाओं की वर्गीकरण" कहा जाता है। यह एक पेड़ है जिसमें नोड्स को उन संस्थाओं के साथ लेबल किया जाता है जो एक वेब खोज क्वेरी में होने की उम्मीद है। इन वृक्षों का उपयोग प्रासंगिक उत्तरों (या स्निपेट) से कीवर्ड के साथ खोज क्वेरी से कीवर्ड को मिलाने के लिए किया जाता है।
शाब्दिक प्रवेश - पाठ के टुकड़ों के बीच दिशात्मक संबंध। संबंध तब भी होता है जब एक पाठ के टुकड़े का सत्य दूसरे पाठ से होता है। टीई फ्रेमवर्क में, प्रवेश करने वाले और प्रवेशित ग्रंथों को क्रमशः पाठ (टी) और परिकल्पना (एच) कहा जाता है। रिश्ता दिशात्मक है क्योंकि भले ही "t entails h", रिवर्स "h entails t" बहुत कम निश्चित है।
ट्रायफ़ोन - तीन स्वरों का क्रम। ट्राइफ़ोन प्राकृतिक भाषा प्रसंस्करण के मॉडल में उपयोगी होते हैं जहां उनका उपयोग विभिन्न संदर्भों को स्थापित करने के लिए किया जाता है जिसमें एक विशेष प्राकृतिक भाषा में एक फ़ोनेमे हो सकता है।

एनएलपी की प्रक्रियाएं[संपादित करें]

अनुप्रयोग[संपादित करें]

Automated essay scoring (AES) – the use of specialized computer programs to assign grades to essays written in an educational setting. It is a method of educational assessment and an application of natural language processing. Its objective is to classify a large set of textual entities into a small number of discrete categories, corresponding to the possible grades—for example, the numbers 1 to 6. Therefore, it can be considered a problem of statistical classification.
Automatic image annotation – process by which a computer system automatically assigns textual metadata in the form of captioning or keywords to a digital image. The annotations are used in image retrieval systems to organize and locate images of interest from a database.
Automatic summarization – process of reducing a text document with a computer program in order to create a summary that retains the most important points of the original document. Often used to provide summaries of text of a known type, such as articles in the financial section of a newspaper.
- Types
  - Keyphrase extraction –
  - Document summarization –
    - Multi-document summarization –
- Methods and techniques
  - Extraction-based summarization –
  - Abstraction-based summarization –
  - Maximum entropy-based summarization –
  - Sentence extraction –
  - Aided summarization –
    - Human aided machine summarization (HAMS) –
    - Machine aided human summarization (MAHS) –
Automatic taxonomy induction – automated construction of tree structures from a corpus. This may be applied to building taxonomical classification systems for reading by end users, such as web directories or subject outlines.
Coreference resolution – in order to derive the correct interpretation of text, or even to estimate the relative importance of various mentioned subjects, pronouns and other referring expressions need to be connected to the right individuals or objects. Given a sentence or larger chunk of text, coreference resolution determines which words ("mentions") refer to which objects ("entities") included in the text.
- Anaphora resolution – concerned with matching up pronouns with the nouns or names that they refer to. For example, in a sentence such as "He entered John's house through the front door", "the front door" is a referring expression and the bridging relationship to be identified is the fact that the door being referred to is the front door of John's house (rather than of some other structure that might also be referred to).
Dialog system –
Foreign-language reading aid – computer program that assists a non-native language user to read properly in their target language. The proper reading means that the pronunciation should be correct and stress to different parts of the words should be proper.
Foreign language writing aid – computer program or any other instrument that assists a non-native language user (also referred to as a foreign language learner) in writing decently in their target language. Assistive operations can be classified into two categories: on-the-fly prompts and post-writing checks.
Grammar checking – the act of verifying the grammatical correctness of written text, especially if this act is performed by a computer program.
Information retrieval –
- Cross-language information retrieval –
Machine translation (MT) – aims to automatically translate text from one human language to another. This is one of the most difficult problems, and is a member of a class of problems colloquially termed "AI-complete", i.e. requiring all of the different types of knowledge that humans possess (grammar, semantics, facts about the real world, etc.) in order to solve properly.
- Classical approach of machine translation – rules-based machine translation.
- Computer-assisted translation –
  - Interactive machine translation –
  - Translation memory – database that stores so-called "segments", which can be sentences, paragraphs or sentence-like units (headings, titles or elements in a list) that have previously been translated, in order to aid human translators.
- Example-based machine translation –
- Rule-based machine translation –
Natural language programming – interpreting and compiling instructions communicated in natural language into computer instructions (machine code).
Natural language search –
Optical character recognition (OCR) – given an image representing printed text, determine the corresponding text.
Question answering – given a human-language question, determine its answer. Typical questions have a specific right answer (such as "What is the capital of Canada?"), but sometimes open-ended questions are also considered (such as "What is the meaning of life?").
- Open domain question answering –
Spam filtering –
Sentiment analysis – extracts subjective information usually from a set of documents, often using online reviews to determine "polarity" about specific objects. It is especially useful for identifying trends of public opinion in the social media, for the purpose of marketing.
Speech recognition – given a sound clip of a person or people speaking, determine the textual representation of the speech. This is the opposite of text to speech and is one of the extremely difficult problems colloquially termed "AI-complete" (see above). In natural speech there are hardly any pauses between successive words, and thus speech segmentation is a necessary subtask of speech recognition (see below). In most spoken languages, the sounds representing successive letters blend into each other in a process termed coarticulation, so the conversion of the analog signal to discrete characters can be a very difficult process.
Speech synthesis (Text-to-speech) –
Text-proofing –
Text simplification – automated editing a document to include fewer words, or use easier words, while retaining its underlying meaning and information.

घटक प्रक्रियाएं[संपादित करें]

प्राकृतिक भाषा समझ – पाठ के विखंडन को पहले-क्रम तर्क संरचनाओं जैसे अधिक औपचारिक अभ्यावेदन में परिवर्तित करता है जो कंप्यूटर प्रोग्रामों में हेरफेर करने के लिए आसान होते हैं। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान शामिल है, जो एक प्राकृतिक भाषा की अभिव्यक्ति से लिया जा सकता है जो आमतौर पर प्राकृतिक भाषाओं की अवधारणाओं की संगठित धारणाओं का रूप ले लेता है। भाषा मेटामॉडल और ऑन्थोलॉजी का परिचय और निर्माण कुशल लेकिन अनुभवजन्य समाधान हैं। बंद दुनिया धारणा (CWA) बनाम खुली दुनिया धारणा, या व्यक्तिपरक के रूप में निहित मान्यताओं के साथ भ्रम के बिना प्राकृतिक भाषाओं के शब्दार्थ का एक स्पष्ट औपचारिककरण । ^[4]
प्राकृतिक भाषा निर्माण – कंप्यूटर डेटाबेस से सूचना को पठनीय मानव भाषा में परिवर्तित करने का कार्य।

प्राकृतिक भाषा समझने के लिए आवश्यक प्रक्रियाएँ[संपादित करें]

प्राकृतिक भाषा उत्पादन की घटक प्रक्रियाएँ[संपादित करें]

एनएलपी सॉफ्टवेयर की समयरेखा[संपादित करें]

सामान्य प्राकृतिक भाषा प्रसंस्करण अवधारणाएं[संपादित करें]

ग्रन्थसूची[संपादित करें]

सन्दर्भ[संपादित करें]

↑ ACM (2006). "Computing Degrees & Careers". ACM. मूल से 17 जून 2011 को पुरालेखित. अभिगमन तिथि 2010-11-23.
↑ Laplante, Phillip (2007). What Every Engineer Should Know about Software Engineering. Boca Raton: CRC. आई॰ऍस॰बी॰ऍन॰ 978-0-8493-7228-5. अभिगमन तिथि 2011-01-21.
↑ Input device Computer Hope
↑ Yucong Duan, Christophe Cruz (2011), [http –//www.ijimt.org/abstract/100-E00187.htm Formalizing Semantic of Natural Language through Conceptualization from Existence]. International Journal of Innovation, Management and Technology(2011) 2 (1), pp. 37-42.

[1] ACM (2006). "Computing Degrees & Careers". ACM. मूल से 17 जून 2011 को पुरालेखित. अभिगमन तिथि 2010-11-23.

[2] Laplante, Phillip (2007). What Every Engineer Should Know about Software Engineering. Boca Raton: CRC. आई॰ऍस॰बी॰ऍन॰ 978-0-8493-7228-5. अभिगमन तिथि 2011-01-21.

[3] Input device Computer Hope

[4] Yucong Duan, Christophe Cruz (2011), [http –//www.ijimt.org/abstract/100-E00187.htm Formalizing Semantic of Natural Language through Conceptualization from Existence]. International Journal of Innovation, Management and Technology(2011) 2 (1), pp. 37-42.

[1]

[2]

[3]

[4]