अवरुद्ध शब्द
दिखावट
अवरुद्ध शब्द (स्टॉप वर्ड्स), अवरोध सूची में रखे गये वे शब्द हैं, जिन्हें प्राकृतिक भाषा के टेक्स्ट के प्रसंस्करण से पहले या बाद में फ़िल्टर किया जाता है (अर्थात् रोक दिया जाता है)। [1] ऐसी बात नहीं है कि सभी प्राकृतिक भाषा प्रसंस्करण उपकरणों द्वारा उपयोग किए जाने वाले अवरुद्ध शब्दों की कोई एकमात्र सूची है, न ही अवरुद्ध शब्दों की पहचान के लिए कोई नियम है जिस पर सब सहमत हों। कहीं कहीं 200 से 300 शब्दों की काफी बड़ी अवरुद्ध शब्दसूचियाँ प्रयुक्त होतीं हैं तो कहीं 7 से 12 शब्दों बहुत छोटी स्टॉप सूचियों का उपयोग किया जाता है।[2]
हिन्दी के अवरुद्ध शब्द मुख्यतः निम्नलिखित हैं:
- के , का , एक , में , की , है , यह , और , से , हैं , को , पर , इस , होता , कि , जो , कर , में , गया , करने , किया , लिये , अपने , ने , बनी , नहीं , तो , ही , या , एवं , दिया , हो , इसका , था , द्वारा , हुआ , तक , साथ , करना , वाले , बाद , लिए , आप , कुछ , सकते , किसी , ये , इसके , सबसे , इसमें , थे , दो , होने , वह , वे , करते , बहुत , कहा , वर्ग , कई , करें , होती , अपनी , उनके , थी , यदि , हुई , जा , ना , इसे , कहते , जब , होते , कोई , हुए , व , न , अभी , जैसे , सभी , करता , उनकी , तरह , उस , आदि , कुल , एस , रहा , इसकी , सकता , रहे , उनका , इसी , रखें , अपना , पे , उसके ।
संदर्भ
[संपादित करें]- ↑ Rajaraman, A.; Ullman, J. D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17. डीओआई:10.1017/CBO9781139058452.002. ISBN 9781139058452.
- ↑ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. p. 27.
{{cite book}}
: CS1 maint: multiple names: authors list (link)