जीपीटी-2
उत्पादक पूर्व-प्रशिक्षित ट्रांसफॉर्मर 2 ( जीपीटी-2 ) ओपन एआई द्वारा एक बड़ा भाषा मॉडल है और जीपीटी मॉडल की उनकी मूलभूत श्रृंखला में दूसरा है। GPT-2 को बुककॉर्पस पर पूर्व-प्रशिक्षित किया गया था, [1] विभिन्न शैलियों की 7,000 से अधिक अप्रकाशित फिक्शन पुस्तकों का डेटासेट, और 8 मिलियन वेब पेजों के डेटासेट पर प्रशिक्षित किया गया था। [2] इसे फरवरी 2019 में आंशिक रूप से जारी किया गया था, इसके बाद 5 नवंबर, 2019 को 1.5-बिलियन-पैरामीटर मॉडल की पूर्ण रिलीज हुई [3] [4] [5] [6] [7]
GPT-2 को GPT-1 [8] के "प्रत्यक्ष स्केल-अप" के रूप में बनाया गया था, जिसमें इसके पैरामीटर गिनती और इसके प्रशिक्षण डेटासेट के आकार दोनों में दस गुना वृद्धि हुई थी। [7] यह एक सामान्य-उद्देश्यीय शिक्षार्थी है और विभिन्न कार्यों को करने की इसकी क्षमता एक क्रम में अगले आइटम की सटीक भविष्यवाणी करने की इसकी सामान्य क्षमता का परिणाम थी, [2] [9] जिसने इसे ग्रंथों का अनुवाद करने, किसी विषय के बारे में सवालों के जवाब देने में सक्षम बनाया। एक पाठ से, एक बड़े पाठ से अनुच्छेदों को सारांशित करें, [9] और कभी-कभी मनुष्यों से अप्रभेद्य स्तर पर पाठ आउटपुट उत्पन्न करें, [10] हालांकि लंबे अनुच्छेद उत्पन्न करते समय यह दोहराव या निरर्थक हो सकता है। [11] इसका स्थान GPT-3 और GPT-4 मॉडल ने ले लिया, जो अब खुला स्रोत नहीं हैं।
GPT-2 में, अपने पूर्ववर्ती GPT-1 और उसके उत्तराधिकारियों जीपीटी-3 और जीपीटी-4 की तरह, एक उत्पादक पूर्व-प्रशिक्षित ट्रांसफॉर्मर वास्तुकला है, जो एक गहरे तंत्रिका नेटवर्क को लागू करता है, विशेष रूप से एक ट्रांसफार्मर मॉडल, [8] जो पुराने के बजाय ध्यान का उपयोग करता है पुनरावृत्ति- और कनवल्शन-आधारित आर्किटेक्चर। [12] [13] ध्यान तंत्र मॉडल को इनपुट टेक्स्ट के उन खंडों पर चयनात्मक रूप से ध्यान केंद्रित करने की अनुमति देता है जो सबसे अधिक प्रासंगिक होने की भविष्यवाणी करते हैं। [14] [15] यह मॉडल बहुत अधिक समानांतरीकरण की अनुमति देता है, और RNN/CNN/LSTM-आधारित मॉडल के लिए पिछले बेंचमार्क से बेहतर प्रदर्शन करता है। [8]
- ↑ Zhu, Yukun; Kiros, Ryan (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". आर्काइव:1506.06724 [cs.CV].Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015).
- 1 2 Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). "Language models are unsupervised multitask learners" (PDF). 1 (8). मूल से (PDF) से 6 February 2021 को पुरालेखित।. अभिगमन तिथि: 19 December 2020.
{{cite journal}}: Cite journal requires|journal=(help)Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). - ↑ Vincent, James (7 November 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge. मूल से से 11 June 2020 को पुरालेखित।. अभिगमन तिथि: 19 December 2020.Vincent, James (7 November 2019).
- ↑ "GPT-2: 1.5B Release". OpenAI (अंग्रेज़ी भाषा में). 2019-11-05. मूल से से 2019-11-14 को पुरालेखित।. अभिगमन तिथि: 2019-11-14."GPT-2: 1.5B Release".
- ↑ Piper, Kelsey (15 May 2019). "A poetry-writing AI has just been unveiled. It's ... pretty good". Vox. मूल से से 7 November 2020 को पुरालेखित।. अभिगमन तिथि: 19 December 2020.Piper, Kelsey (15 May 2019).
- ↑ Johnson, Khari (20 August 2019). "OpenAI releases curtailed version of GPT-2 language model". VentureBeat. मूल से से 18 December 2020 को पुरालेखित।. अभिगमन तिथि: 19 December 2020.Johnson, Khari (20 August 2019).
- 1 2 "Better Language Models and Their Implications". OpenAI. 14 February 2019. मूल से से 19 December 2020 को पुरालेखित।. अभिगमन तिथि: 19 December 2020."Better Language Models and Their Implications". सन्दर्भ त्रुटि:
<ref>अमान्य टैग है; "openai" नाम कई बार विभिन्न सामग्रियों में परिभाषित हो चुका है - 1 2 3 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. मूल से (PDF) से 26 January 2021 को पुरालेखित।. अभिगमन तिथि: 23 January 2021.
- 1 2 Hegde, Chaitra; Patil, Shrikumar (9 June 2020). "Unsupervised Paraphrase Generation using Pre-trained Language Models". आर्काइव:2006.05477 [cs.CL].Hegde, Chaitra; Patil, Shrikumar (9 June 2020).
- ↑ Kaiser, Caleb (31 January 2020). "Too big to deploy: How GPT-2 is breaking servers". Towards Data Science. मूल से से 15 February 2020 को पुरालेखित।. अभिगमन तिथि: 27 February 2021.Kaiser, Caleb (31 January 2020).
- ↑ Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. मूल से से 14 February 2019 को पुरालेखित।. अभिगमन तिथि: 19 December 2020.Hern, Alex (14 February 2019).
- ↑ Polosukhin, Illia; Kaiser, Lukasz (2017-06-12). "Attention Is All You Need". आर्काइव:1706.03762 [cs.CL].
- ↑ Olah, Chris; Carter, Shan (8 September 2016). "Attention and Augmented Recurrent Neural Networks". Distill. 1 (9). डीओआई:10.23915/distill.00001. मूल से से 22 December 2020 को पुरालेखित।. अभिगमन तिथि: 22 January 2021.
- ↑ Bahdanau, Dzmitry; Cho, Kyunghyun (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". आर्काइव:1409.0473 [cs.CL].Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014).
- ↑ Luong, Minh-Thang; Pham, Hieu (17 August 2015). "Effective Approaches to Attention-based Neural Machine Translation". आर्काइव:1508.04025 [cs.CL].Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015).