GPT的原理及ChatGPT的技術(shù)架構(gòu)解析

上傳人：學(xué)*** IP屬地：廣東上傳時(shí)間：2023-09-20 格式：DOCX 頁數(shù)：7 大?。?7.23KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

WordChatGPT/GPT的原理及ChatGPT的技術(shù)架構(gòu)解析每一代GPT模型的參數(shù)量都爆炸式增長，堪稱“越大越好”。2021年2月發(fā)布的GPT-2參數(shù)量為15億，而2021年5月的GPT-3，參數(shù)量達(dá)到了1750億。

還是有很多讀者對于ChatGPT充滿期待（幻想？夢想），今天給大家分享技術(shù)層面的（拆解），讀完之后是否是會(huì)理性一點(diǎn)呢？enjoy～

文末（推薦）幾篇直接采訪ChatGPT創(chuàng)始人視角的文章，共賞enjoy～

去年12月1日，Open（AI）推出（人工智能）聊天原型ChatGPT，再次賺足眼球，為AI界引發(fā)了類似AIGC讓藝術(shù)家失業(yè)的大討論。

ChatGPT是一種專注于對話生成的語言模型。它能夠根據(jù)用戶的文本輸入，產(chǎn)生相應(yīng)的（智能）回答。這個(gè)回答可以是簡短的詞語，也可以是長篇大論。其中GPT是Genera（ti）vePre-trainedTransformer（生成型預(yù)訓(xùn)練變換模型）的縮寫。通過學(xué)習(xí)大量現(xiàn)成文本和對話集合（例如Wiki），ChatGPT能夠像人類那樣即時(shí)對話，流暢的回答各種問題。（當(dāng)然回答速度比人還是慢一些）無論是英文還是其他語言（例如中文、韓語等），從回答歷史問題，到寫故事，甚至是撰寫商業(yè)計(jì)劃書和行業(yè)分析，“幾乎”無所不能。甚至有（程序員）貼出了ChatGPT進(jìn)行程序修改的對話。

ChatGPT和AIGC的聯(lián)合使用

ChatGPT也可以與其他AIGC模型聯(lián)合使用，獲得更加炫酷實(shí)用的功能。

例如上面通過對話生成客廳設(shè)計(jì)圖。這極大加強(qiáng)了AI應(yīng)用與客戶對話的能力，使我們看到了AI大規(guī)模落地的曙光。

一、ChatGPT的傳承與特點(diǎn)

▌1.1OpenAI家族

我們首先了解下OpenAI是哪路大神。OpenAI總部位于舊金山，由（特斯拉）的馬斯克、SamAltman及其他投資者在2021年共同創(chuàng)立，目標(biāo)是開發(fā)造福全人類的（AI技術(shù)）。而馬斯克則在2021年時(shí)因公司發(fā)展方向分歧而離開。此前，OpenAI因推出GPT系列自然語言處理模型而聞名。從2021年起，OpenAI就開始發(fā)布生成式預(yù)訓(xùn)練語言模型GPT（GenerativePre-trainedTransformer），可用于生成文章、代碼、機(jī)器翻譯、問答等各類內(nèi)容。每一代GPT模型的參數(shù)量都爆炸式增長，堪稱“越大越好”。2021年2月發(fā)布的GPT-2參數(shù)量為15億，而2021年5月的GPT-3，參數(shù)量達(dá)到了1750億。

GPT家族主要模型對比

▌1.2ChatGPT的主要特點(diǎn)

ChatGPT是基于GPT-3.5（GenerativePre-trainedTransformer3.5）架構(gòu)開發(fā)的對話AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演練，或用于收集大量對話數(shù)據(jù)。

ChatGPT的主要特點(diǎn)

OpenAI使用RLHF（ReinforcementLearningfromHumanFeedbac，人類反饋強(qiáng)化學(xué)習(xí)）技術(shù)對ChatGPT進(jìn)行了訓(xùn)練，且加入了更多人工監(jiān)督進(jìn)行微調(diào)。此外，ChatGPT還具有以下特征：1）可以主動(dòng)承認(rèn)自身錯(cuò)誤。若用戶指出其錯(cuò)誤，模型會(huì)聽取意見并優(yōu)化答案。2）ChatGPT可以質(zhì)疑不正確的問題。例如被詢問“哥倫布2021年來到美國的情景”的問題時(shí)，（機(jī)器人）會(huì)說明哥倫布不屬于這一時(shí)代并調(diào)整輸出結(jié)果。3）ChatGPT可以承認(rèn)自身的無知，承認(rèn)對專業(yè)技術(shù)的不了解。4）支持連續(xù)多輪對話。與大家在生活中用到的各類（智能音箱）和“人工智障“不同，ChatGPT在對話過程中會(huì)記憶先前使用者的對話訊息，即上下文理解，以回答某些假設(shè)性的問題。ChatGPT可實(shí)現(xiàn)連續(xù)對話，極大的提升了對話交互模式下的用戶體驗(yàn)。對于準(zhǔn)確翻譯來說（尤其是中文與人名音譯），ChatGPT離完美還有一段距離，不過在文字流暢度以及辨別特定人名來說，與其他（網(wǎng)絡(luò)）翻譯工具相近。由于ChatGPT是一個(gè)大型語言模型，目前還并不具備網(wǎng)絡(luò)搜索功能，因此它只能基于2021年所擁有的數(shù)據(jù)集進(jìn)行回答。例如它不知道2022年世界杯的情況，也不會(huì)像蘋果的Siri那樣回答今天天氣如何、或幫你搜索信息。如果ChatGPT能上網(wǎng)自己尋找學(xué)習(xí)語料和搜索知識(shí)，估計(jì)又會(huì)有更大的突破。即便學(xué)習(xí)的知識(shí)有限，ChatGPT還是能回答腦洞大開的人類的許多奇葩問題。為了避免ChatGPT染上惡習(xí)，ChatGPT通過（算法）屏蔽，減少有害和欺騙性的訓(xùn)練輸入。

查詢通過適度A（PI）進(jìn)行過濾，并駁回潛在的種族主義或性別歧視提示。

二、ChatGPT/GPT的原理

▌2.1NLP

NLP/NLU領(lǐng)域已知局限包括對重復(fù)文本、對高度專業(yè)的主題的誤解，以及對上下文短語的誤解。對于人類或AI，通常需接受多年的訓(xùn)練才能正常對話。NLP類模型不僅要理解單詞的含義，還要理解如何造句和給出上下文有意義的回答，甚至使用合適的俚語和專業(yè)詞匯。

NLP技術(shù)的應(yīng)用領(lǐng)域本質(zhì)上，作為ChatGPT基礎(chǔ)的GPT-3或GPT-3.5是一個(gè)超大的統(tǒng)計(jì)語言模型或順序文本預(yù)測模型。

▌2.2GPTv.s.BERT

與BERT模型類似，ChatGPT或GPT-3.5都是根據(jù)輸入語句，根據(jù)語言/語料概率來自動(dòng)生成回答的每一個(gè)字（詞語）。從數(shù)學(xué)或從（機(jī)器學(xué)習(xí)）的角度來看，語言模型是對詞語序列的概率相關(guān)性分布的建模，即利用已經(jīng)說過的語句（語句可以視為數(shù)學(xué)中的向量）作為輸入條件，預(yù)測下一個(gè)時(shí)刻不同語句甚至語言集合出現(xiàn)的概率分布。ChatGPT使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，這種方法通過人類干預(yù)來增強(qiáng)機(jī)器學(xué)習(xí)

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

GPT的原理及ChatGPT的技術(shù)架構(gòu)解析

文檔簡介

溫馨提示

最新文檔

評(píng)論

GPT的原理及ChatGPT的技術(shù)架構(gòu)解析

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔