GPT4引領認知革命Deep Speed加速行業(yè)發(fā)展_第1頁
GPT4引領認知革命Deep Speed加速行業(yè)發(fā)展_第2頁
GPT4引領認知革命Deep Speed加速行業(yè)發(fā)展_第3頁
GPT4引領認知革命Deep Speed加速行業(yè)發(fā)展_第4頁
GPT4引領認知革命Deep Speed加速行業(yè)發(fā)展_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SECTION目錄C

o

n

t

e

n

t一、GPT-4:多模態(tài)、高認知、更安全二、Deep

Speed:更快速、更經濟、更普及三、投資建議四、風險提示1.1 GPT-4:多模態(tài)、高認知、更安全深耕AIGC領域,AI滲透全方面、各領域。OPENAI致力于用AI改變工作和創(chuàng)意,除ChatGPT的語言模型外,還通過API平臺向開發(fā)者提供最新模型和指南,不斷提高應用性能和用戶活躍度。GPT-4是大型多模態(tài)模型。相較于只能接受文字/代碼輸入的GPT-3.5,GPT-4接受圖片+文字的多模態(tài)輸入+高認知的結合,并反饋文字輸出。GPT-4是OpenAI新一代自然語言處理模型,繼承了GPT-3.5的優(yōu)點的同時改進了模型結構、訓練數據量和算法優(yōu)化,應用范圍跨越數學、編碼、視覺、醫(yī)學、法律、心理學等領域,GPT-4模型多領域的廣泛運用和超高任務表現力接近甚至超越人類水平,因此GPT-4是AGI的開創(chuàng)性研究,也是邁向AGI的重要一步。

圖1

ChatGPT3.5與4的主要區(qū)別 資料來源:

信息元公眾號,

上海證券研究所ChatGPT4和3.5的主要區(qū)別ChatGPT-3.5ChatGPT-4.01打字速度慢、高峰期更慢普遍說4.0更慢,但實際用起來差別不大2掉線頻率基本上每隔幾分鐘不用就會出現紅框、掉線掉線后需要刷新網頁基本不掉線3分段生成能力文本過長的時候,生成幾百字就自動停止了這時候回復:“繼續(xù)”,3.5就可以繼續(xù)生成,但3.5的生成往往不夠連貫4.0基本是完美的連貫生成4使用頻率限制1小時100次提問,基本夠用,但是人多的時候,你即使用不到100次也會提示“當前提問人數太多,請一小時后再試”每3小時25次提問,不會受當前使用人數影響5回答質量和其他AI相比,chatgpt是公認的最強AI,基本能滿足我們的日常工作需要。但是和4.0相比,差距還是有的,目測能力值相當于4.0的70%吧全球最頂尖的AI,沒有之一。能解決的問題種類比3.5多一些,同一個問題,4.0的回復會更好一些。尤其是考試做題能力、邏輯推理能力、角色扮演能力更強66文字限制最多回復3000字,如果你要求回復4000字,它會說“超過限制”,這時候就得分段提問最多回復25000字7有害信息如果提問醫(yī)療建議、自我傷害、違反道德的問題,3.5有時會如實作答4.0拒絕回答有害信息的概率更高,不被允許的回答4.0則會直接拒絕8二次開發(fā)能力對于想利用ChatGPT來進行二次開發(fā)的程序員、運營者來說,3.5有很多不支持,以及調用接口次數限制支持更多次數的api調用,支持更多的調用場景9圖片能力無支持圖像輸入、分析圖像(例如拍照幫你做題)。支持圖片輸出,但是不是自己生成的是網絡上有的圖10聯(lián)網能力無,訓練數據庫到2021年無,訓練數據庫到2021年9月11防止被誘導一般更難被誘導,拒絕被訓練成為壞壞的AI12連續(xù)對話能力能記住大約相當于8000個詞之前的指令,但是再多,它就會忘記之前的話了能記住相當于大約64000個單詞13理解不同語言水平支持24種語言26種語言,且語言水平普遍比3.5的更高,對中文的理解更是達到了和3.5對英語的理解一樣的水平根據OpenAI技術文檔給出的案例,GPT-4,對于圖片的理解能力極強。同時識別多張圖片內容。如圖2,將3張圖片拼湊成1張,GPT-4能夠同時識別多張圖片的內容。根據圖片進行算數運算。如圖3,將題目發(fā)給GPT-4,它能根據圖片信息進行算數運算。1.2

多模態(tài):接受圖片+文字形式輸入圖2

GPT-4可以同時識別多張圖片內容資料來源:《GPT-4

Technical

Report》,上海證券研究所圖3

GPT-4可以根據圖片信息進行推理運算資料來源:

《GPT-4

Technical

Report》,上海證券研究所用戶提問:

這張圖片有什么有趣的地方?分圖片描述。成功識別出上圖包含3張圖片,并分別描述了圖片內容。用戶提問:格魯吉亞和西亞平均每日肉類消費量的總和是多少?在回答之前,請?zhí)峁┲鸩酵评?。GPT

-4從圖示3處地名識別出用戶要求的2處,然后進行算數推演,

并得到正確答案。73)閱讀并總結論文。如圖4、圖5,將論文中部分頁面截圖給GPT-4,即可閱讀并總結主要內容并回答用戶追加的相關問題。4)解答高難度物理題目。如圖6,將école

Polytechnique(巴黎綜合理工大學)物理考試題目傳給GPT-4,并指定其解答某一問題,即可順利識別任務并正確解答。1.2

多模態(tài):接受圖片+文字形式輸入圖4

GPT-4可以閱讀和總結論文資料來源:

《GPT-4

Technical

Report》,上海證券研究所資料來源:

《GPT-4

Technical

Report》,上海證券研究所圖5

GPT-4可以根據論文內容回答相關問題圖6

GPT-4可以根據圖片信息進行推理運算資料來源:

《GPT-4

Technical

Report》,上海證券研究所用戶提問:請按步驟解答第1小問正確回答了é

c

o

l

ePolytechnique(巴黎綜合理工大學)物理考試中的題目,該考試主要面向數學和物理學科的頂尖本科和研究生。用戶提問:請總結以下InstructGPT論文部分的內容8GPT-4解釋了論文中某一圖表的推導步驟1.2

多模態(tài):接受圖片+文字形式輸入資料來源:差評公眾號,上海證券研究所資料來源:

《GPT-4

Technical

Report》,上海證券研究所資料來源:

《GPT-4

Technical

Report》,上海證券研究所代碼成功運行后的網頁截圖手寫網頁草稿GPT-

4

反饋相關代碼5)識別手寫網頁草圖,并根據草圖寫出網頁前端代碼。如圖7,將手寫

“My

Joke

Website”網頁樣式傳給GPT-4,GPT-4將反饋相應的前端代碼,該代碼不但可以順利運行,也完全符合手繪草稿要求的內容和樣式,具有極強的OCR(文字識別)能力。6)理解人類社會常識,可讀懂“網絡梗圖”,具有更明顯的“人性化”特征。如圖8,用戶提問“該圖片中有什么特別之處?”GPT-4回答“男人在移動的出租車車頂燙衣服”是不符合人類社會常識之處,展示出驚人的理解力。如圖9,用戶請GPT-4回答圖中的“?!?,GPT-4能夠將“雞塊”和“世界地圖”相聯(lián)系,展示出強大的聯(lián)想能力。圖7

GPT-4可以根據手繪圖片返回網站代碼 圖8

GPT-4可以識別圖片中不符合常理之處 圖9

GPT-4具有強聯(lián)想能力用戶:圖片中有什么特別之處?這張圖片的不尋常之處在于,男人在移動的出租車的車頂上燙衣服,燙衣板也固定在車頂上。用戶提問:請解釋下圖中的“?!?GPT-4解釋了圖中的“

?!?/p>

在于把雞塊擺放成世界地圖的樣子GPT-4具有更強的長文字處理能力。GPT-4的上下文上限約為2.5萬字,是Chat

GPT的近8倍,允許使用長格式內容創(chuàng)建、擴展對話及文檔搜索和分析等,能夠閱讀并記憶更多信息。GPT-4有更高的推理判斷能力。如圖11、圖12,向Chat

GPT和GPT-4提出相同問題“給定3個人物各自的空閑時間,求3人的共同空閑時段以安排會議。”ChatGPT給出了錯誤答案,而GPT-4成功完成這一要求。1.3

高認知:長文字處理+推理判斷能力圖10

GPT-4可處理的上下文上限為2.5萬字圖11

Chat

GPT回答錯誤圖12

GPT-4給出了正確答案Chat

GPT回答錯誤,Andrew下午四點沒有空閑時間。資料來源:OpenAI官網,上海證券研究所資料來源:OpenAI官網,上海證券研究所資料來源:

OpenAI官網,上海證券研究所10GPT-4給出了合理解答。1.3

高認知:長文字處理+推理判斷能力GPT-4具有更高的認知水平。根據OpenAI給出的專業(yè)測試結果,GPT-4在高等數學、法律、生物、化學、英語、高級微觀經濟等學科的考試成績遠超GPT-3.5。GPT-4在多領域的專業(yè)認知超過平均水準。在律師資格考試中,GPT-4的分數排名可以達到所有考生的前10

,而GPT-3.5只能排倒數10

,是GPT-4優(yōu)化幅度最大的科目。此外,在GRE、SAT、歷史、化學、生物、微觀經濟、宏觀經濟等科目中均超過至少80以上的考生。編程能力(Codeforces

Rating)反而是GPT-4最弱的科目,排名在倒數5

。圖13

GPT-4在專業(yè)測試中的表現 圖14

GPT-4在專業(yè)測試中的排名50

80

資料來源:

《GPT-4

Technical

Report》,上海證券研究所資料來源:

《GPT-4

Technical

Report》,上海證券研究所11GPT-4在評估語言模型的傳統(tǒng)基準上優(yōu)于其他模型。在語言模型基準測試中,分別將GPT-4、GPT-3.5與現有最佳性能語言模型(LM

SOTA)和現有最佳模型(SOTA)的性能通過小樣本(few-shot)測試進行比對,除DROP(閱讀理解基準測試)外,GPT-4在多語言學習、常識推理、語音識別、人類評估測試均超越現有最佳模型。GPT-4擁有卓越的外語能力,包括英語和其他小語種。如圖16,GPT-4在包括英語在內的27種語言測試中準確率均達到62

以上。通過與GPT-3.5、PaLM、Chinchilla模型英語水平進行對比,GPT-4以85.5的準確性遠超其他模型。1.3

高認知:長文字處理+推理判斷能力圖15

GPT-4顯著優(yōu)于現有模型圖16

GPT-4多語言能力更強除DROP(閱讀理解基準測試)外,

GPT-

4

全方位超越現有最佳模型?;谧匀徽Z言的常識推理測試資料來源:

《GPT-4

Technical

Report》,上海證券研究所資料來源:

《GPT-4

Technical

Report》,上海證券研究所12多語言學習語音識別人類評估1.3

高認知:長文字處理+推理判斷能力GPT-4的高認知特征具體體現在以下方面:高常識推理能力。分別問Chat

GPT和GPT-4“1+1什么情況等于3”時,Chat

GPT只會從數學計算的角度思考,但GPT-4可以從常識推理的角度思考。高可塑性。與Chat

GPT不同,GPT-4能夠以不同的語言風格與用戶交流。當被設定為某個角色時,GPT-4將不會聽從違背角色特征的指令。高解決問題能力。GPT-4能夠處理復雜問題,比如運用學習到的稅務知識幫助用戶解決稅務問題。結合稅法的高時效性與GPT-4的長文字處理能力,用戶可以將最新的稅法傳給GPT-4后要求其為自己解決稅務籌劃問題。圖17

分別問Chat

GPT和GPT-4“1+1什么情況等于3” 圖18

GPT-4具有較強的可塑性 圖19

GPT-4能夠處理復雜問題設置角色:假設GPT-4是蘇格拉底風格的導師資料來源:APPSO公眾號,上海證券研究所資料來源:差評公眾號,上海證券研究所資料來源:知識分子公眾號,上海證券研究所13設置角色:假設GPT-4是TaxGPT,運用內置的Tax知識幫助客戶解決稅務規(guī)劃問題GPT-4的可靠性大幅提升。相較于GPT-3.5(會隨著持續(xù)迭代而改善),GPT-4顯著減少了“虛構”現象。在內部設計的對抗性準確度評估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在歷史和數學科目上的表現尤為突出。GPT-4的分辨能力有顯著提升,但仍存在改進空間。相較于GPT-3.5,GPT-4在公開基準測試TruthfulQA(測試模型真實性性能好壞的一個測試集)中取得了進步,體現為較高的分辨事實能力。如圖21,在零樣本(0-shot)提示、小樣本(few-shot)提示和人類反饋強化學習(RLHF)微調后的表現中,GPT-4均明顯優(yōu)于GPT-3.5和Anthropic-LM,但GPT-4對TruthfulQA中的某些問題依然給出了錯誤的回答。1.4

更安全:分辨能力提高圖20

GPT-4在9個內部設計的對抗性準確度評估中的表現資料來源:《GPT-4

Technical

Report》,上海證券研究所圖21

GPT-4在TruthfulQA中的表現資料來源:《GPT-4

Technical

Report》,上海證券研究所141.4

更安全:分辨能力提高GPT-4優(yōu)化了安全性指標,能夠有效減少有害風險信息的提供。從響應率來看,GPT-4對違規(guī)內容(如制作炸彈的方法)請求的響應率相較于GPT-3.5降低了82%,對敏感內容請求(如醫(yī)療建議和自我傷害建議等)的響應率降低了29%,RLHF后的GPT-4的響應率則更低。從反饋“有害信息”的可能性來看,GPT-4在Real

Toxicity

Prompts

數據集的測試中僅有0.73%的概率生成“有害信息”,而GPT-3.5的概率為6.48%。圖22

敏感提示和禁用提示的錯誤行為比率資料來源:《GPT-4

Technical

Report》,上海證券研究所15結合對現有其他語言模型的研究,GPT-4仍存在信息迭代受限、準確性不足、反饋違規(guī)內容等不足之處。信息迭代受限。GPT-4信息更迭能力受限,且模型本身不具主動學習能力。根據GPT-4技術報告,由于模型于2021年9月預訓練完畢,GPT-4缺乏對此后事件的了解,且無法從經驗中學習新內容。ChatGPT通過植入插件系統(tǒng)形成了對世界新事物的“觸覺”。根據OpenAI官網介紹,Web瀏覽器插件將利用New

Bing的API,通過在互聯(lián)網上搜索相關信息,給出用戶具體答案。準確性不足。GPT-4的回答準確性相較于GPT-3.5有較大提升,但仍存在虛構傾向。在TruthfulQA測試中,GPT-4在某些問題上依然給出了錯誤的回答。隨著GPT-4使用范圍的擴大,虛構傾向不僅會誤導用戶,更會降低模型本身的整體可信度。存在道德風險。GPT-4可能根據用戶發(fā)出的指令產生各種有害內容,包括違反OpenAI政策以及對不利于社會發(fā)展的內容。如歧視性內容、誤導性內容、策劃襲擊或暴力活動內容等。其他風險。結合對現有其他語言模型的研究,GPT-4還可能存在如侵犯隱私權、危害網絡安全、出現不受控的新能力、系統(tǒng)交互等潛在風險。1.5 GPT-4仍存在不足之處16DeepSpeed是PyTorch的開源的兼容庫,在深度學習訓練和推理方面具有極高的速度和規(guī)模。DeepSpeed通過提高規(guī)模、速度、成本和可用性來改進大型模型訓練,可訓練超100億個參數的模型,實現了自然語言處理(NLP)和多模態(tài)(結合語言圖像、視頻和語音)等領域的突破。Deep

Speed

Chat基于微軟Deep

Speed深度學習優(yōu)化庫開發(fā)而成。Deep

Speed

Chat可在模型訓練中加入完整RLHF流程,用于RLHF訓練的低成本開源解決方案,使得復雜的RLHF訓練變得快速、經濟、輕松訪問,實現類似ChatGPT模型的端到端RLHF訓練,從而幫助我們生成自己的高質量ChatGPT模型。相較于ChatGPT,Deep

Speed

Chat普及RLHF(基于人工反饋機制的強化學習)訓練到AI社區(qū),削弱了ChatGPT的局限性。2.1

DeepSpeed

更高速度

更大規(guī)模圖23

DeepSpeed三大創(chuàng)新支柱——訓練、推理、壓縮資料來源:Deep

Speed,上海證券研究所圖24

DeepSpeed

Chat——便捷快速的類chatgpt模型資料來源:Github,上海證券研究所172021.102022.52022.92022.11182022.12DeepSpeed訓練了世界上最強大的語言模型:

威震天-圖靈NLG

530BDeepSpeed支持在AMDGPU上進行高效的大型模型訓練2022.7DeepSpeed幫助訓練了176億個參數的BLOOM模型DeepSpeed

Compression用于極端壓縮的可組合庫AzureDeepSpeed支持易于使用的高性能模型訓練ZeRO推理:大眾化大規(guī)模模型推理2022.10實現推理(

MII)深速模型Deep

Speed數據效率庫:實現更少的數據、更快的訓練和更高的模型質量通過DeepSpeed-MII實現亞秒級穩(wěn)定的擴散圖像生成2.2

不斷強化模型質量2.3

Deep

Speed

三大核心功能在微軟開源DeepSpeed

Chat之后,普通用戶可通過簡單的操作,即可訓練類ChatGPT等大語言模型,降低了ChatGPT類模型使用的門檻和成本,主要通過以下三個核心功能來達到:簡化ChatGPT類型模型的訓練并強化推理體驗:DeepSpeed-Chat僅需一個腳本即可實現多個訓練步驟,如使用Huggingface預訓練模型、使用DeepSpeed-RLHF系統(tǒng)運行InstructGPT訓練的所有三個步驟、生成自己的ChatGPT模型。此外,在模型訓練后可以利用推理API進行對話交互測試。DeepSpeed-RLHF模塊:DeepSpeed-RLHF模塊復刻InstructGPT論文中的訓練模式,并確保監(jiān)督微調

(SFT)、獎勵模型微調和人類反饋強化學習

(RLHF)的三個步驟與其一一對應,提供數據抽象和混合功能來支持開發(fā)者使用多個不同數據源進行訓練。DeepSpeed-RLHF系統(tǒng):DeepSpeed-RLHF系統(tǒng)將DeepSpeed的訓練和推理能力整合成統(tǒng)一混合引擎

(DeepSpeed-HE)

中,用于RLHF訓練。DeepSpeed

Hybrid

Engine是為RLHF訓練提供更高性能和效率的混合引擎,它結合了DeepSpeed的訓練引擎和推理引擎,在訓練和推理模式之間自由切換,為RLHF的訓練和推理提供了更快的速度,也優(yōu)化了內存和緩存數據。圖25

用于加速RLHF流程中最耗時部分的DeepSpeed混合引擎設計資料來源:Github,上海證券研究所192.4

DeepSpeed

Hybrid

Engine優(yōu)勢高效性和經濟性:DeepSpeed-HE提供高效的RLHF訓練模式,訓練速度較現有系統(tǒng)快15倍以上,使RLHF訓練快速且經濟實惠。卓越的擴展性:DeepSpeed-HE能支持訓練擁有數千億參數的模型,并在多節(jié)點多GPU系統(tǒng)上展現出其卓越的擴展性。因此,即使是擁有130億參數的模型,也僅需1.25小時即可完成訓練。對擁有1750億參數的龐大模型,使用DeepSpeed-HE進行訓練也只需不到一天的時間。普及RLHF訓練:DeepSpeed-HE憑借單個GPU即可支持訓練超1300億參數的模型,使無法多GPU系統(tǒng)的數據科學家既可以輕松創(chuàng)建輕量級的RLHF模型,又可以創(chuàng)建功能強大、能用于不同場景的的大型模型。圖26

單節(jié)點在Azure云上使用DeepSpeed-HE訓練不同模型的時長和相應花費資料來源:Github,上海證券研究所圖27

多節(jié)點在Azure云上使用DeepSpeed-HE訓練不同模型的時長和相應花費資料來源:Github,上海證券研究所圖28

DeepSpeed-HE支持單GPU大型模型資料來源:Github,上海證券研究所202.5

訓練步驟DeepSpeed

的訓練生成流程分為三個步驟:監(jiān)督微調(SFT)。預訓練語言模型通過監(jiān)督微調(SFT)進行微調,使用精選的人類回答來調整訓練的語言模型。獎勵微調模型。使用人類對同一查詢的多個答案打分的數據集,去訓練一個不同的(通常小于SFT)獎勵模型(RW)。RLHF訓練。使用近端策略優(yōu)化(Proximal

Policy

Optimization,PPO)算法,利用獎勵模型的獎勵反饋,進一步調整SFT模型。圖29

完整的RLHF訓練概述圖資料來源:Github,上海證券研究所212.6

訓練性能評估(1/2)與現有RLHF系統(tǒng)(如Colossal-AI或HuggingFace)相比,DeepSpeed-RLHF在系統(tǒng)性能和模型可擴展性表現出色,DeepSpeed-HE的吞吐量提高了一個數量級以上,能夠在相同的延遲預算下訓練更大的模型。圖30DeepSpeedChat與Colossal-AI和HuggingFace的RLHF吞吐量比較資料來源:Github,上海證券研究所1)吞吐量方面:單GPU上,DeepSpeed使RLHF訓練的吞吐量提升超10倍圖31

訓練第三步:最耗時的端到端訓練吞吐量比較資料來源:Github,上海證券研究所多GPU上比Colossal-AI

提速6

19倍,比HuggingFaceDDP提速1.4–

10.5

倍222.6

訓練性能評估(2/2)2)擴展性方面:Colossal-AI在單GPU和單A100

40G(服務器)節(jié)點上最大可分別運行1.3B和6.7B的模型;DeepSpeed-HE在同樣的硬件上可分別運行6.5B和50B模型,最大可達Colossal-AI的7.5倍。DeepSpeed-Chat的高效率主要是DeepSpeed-HE在RLFH生產階段的優(yōu)化加速。利用DeepSpeed的高性能推理內核,DeepSpeed-HE在生產階段實現比HuggingFace高9倍的吞吐量,比Colossal-AI高15倍的吞吐量。圖32

1.3B參數模型在RLHF訓練的時間分解資料來源:Github,上海證券研究所232.7

Deep

Speed

Chat開源意義24開源Deep

Speed

Chat,降低垂類場景大模型訓練門檻。ChatGPT只用了幾個月便席卷全球,成為史上用戶增長速度最快的消費級應用,推動世界的經濟發(fā)展和科技研發(fā)。但龐大的資金資源投入限制了很多企業(yè)和個人用戶的使用,微軟為解決這一限制,開源DeepSpeed

Chat模型。解決訓練類ChatGPT模型的局限性,做更快速、更經濟、更易于推廣的大模型。ChatGPT模型訓練基于InstructGPT論文中的RLHF方式,解決了現有深度學習系統(tǒng)在訓練類ChatGPT模型時存在的種種局限。Deep

Speed

Chat只需一個腳本即可實現預訓練模型、監(jiān)督微調、獎勵模型微調和RLHF的多個步驟訓練,簡化了ChatGPT類模型的訓練和強化推理,并將DeepSpeed的訓練能力和推理能力整合到一個混合引

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論