




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。1計(jì)算機(jī)華泰研究GPT-4:多模態(tài)確認(rèn),在專業(yè)和學(xué)術(shù)上表現(xiàn)亮眼北京時(shí)間3月15日GPT-4正式發(fā)布,支持圖片、文字等多模態(tài)輸入,以及文本輸出。根據(jù)相關(guān)技術(shù)文檔,1)模型架構(gòu)(包括模型大小)、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)造、訓(xùn)練方法等細(xì)節(jié)未公布;2)GPT-4于2022年8月完搭建了開(kāi)源OpenAIEvals模型評(píng)估框架,支持現(xiàn)有準(zhǔn)則和自定義準(zhǔn)則。4)GPT-4API已開(kāi)放等待列表(waitlist價(jià)格提升明顯。實(shí)驗(yàn)結(jié)果表明,GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平。技術(shù)拆解:構(gòu)建深度學(xué)習(xí)堆棧,新增獎(jiǎng)勵(lì)訓(xùn)練模型GPT-4項(xiàng)目重點(diǎn)之一是構(gòu)建大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧。堆棧(stack)能夠通過(guò)評(píng)估小計(jì)算量模型的性能,準(zhǔn)確預(yù)測(cè)大計(jì)算量模型的性能,減少訓(xùn)練成本。訓(xùn)練方法上,預(yù)訓(xùn)練之后,GPT-4采用了與InstructGPT同樣的方法進(jìn)行基于人類反饋的強(qiáng)化學(xué)習(xí),并添加了基于規(guī)則的獎(jiǎng)勵(lì)模型來(lái)進(jìn)一步引導(dǎo)模型產(chǎn)生人類預(yù)期的結(jié)果。多模態(tài)輸入上,支持圖片和文本的多模態(tài)輸入,但是,OpenAI未在技術(shù)文檔中給出圖片模態(tài)的相關(guān)技術(shù)細(xì)節(jié)。安全性討論:引入專家提高模型安全性和一致性O(shè)penAI在技術(shù)文檔中耗費(fèi)大量篇幅討論模型安全性問(wèn)題。從目前結(jié)果看,GPT-4仍然存在“幻覺(jué)”和推理錯(cuò)誤,并在模型校準(zhǔn)上表現(xiàn)不佳。為了進(jìn)一步提高模型安全性,OpenAI聘請(qǐng)了來(lái)自AI對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)和國(guó)際安全等領(lǐng)域的50多名專家對(duì)模型進(jìn)行對(duì)抗性測(cè)試,涉及幻覺(jué)、有害對(duì)模型安全性的關(guān)注,或是為未來(lái)大規(guī)模商業(yè)化應(yīng)用做鋪墊。模型能力提升,應(yīng)用或進(jìn)一步升級(jí)GPT4相比GPT3.5在多模態(tài)、推理能力、支持文本長(zhǎng)度方面有了較明顯的提升,有望推動(dòng)應(yīng)用進(jìn)一步升級(jí)。對(duì)多模態(tài)的支持有望加速PDF、圖像等領(lǐng)域的生產(chǎn)力應(yīng)用升級(jí),或?qū)⑼苿?dòng)生產(chǎn)力應(yīng)用效率的進(jìn)一步提升。相關(guān)公司包括:萬(wàn)興科技、福昕軟件、金山辦公。更強(qiáng)的推理能力與語(yǔ)言理解能力有助于進(jìn)一步優(yōu)化服務(wù)型應(yīng)用的使用效果,包含垂類信息的搜索引擎、客服等產(chǎn)品的功能有望進(jìn)一步升級(jí)。相關(guān)公司包括:三六零、同花順。風(fēng)險(xiǎn)提示:宏觀經(jīng)濟(jì)波動(dòng),技術(shù)進(jìn)步不及預(yù)期。本報(bào)告內(nèi)容均基于客觀信息整理,不構(gòu)成投資建議。計(jì)算機(jī)增持(維持)研究員SACNo.S0570519080006SFCNo.BQZ938聯(lián)系人SACNo.S0570121070173聯(lián)系人SACNo.S0570122080053xiechunsheng@+(86)2129872036penggang@+(86)2128972228yuanzeshi@+(86)2128972228行業(yè)走勢(shì)圖計(jì)算機(jī)滬深300(%)(3)(14)(25)Mar-22Jul-22Nov-22Mar-23資料來(lái)源:Wind,華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。2GPT-4:多模態(tài)確認(rèn),在專業(yè)和學(xué)術(shù)上表現(xiàn)亮眼 3GPT-4:支持多模態(tài)輸入,安全問(wèn)題或成為L(zhǎng)LM關(guān)注焦點(diǎn) 3能力測(cè)試:在專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平 4技術(shù)拆解:構(gòu)建深度學(xué)習(xí)堆棧,新增獎(jiǎng)勵(lì)訓(xùn)練模型 8項(xiàng)目重點(diǎn):構(gòu)建大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧 8訓(xùn)練方法:在InstructGPT方法基礎(chǔ)上增加新的獎(jiǎng)勵(lì)模型 9多模態(tài):支持圖片輸入,未提供具體算法 10安全性討論:引入專家提高模型安全性和一致性 12局限性:仍存在推理錯(cuò)誤與校準(zhǔn)下降等問(wèn)題 12風(fēng)險(xiǎn)與改進(jìn):聘請(qǐng)專家進(jìn)行對(duì)抗性測(cè)試 13模型能力進(jìn)一步提升,應(yīng)用有望進(jìn)一步升級(jí) 15風(fēng)險(xiǎn)提示 免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。3GPT-4支持多模態(tài)輸入,安全問(wèn)題或成關(guān)注焦點(diǎn)。北京時(shí)間3月15日凌晨,OpenAI召開(kāi)發(fā)布會(huì),正式宣布GPT模型家族中最新的大型語(yǔ)言模型(LLM)—GPT-4。GPT-4可以接受圖像和文本輸入并產(chǎn)生文本輸出。同時(shí),OpenAI發(fā)布了GPT-4相關(guān)技術(shù)文檔。從技術(shù)文檔結(jié)構(gòu)看,OpenAI并未對(duì)GPT-4模型本身做過(guò)多介紹,而是將大量篇幅留給模型安全性相關(guān)討論。我們認(rèn)為,在LLM走向大規(guī)模應(yīng)用的過(guò)程中,隨著模型規(guī)模和能力的提升,將暴露出更多安全方面的問(wèn)題,或?qū)⒊蔀槲磥?lái)LLM的重要關(guān)注點(diǎn)。23-38各類考試題的來(lái)源和設(shè)置,RLHF對(duì)模型的影資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究年8月完成訓(xùn)練,此后,OpenAI一直在評(píng)估、對(duì)抗性測(cè)試并迭代和改進(jìn)模型,并提出各種系統(tǒng)級(jí)安全緩解措施。此外,OpenAI在GPT-4文檔中明確提出,考慮到競(jìng)爭(zhēng)格局和大型模型(如GPT-4)的安全影響,本文檔沒(méi)有包含有關(guān)架構(gòu)(包括模型大小)、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)造、訓(xùn)練方法或類似內(nèi)容的進(jìn)一步細(xì)節(jié)。文檔明確提供的內(nèi)容包括:1)GPT-4是一個(gè)基于transformer的預(yù)訓(xùn)練模型,用于預(yù)測(cè)文字的下一個(gè)token;2)使用公開(kāi)可用數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))和第三方提供商授權(quán)的數(shù)據(jù);3)使用來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)對(duì)模型進(jìn)行微調(diào)。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。4資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI搭建了開(kāi)源OpenAIEvals模型評(píng)估框架。OpenAIEvals模型評(píng)估框架(/openai/evals)用于創(chuàng)建和運(yùn)行各類評(píng)估準(zhǔn)則(benchmarks支持用戶自定義評(píng)估邏輯。目前,OpenAIEvals與現(xiàn)有的基準(zhǔn)測(cè)試兼容,并可用于跟蹤部署中的模型性能。未來(lái),OpenAI計(jì)劃逐步增加測(cè)試基準(zhǔn)的多樣性,以代表更廣泛的故障模式和更難的任務(wù)集。GPT-4API已開(kāi)放等待列表(waitlistAPI價(jià)格提升明顯。當(dāng)獲得訪問(wèn)權(quán)限后,即可以對(duì)GPT-4模型進(jìn)行純文本請(qǐng)求(圖像輸入仍然處于有限的測(cè)試階段OpenAI將自動(dòng)將模型更新為推薦的穩(wěn)定模型。此外,GPT-4提供兩個(gè)版本,GPT-4-8k和GPT-4-32k,前者支持的上下文長(zhǎng)度為8192個(gè)token,后者支持32768-context(約50頁(yè)文本,提供有限訪問(wèn))。GPT-4-8k定價(jià)為每1k提示token0.03美元,每1k完成token0.06美元。默認(rèn)速率限制為每分鐘40k個(gè)token,每分鐘200個(gè)請(qǐng)求;GPT-4-32k定價(jià)為每1k提示token0.06美元,每1k完成token0.12美元。(API價(jià)格網(wǎng)址/pricing)GPTGPT-4API價(jià)格GPTGPT-3.5API價(jià)格資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平。OpenAI在一系列不同的基準(zhǔn)上測(cè)試了GPT-4,包括最初為人類設(shè)計(jì)的模擬考試??荚囶}目包括多項(xiàng)選擇題和自由問(wèn)答題。OpenAI為每種考試形式設(shè)計(jì)了單獨(dú)的提示(prompt并且在需要的場(chǎng)合增加了圖像輸入。GPT-4并未專門針對(duì)這些考試科目進(jìn)行訓(xùn)練,但仍取得了優(yōu)秀的成績(jī),例如以大約前10%的成績(jī)通過(guò)模擬律師資格考試,而GPT-3.5在該考試中成績(jī)?yōu)楹?0%。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。5資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在考試中展現(xiàn)的能力未受到RLHF的顯著影響?;谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)是InstructGPT中引入的方法,通過(guò)獎(jiǎng)勵(lì)的形式讓模型輸出向人類希望的方向發(fā)展。為了測(cè)試RLHF對(duì)模型能力的影響,OpenAI在GPT-4基礎(chǔ)模型和RLHF后的GPT-4模型上運(yùn)行了考試基準(zhǔn)測(cè)試中的多項(xiàng)選擇題部分。在所有考試中,基礎(chǔ)模型的平均分為73.7%,而RLHF模型的平均分為74.0%,這表明經(jīng)過(guò)RLHF后并沒(méi)有顯著改變基礎(chǔ)模型的能力。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。6GPT-4在評(píng)估語(yǔ)言模型的傳統(tǒng)基準(zhǔn)上同樣效果卓越。在評(píng)估GPT-4在語(yǔ)言模型的測(cè)試基準(zhǔn)時(shí),對(duì)所有模型使用了few-shot。測(cè)試基準(zhǔn)涵蓋問(wèn)題多選、常識(shí)推理、代碼、閱讀理解、數(shù)學(xué)問(wèn)題等。結(jié)果表明,GPT-4大大優(yōu)于GPT-3.5,以及以前最先進(jìn)的(SOTA)模型,甚至超過(guò)了某些在特定測(cè)試標(biāo)準(zhǔn)上訓(xùn)練過(guò)的模型。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在大多數(shù)語(yǔ)言上的結(jié)果都優(yōu)于GPT3.5和現(xiàn)有語(yǔ)言模型。現(xiàn)有的多數(shù)機(jī)器學(xué)習(xí)測(cè)試基準(zhǔn)都是基于英語(yǔ)編寫的。為了測(cè)試GPT-4在其他語(yǔ)言中的表現(xiàn),OpenAI使用AzureTranslate將MMLU基準(zhǔn)測(cè)試(涵蓋57個(gè)主題的多項(xiàng)選擇問(wèn)題)翻譯成各種語(yǔ)言。結(jié)果表明,GPT-4在大多數(shù)語(yǔ)言上的結(jié)果都優(yōu)于GPT3.5和現(xiàn)有語(yǔ)言模型的英語(yǔ)語(yǔ)言性能,包括全球使用人數(shù)較低的語(yǔ)言,如拉脫維亞語(yǔ)、威爾士語(yǔ)和斯瓦希里語(yǔ)。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。7資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在跟蹤用戶意圖的能力方面提高顯著。據(jù)OpenAI數(shù)據(jù),OpenAI收集了通過(guò)ChatGPT和OpenAIAPI提交的用戶提示,過(guò)濾掉不允許、敏感內(nèi)容或過(guò)于簡(jiǎn)單的提示,并將這些提示和響應(yīng)發(fā)送給人工標(biāo)注員。根據(jù)指示,標(biāo)注人員在不知道答案來(lái)源于哪種模型的情況下,判斷給出的提示是否符合用戶的要求。在5214個(gè)提示數(shù)據(jù)集中,GPT-4生成的響應(yīng)在70.2%的提示上優(yōu)于GPT-3.5生成的響應(yīng)。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。8GPT-4項(xiàng)目的一大重點(diǎn)是構(gòu)建大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧。簡(jiǎn)而言之,該堆棧(stack,論文中也叫基礎(chǔ)設(shè)施和優(yōu)化方法)能夠通過(guò)評(píng)估小計(jì)算量模型的性能,準(zhǔn)確預(yù)測(cè)大計(jì)算量模型的性能,減少訓(xùn)練成本。以GPT-4為例,雖然官方未給出具體的模型參數(shù),但是指出對(duì)于GPT-4這樣的大型訓(xùn)練,進(jìn)行廣泛的特定于模型的調(diào)優(yōu)是不可行的。而大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧,能夠通過(guò)計(jì)算比GPT-4計(jì)算量少1000x-10000x(x代表倍)的模型性能,預(yù)測(cè)出“完全體”GPT-4的性能,實(shí)現(xiàn)在訓(xùn)練之前了解模型的功能,并及時(shí)改善關(guān)于對(duì)齊、安全性和部署的決策。該方法的理論依據(jù)是:經(jīng)過(guò)適當(dāng)訓(xùn)練的大型語(yǔ)言模型的最終損失,很好地近似于用于訓(xùn)練模型的計(jì)算量的冪律。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究除了預(yù)測(cè)最終損失,還可以使用其他可解釋的能力指標(biāo)進(jìn)行預(yù)測(cè)。其中一個(gè)指標(biāo)是HumanEval數(shù)據(jù)集的通過(guò)率。HumanEval數(shù)據(jù)集衡量的是合成不同復(fù)雜度的Python函數(shù)的能力。通過(guò)計(jì)算比GPT-4計(jì)算量少1000x模型在HumanEval數(shù)據(jù)集子集的通過(guò)率,成功預(yù)測(cè)了GPT-4在HumanEval數(shù)據(jù)集子集的通過(guò)率。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。9預(yù)訓(xùn)練之后,GPT-4采用了與InstructGPT同樣的方法進(jìn)行RLHF。OpenAI首先從人類標(biāo)注員處收集演示數(shù)據(jù)(給定一個(gè)輸入,演示模型應(yīng)該如何響應(yīng)并對(duì)模型的輸出數(shù)據(jù)進(jìn)行排名(給定一個(gè)輸入和幾個(gè)輸出,將輸出從最好到最差進(jìn)行排序)。然后執(zhí)行以下步驟:1)利用收集到的人工標(biāo)注演示數(shù)據(jù),使用監(jiān)督學(xué)習(xí)(SFT)來(lái)模擬演示中的行為以微調(diào)GPT-4;2)使用收集到的排名數(shù)據(jù)來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型(RM該模型預(yù)測(cè)標(biāo)注員對(duì)給定輸出的平均偏好;3)使用獎(jiǎng)勵(lì)模型和強(qiáng)化學(xué)習(xí)(特別是PPO算法優(yōu)化GPT-4SFT模型。收集描述性數(shù)據(jù),并訓(xùn)練一個(gè)有監(jiān)督模型從prompt數(shù)據(jù)庫(kù)中取樣,并得到數(shù)個(gè)模型的回答由人類訓(xùn)練師對(duì)回答進(jìn)行排序收集的數(shù)據(jù)用來(lái)訓(xùn)練我們的獎(jiǎng)勵(lì)模型并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)用PPO強(qiáng)化學(xué)習(xí)算法通過(guò)獎(jiǎng)勵(lì)模型優(yōu)化策略從prompt數(shù)據(jù)庫(kù)中取樣由人類訓(xùn)練師撰寫期望的輸出值收集的數(shù)據(jù)用來(lái)以監(jiān)督學(xué)習(xí)的方式微調(diào)GPT-3模型向一個(gè)6歲智力的模型解釋強(qiáng)化學(xué)習(xí)B回答B(yǎng)回答B(yǎng):“..”D回答D:“..”回答A:“..”C回答C:“..”從prompt數(shù)據(jù)庫(kù)中另外取樣Q示例:“寫一段關(guān)于..的故事”策略給出回答獎(jiǎng)勵(lì)模型對(duì)回答打分用獎(jiǎng)勵(lì)通過(guò)PPO算法優(yōu)化策略PPO示例:“很久以前……”RMrk對(duì)行為給出獎(jiǎng)勵(lì)與對(duì)行為給出獎(jiǎng)勵(lì)與懲罰……DD>C>A>BD>C>A>B資料來(lái)源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》、華泰研究基于規(guī)則的獎(jiǎng)勵(lì)模型以更細(xì)的粒度進(jìn)一步引導(dǎo)模型。RLHF微調(diào)后的模型仍然會(huì)不時(shí)出現(xiàn)人類不想看到的行為。因此,OpenAI在RLHF基礎(chǔ)上增加基于規(guī)則的獎(jiǎng)勵(lì)模型(RBRMs)。RBRM是一組zero-shot的GPT-4分類器(classifier)。分類器在RLHF微調(diào)期間針對(duì)正確行為(例如拒絕生成有害內(nèi)容或不拒絕無(wú)害請(qǐng)求向GPT-4策略模型提供額外的獎(jiǎng)勵(lì)信號(hào)。RBRM有三個(gè)輸入:提示(可選)、策略模型的輸出和人類編寫的用于如何評(píng)估輸出的規(guī)則。在安全相關(guān)的訓(xùn)練提示集上,獎(jiǎng)勵(lì)GPT-4拒絕有害內(nèi)容請(qǐng)求,例如非法建議;同樣獎(jiǎng)勵(lì)GPT-4沒(méi)有拒絕對(duì)安全和可回答問(wèn)題的請(qǐng)求。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。10GPT-4能夠?qū)崿F(xiàn)圖片和文本的多模態(tài)輸入。GPT-4接受由圖像和文本組成的提示(prompt,與純文本設(shè)置類似允許用戶指定任何視覺(jué)或語(yǔ)言任務(wù),同時(shí)輸出文本信息。此外,語(yǔ)言模型中的few-shot提示和思維鏈等,在GPT-4中同樣有效。但是,OpenAI未在技術(shù)文檔中給出如何實(shí)現(xiàn)圖片的輸入,以及如何對(duì)圖片進(jìn)一步處理以注入到模型中。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。11資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。12GPT-4仍存在“幻覺(jué)”和推理錯(cuò)誤?;糜X(jué)指的是產(chǎn)生與某些來(lái)源有關(guān)的無(wú)意義或不真實(shí)的內(nèi)容。但是,與GPT-3.5模型相比,GPT-4顯著減少了幻覺(jué),并在內(nèi)部的對(duì)抗性事實(shí)性評(píng)估中,在所有項(xiàng)的準(zhǔn)確率均分比最新的GPT-3.5高出19pct。與ChatGPT類似,GPT-4寫的訓(xùn)練數(shù)據(jù)均是2021年9月之前的,因此缺乏對(duì)該日期之后的知識(shí)的掌握,會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤,接受用戶的明顯錯(cuò)誤陳述,或在在生成的代碼中存在安全漏洞。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究RLHF顯著提高了GPT-4在TruthfulQA公共基準(zhǔn)測(cè)試上的表現(xiàn),但程度仍欠佳。TruthfulQA基準(zhǔn)測(cè)試了模型從對(duì)抗選擇的一組不正確的語(yǔ)句中分離事實(shí)的能力。GPT-4基本模型在TruthfulQA基準(zhǔn)上的表現(xiàn)略好于GPT-3.5。經(jīng)過(guò)RLHF訓(xùn)練后,GPT-4相比于同樣經(jīng)過(guò)RHLF的GPT-3.5-turbo在準(zhǔn)確率上領(lǐng)先超10pct。但是,即使經(jīng)過(guò)RLHF訓(xùn)練,GPT-4在TruthfulQA上的準(zhǔn)確率也只有60%,未達(dá)到更高水平。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。13訓(xùn)練后的GPT-4模型在模型校準(zhǔn)上出現(xiàn)性能下降。預(yù)訓(xùn)練的模型是高度校準(zhǔn)的,模型對(duì)答案的預(yù)測(cè)置信度通常與正確的概率相匹配。然而,在后訓(xùn)練(post-training)過(guò)程中,校準(zhǔn)情況發(fā)生顯著下降。OpenAI未給出具體原因。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI投入了大量的精力來(lái)提高GPT-4的安全性和一致性。GPT-4與較小的語(yǔ)言模型存在類似的風(fēng)險(xiǎn),包括生成有害的建議、有bug的代碼或不準(zhǔn)確的信息。然而,GPT-4更強(qiáng)大的功能可能會(huì)帶來(lái)新的風(fēng)險(xiǎn)面。為了了解這些風(fēng)險(xiǎn)的程度,OpenAI聘請(qǐng)了來(lái)自AI對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)和國(guó)際安全等領(lǐng)域的50多名專家對(duì)模型進(jìn)行對(duì)抗性測(cè)試。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI從11個(gè)方面對(duì)GPT-4風(fēng)險(xiǎn)進(jìn)行了一系列定性和定量評(píng)估。包括幻覺(jué)、有害內(nèi)容、虛假信息、武器擴(kuò)散、隱私、網(wǎng)絡(luò)安全等。通過(guò)評(píng)估,能夠進(jìn)一步了解GPT-4的能力、限制和風(fēng)險(xiǎn),并幫助提供解決方案、迭代測(cè)試和構(gòu)建模型的更安全版本等。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。14風(fēng)險(xiǎn)名稱(英文)風(fēng)險(xiǎn)名稱(中文)風(fēng)險(xiǎn)描述Hallucinations幻覺(jué)產(chǎn)生與某些來(lái)源有關(guān)的無(wú)意義或不真實(shí)的內(nèi)容Harmfulcontent有害內(nèi)容違反策略的內(nèi)容,或可能對(duì)個(gè)人或社會(huì)造成傷害的內(nèi)容Harmsofrepresentation,allocation,andqualityofservice表示、分配和服務(wù)質(zhì)量的危害性加強(qiáng)和重現(xiàn)特定的偏見(jiàn)和世界觀,包括對(duì)某些邊緣群體的有害刻板印象和貶損聯(lián)想Disinformationandinfluenceoperations虛假信息和影響操作生成逼真而有針對(duì)性的內(nèi)容,包括新聞文章、推文、對(duì)話和電子郵件;生成旨在誤導(dǎo)的內(nèi)容的風(fēng)險(xiǎn)Proliferationofconventionalandunconventionalweapons常規(guī)和非常規(guī)武器的擴(kuò)散某些LLM能力可能具有軍民兩用的潛力,這意味著該模型可用于“商業(yè)和軍事或擴(kuò)散應(yīng)用”Privacy隱私GPT-4從各種許可的、創(chuàng)建的和公開(kāi)可用的數(shù)據(jù)源中學(xué)習(xí),其中可能包括公開(kāi)可用的個(gè)人信息Cybersecurity網(wǎng)絡(luò)安全沒(méi)有改進(jìn)現(xiàn)有的偵察、漏洞利用和網(wǎng)絡(luò)導(dǎo)航工具,并且在復(fù)雜和高級(jí)活動(dòng)(如新型漏洞識(shí)別)方面不如現(xiàn)有工具有效Potentialforriskyemergentbehaviors潛在的危險(xiǎn)緊急行為創(chuàng)造和執(zhí)行長(zhǎng)期計(jì)劃的能力,積累權(quán)力和資源(“權(quán)力尋求”)的能力,以及表現(xiàn)出越來(lái)越“主觀”的行為等Economicimpacts經(jīng)濟(jì)影響GPT-4或后續(xù)模型可能會(huì)導(dǎo)致某些工作的自動(dòng)化。這可能導(dǎo)致勞動(dòng)力流失Acceleration加速影響AI過(guò)快發(fā)展導(dǎo)致安全標(biāo)準(zhǔn)的下降、不良規(guī)范的擴(kuò)散,加劇了與人工智能相關(guān)的社會(huì)風(fēng)險(xiǎn)Overreliance過(guò)度依賴當(dāng)用戶過(guò)度信任和依賴模型時(shí),就會(huì)出現(xiàn)過(guò)度依賴,這可能會(huì)導(dǎo)致未被注意到的錯(cuò)誤和不充分的監(jiān)督資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI還在模型層面對(duì)GPT-4進(jìn)行改進(jìn)。例如,在預(yù)訓(xùn)練階段,過(guò)濾了GPT-4數(shù)據(jù)集組合,減少不適當(dāng)?shù)奈谋緝?nèi)容數(shù)量;通過(guò)內(nèi)部訓(xùn)練的分類器和基于詞典的方法來(lái)識(shí)別被標(biāo)記為極有可能包含不適當(dāng)內(nèi)容的文件,并將其從預(yù)訓(xùn)練集中移除。此外,上述基于規(guī)則的獎(jiǎng)勵(lì)模型(RBRMs)引導(dǎo)了模型朝人類想要的方向改進(jìn)。與GPT-3.5相比,在敏感性問(wèn)題和不被允許的問(wèn)題上,GPT-4不正確的提示率大大下降。資料來(lái)源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。15支持多模態(tài),應(yīng)用范圍進(jìn)一步拓寬。GPT-4與僅能處理自然語(yǔ)言任務(wù)的GPT-3.5相比,它能夠同時(shí)處理圖像及文本輸入,并生成文本輸出。GPT-4可以完成一些傳統(tǒng)的視覺(jué)語(yǔ)言任務(wù),如圖像描述、生成字幕、圖像分類等。此外,GPT-4還具有較強(qiáng)的邏輯分析能力,可以對(duì)圖像中的內(nèi)容進(jìn)行合理的推測(cè),并給出用戶需要的答案?;谶@種能力,GPT-4可以完成一系列更為豐富和復(fù)雜的任務(wù),比如根據(jù)數(shù)據(jù)圖表回答定量問(wèn)題、分析圖像中主體的異常情況、依據(jù)上傳的PDF長(zhǎng)文檔總結(jié)摘要等,進(jìn)一步擴(kuò)展了語(yǔ)言模型的應(yīng)用場(chǎng)景。我們認(rèn)為多模態(tài)的實(shí)現(xiàn)有望加速PDF、圖像等領(lǐng)域的生產(chǎn)力應(yīng)用升級(jí),或?qū)⑼苿?dòng)生產(chǎn)力應(yīng)用效率的進(jìn)一步提升。資料來(lái)源:公司官網(wǎng)、華泰研究具備更強(qiáng)推理能力。GPT-4在處理復(fù)雜的文本任務(wù)時(shí)表現(xiàn)出了比GPT-3.5更強(qiáng)的優(yōu)勢(shì)。OpenAI團(tuán)隊(duì)分別對(duì)GPT-4和GPT-3.5在多個(gè)人類考試上進(jìn)行了測(cè)試。OpenAI團(tuán)隊(duì)并沒(méi)有針對(duì)這些考試專門訓(xùn)練GPT-4,并且在測(cè)試過(guò)程中,如果發(fā)現(xiàn)某個(gè)考試中有和訓(xùn)練數(shù)據(jù)重復(fù)的問(wèn)題,研究人員會(huì)剔除重復(fù)問(wèn)題并生成新的考試變體,再次對(duì)模型進(jìn)行測(cè)試,并取兩次考試中的最低分作為最終成績(jī)。結(jié)果顯示,在大多數(shù)考試中,尤其是與數(shù)學(xué)和推理相關(guān)的考試中,GPT-4相比于GPT-3.5有了顯著提升,在學(xué)術(shù)和專業(yè)測(cè)試中甚至能夠達(dá)到與人類相當(dāng)?shù)乃健?荚嘦niformBarExam考試簡(jiǎn)介是一種統(tǒng)一的律師資格考試,包括三個(gè)部分:GPT-4GPT-3.5分?jǐn)?shù)298/400Percentile~90th213分?jǐn)?shù)/400Percentile~10thLSAT多州隨筆考試(MEE)、多州實(shí)務(wù)考試(MPT)和多州法律考試(MBE)。法學(xué)院入學(xué)考試,包含閱讀理解、分析性推理、邏輯推理和寫作4部分。~88th~40thSATMath美國(guó)高考的數(shù)學(xué)部分,主要涉及三個(gè)領(lǐng)域:代數(shù)的核心、問(wèn)題解決和數(shù)據(jù)分析、高級(jí)數(shù)學(xué)。700/800~89th590/800~70thGRE-Quantitative美國(guó)研究生考試的數(shù)學(xué)部分,主要涉及四個(gè)領(lǐng)域:算術(shù)、代數(shù)、幾何和數(shù)據(jù)分析。/170~80th/170~25thGRE-Verbal美國(guó)研究生考試的語(yǔ)文部分,主要包括閱讀理解、文字補(bǔ)全、句子等價(jià)三種題型。/170~99th/170~63rdUSABOSemifinalExam2020是美國(guó)生物奧林匹克競(jìng)賽的半決賽考試,包含多項(xiàng)選擇題和自由回答題,主要考察生物學(xué)的理論知識(shí)和實(shí)驗(yàn)技能。87/15099th-100th43/15031st-33rd注:Percentile代表GPT-4得分超過(guò)的參與考試人數(shù)占總?cè)藬?shù)的百分比資料來(lái)源:《GPT-4TechnicalReport》,OpenAI、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。16資料來(lái)源:考試官網(wǎng)、華泰研究支持更長(zhǎng)文本交互,語(yǔ)言理解生成能力進(jìn)一步提升。GPT系列模型屬于自回歸語(yǔ)言模型,它的任務(wù)是根據(jù)前面的單詞預(yù)測(cè)下一個(gè)單詞。為了生成每個(gè)單詞,模型需要利用前面所有的單詞作為信息。據(jù)OpenAI官網(wǎng),GPT-3.5的輸入及輸出總長(zhǎng)度限制為4097個(gè)token。GPT-4支持最多32768個(gè)token的上下文對(duì)話,一方面可以讓模型捕捉到更多的信息,從而提高語(yǔ)言理解和生成的質(zhì)量和連貫性。另一方面更長(zhǎng)的輸入及輸出能夠支持更加復(fù)雜問(wèn)題的解決,如利用GPT-4輔助報(bào)稅,并得到詳細(xì)的推理過(guò)程,進(jìn)行跨文本處理任務(wù),幫助用戶總結(jié)兩篇長(zhǎng)文章之間的共同點(diǎn)與差異等。我們認(rèn)為更強(qiáng)的推理能力與語(yǔ)言理解能力有助于進(jìn)一步優(yōu)化服務(wù)型應(yīng)用的使用效果,包含垂類信息的搜索引擎、客服等產(chǎn)品的功能有望進(jìn)一步升級(jí)。輸入及輸出最大token數(shù)對(duì)應(yīng)詞數(shù)GPT-432,76822,938GPT-3.54,0972,868GPT-32,0491,434Codex8,0015,601注:對(duì)應(yīng)詞數(shù)按1token=0.7詞換算資料來(lái)源:OpenAI,華泰研究公司代碼公司簡(jiǎn)稱MSFTUS微軟GOOGLUS谷歌688095CH福昕軟件300624CH萬(wàn)興科技688111CH金山辦公300033CH同花順601360CH三六零未上市OpenAI資料來(lái)源:Bloomberg、華泰研究宏觀經(jīng)濟(jì)波動(dòng)。若宏觀經(jīng)濟(jì)波動(dòng),產(chǎn)業(yè)變革及新技術(shù)的落地節(jié)奏或?qū)⑹艿接绊?,宏觀經(jīng)濟(jì)波動(dòng)還可能對(duì)AI投入產(chǎn)生負(fù)面影響,從而導(dǎo)致整體行業(yè)增長(zhǎng)不及預(yù)期。技術(shù)進(jìn)步不及預(yù)期。若AI技術(shù)和大模型技術(shù)進(jìn)步不及預(yù)期,或?qū)?duì)相關(guān)的行業(yè)落地情況產(chǎn)生不利影響。本報(bào)告內(nèi)容均基于客觀信息整理,不構(gòu)成投資建議。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。17分析師聲明本人,謝春生,茲證明本報(bào)告所表達(dá)的觀點(diǎn)準(zhǔn)確地反映了分析師對(duì)標(biāo)的證券或發(fā)行人的個(gè)人意見(jiàn);彼以往、現(xiàn)在或未來(lái)并無(wú)就其研究報(bào)告所提供的具體建議或所表迖的意見(jiàn)直接或間接收取任何報(bào)酬。一般聲明及披露本報(bào)告由華泰證券股份有限公司(已具備中國(guó)證監(jiān)會(huì)批準(zhǔn)的證券投資咨詢業(yè)務(wù)資格,以下簡(jiǎn)稱“本公司”)制作。本報(bào)告所載資料是僅供接收人的嚴(yán)格保密資料。本報(bào)告僅供本公司及其客戶和其關(guān)聯(lián)機(jī)構(gòu)使用。本公司不因接收人收到本報(bào)告而視其為客戶。本報(bào)告基于本公司認(rèn)為可靠的、已公開(kāi)的信息編制,但本公司及其關(guān)聯(lián)機(jī)構(gòu)(以下統(tǒng)稱為“華泰”)對(duì)該等信息的準(zhǔn)確性及完整性不作任何保證。本報(bào)告所載的意見(jiàn)、評(píng)估及預(yù)測(cè)僅反映報(bào)告發(fā)布當(dāng)日的觀點(diǎn)和判斷。在不同時(shí)期,華泰可能會(huì)發(fā)出與本報(bào)告所載意見(jiàn)、評(píng)估及預(yù)測(cè)不一致的研究報(bào)告。同時(shí),本報(bào)告所指的證券或投資標(biāo)的的價(jià)格、價(jià)值及投資收入可能會(huì)波動(dòng)。以往表現(xiàn)并不能指引未來(lái),未來(lái)回報(bào)并不能得到保證,并存在損失本金的可能。華泰不保證本報(bào)告所含信息保持在最新?tīng)顟B(tài)。華泰對(duì)本報(bào)告所含信息可在不發(fā)出通知的情形下做出修改,投資者應(yīng)當(dāng)自行關(guān)注相應(yīng)的更新或修改。本公司不是FINRA的注冊(cè)會(huì)員,其研究分析師亦沒(méi)有注冊(cè)為FINRA的研究分析師/不具有FINRA分析師的注冊(cè)資華泰力求報(bào)告內(nèi)容客觀、公正,但本報(bào)告所載的觀點(diǎn)、結(jié)論和建議僅供參考,不構(gòu)成購(gòu)買或出售所述證券的要約或招攬。該等觀點(diǎn)、建議并未考慮到個(gè)別投資者的具體投資目的、財(cái)務(wù)狀況以及特定需求,在任何時(shí)候均不構(gòu)成對(duì)客戶私人投資建議。投資者應(yīng)當(dāng)充分考慮自身特定狀況,并完整理解和使用本報(bào)告內(nèi)容,不應(yīng)視本報(bào)告為做出投資決策的唯一因素。對(duì)依據(jù)或者使用本報(bào)告所造成的一切后果,華泰及作者均不承擔(dān)任何法律責(zé)任。任何形式的分享證券投資收益或者分擔(dān)證券投資損失的書面或口頭承諾均為無(wú)效。除非另行說(shuō)明,本報(bào)告中所引用的關(guān)于業(yè)績(jī)的數(shù)據(jù)代表過(guò)往表現(xiàn),過(guò)往的業(yè)績(jī)表現(xiàn)不應(yīng)作為日后回報(bào)的預(yù)示。華泰不承諾也不保證任何預(yù)示的回報(bào)會(huì)得以實(shí)現(xiàn),分析中所做的預(yù)測(cè)可能是基于相應(yīng)的假設(shè),任何假設(shè)的變化可能會(huì)顯著影響所預(yù)測(cè)的回報(bào)。華泰及作者在自身所知情的范圍內(nèi),與本報(bào)告所指的證券或投資標(biāo)的不存在法律禁止的利害關(guān)系。在法律許可的情況下,華泰可能會(huì)持有報(bào)告中提到的公司所發(fā)行的證券頭寸并進(jìn)行交易,為該公司提供投資銀行、財(cái)務(wù)顧問(wèn)或者金融產(chǎn)品等相關(guān)服務(wù)或向該公司招攬業(yè)務(wù)。華泰的銷售人員、交易人員或其他專業(yè)人士可能會(huì)依據(jù)不同假設(shè)和標(biāo)準(zhǔn)、采用不同的分析方法而口頭或書面發(fā)表與本報(bào)告意見(jiàn)及建議不一致的市場(chǎng)評(píng)論和/或交易觀點(diǎn)。華泰沒(méi)有將此意見(jiàn)及建議向報(bào)告所有接收者進(jìn)行更新的義務(wù)。華泰的資產(chǎn)管理部門、自營(yíng)部門以及其他投資業(yè)務(wù)部門可能獨(dú)立做出與本報(bào)告中的意見(jiàn)或建議不一致的投資決策。投資者應(yīng)當(dāng)考慮到華泰及/或其相關(guān)人員可能存在影響本報(bào)告觀點(diǎn)客觀性的潛在利益沖突。投資者請(qǐng)勿將本報(bào)告視為投資或其他決定的唯一信賴依據(jù)。有關(guān)該方面的具體披露請(qǐng)參照本報(bào)告尾部。本報(bào)告并非意圖發(fā)送、發(fā)布給在當(dāng)?shù)胤苫虮O(jiān)管規(guī)則下不允許向其發(fā)送、發(fā)布的機(jī)構(gòu)或人員,也并非意圖發(fā)送、發(fā)布給因可得到、使用本報(bào)告的行為而使華泰違反或受制于當(dāng)?shù)胤苫虮O(jiān)管規(guī)則的機(jī)構(gòu)或人員。本報(bào)告版權(quán)僅為本公司所有。未經(jīng)本公司書面許可,任何機(jī)構(gòu)或個(gè)人不得以翻版、復(fù)制、發(fā)表、引用或再次分發(fā)他人(無(wú)論整份或部分)等任何形式侵犯本公司版權(quán)。如征得本公司同意進(jìn)行引用、刊發(fā)的,需在允許的范圍內(nèi)使用,并需在使用前獲取獨(dú)立的法律意見(jiàn),以確定該引用、刊發(fā)符合當(dāng)?shù)剡m用法規(guī)的要求,同時(shí)注明出處為“華泰證券研究所”,且不得對(duì)本報(bào)告進(jìn)行任何有悖原意的引用、刪節(jié)和修改。本公司保留追究相關(guān)責(zé)任的權(quán)利。所有本報(bào)告中使用的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記均為本公司的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記。中國(guó)香港本報(bào)告由華泰證券股份有限公司制作,在香港由華泰金融控股(香港)有限公司向符合《證券及期貨條例》及其附屬法律規(guī)定的機(jī)構(gòu)投資者和專業(yè)投資者的客戶進(jìn)行分發(fā)。華泰金融控股(香港)有限公司受香港證券及期貨事務(wù)監(jiān)察委員會(huì)監(jiān)管,是華泰國(guó)際金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。在香港獲得本報(bào)告的人員若有任何有關(guān)本報(bào)告的問(wèn)題,請(qǐng)與華泰金融控股(香港)有限公司聯(lián)系。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請(qǐng)務(wù)必一起閱讀。18香港-重要監(jiān)管披露?華泰金融控股(香港)有
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年政策扶持下的醫(yī)療器械國(guó)產(chǎn)化產(chǎn)業(yè)創(chuàng)新生態(tài)研究報(bào)告
- 2025年山地生態(tài)修復(fù)工程生態(tài)系統(tǒng)服務(wù)功能評(píng)估報(bào)告
- 寵物經(jīng)濟(jì)爆發(fā):2025年寵物醫(yī)療市場(chǎng)規(guī)模與行業(yè)變革分析報(bào)告
- 2025年智能家居研發(fā)生產(chǎn)基地建設(shè)項(xiàng)目產(chǎn)品線規(guī)劃與市場(chǎng)定位報(bào)告
- 工業(yè)互聯(lián)網(wǎng)平臺(tái)5G通信模組適配性在智慧交通監(jiān)控系統(tǒng)中的應(yīng)用研究報(bào)告
- 經(jīng)濟(jì)學(xué)在生活中的實(shí)際應(yīng)用試題及答案
- 行政管理經(jīng)濟(jì)法課程試題及答案回顧
- 水利水電工程行業(yè)自律機(jī)制與試題及答案
- 全鋼工程子午線輪胎項(xiàng)目可行性研究報(bào)告(參考)
- 金屬表面處理中心項(xiàng)目實(shí)施方案(參考模板)
- 景觀體驗(yàn)設(shè)計(jì)策略-全面剖析
- 幼兒園獲獎(jiǎng)公開(kāi)課:小班社會(huì)活動(dòng)《做懂禮貌的孩子》課件
- 巴基斯坦課件
- 高校“一站式”學(xué)生社區(qū)就業(yè)指導(dǎo)工作路徑探究
- 【報(bào)告】充電樁可行性報(bào)告
- 建筑行業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化流程
- 邊防證代辦委托書樣板
- 大班韻律《朱迪警官破案記》
- 湖北省高中六校2025屆高三第三次模擬考試數(shù)學(xué)試卷含解析
- 《計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)》課件-2.2 OSI參考模型
- Photoshop平面設(shè)計(jì)與制作知到智慧樹章節(jié)測(cè)試課后答案2024年秋黑龍江農(nóng)業(yè)工程職業(yè)學(xué)院(松北校區(qū))
評(píng)論
0/150
提交評(píng)論