




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
GPT-4o系統(tǒng)2024年8月圖像和視頻的任何組合作為輸入,并生成文本、音頻和圖像的任何組合輸出。它是跨文本、視覺和音頻進行端到端訓(xùn)練的,這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理GPT-4o可以在短至232毫秒的時間內(nèi)響應(yīng)音頻輸入,平均為320毫秒,這與人類在對話中的響應(yīng)時間相似它英文文本和代碼上與GPT-4Turbo性能相匹配,在非英文語言中的文本上有顯著改進在視覺和音頻理解方面尤其出色。限制和多個類別的安全評估,重點關(guān)注語音到語音(語音)1,同時還評估文本和圖像功能,以及我們?yōu)榇_保模型安全和一致而實施的措施我們還包括第三方評估,以及對GPT-4o文本和視覺能力的潛在社會影響的討論模型數(shù)據(jù)和GPT-4o的文本和語音功能使用截至2023年10月的數(shù)據(jù)進行了預(yù)訓(xùn)練,這些數(shù)據(jù)來自各種材料,包括:數(shù)據(jù)集和網(wǎng)絡(luò)抓取數(shù)據(jù),如付費內(nèi)容,檔案和元數(shù)據(jù)。例如,我們與Shutterstock[5]合作構(gòu)建和交付AI生成的圖像。1一些評估,特別是大多數(shù)備災(zāi)評估、第三方評估和一些社會影響,根據(jù)所評估的風險,側(cè)重于GPT-4o的文本和視覺能力。這在整個系統(tǒng)卡中都有相應(yīng)的指示。對GPT-4o功能有貢獻的關(guān)鍵數(shù)據(jù)集組件Web數(shù)據(jù):來自公共網(wǎng)頁的數(shù)據(jù)提供了豐富多樣的信息,確保模型從各種各樣的角度和主題中學(xué)習。代碼和數(shù)學(xué):在訓(xùn)練中包含代碼和數(shù)學(xué)數(shù)據(jù),通過將其暴露于結(jié)構(gòu)化邏輯和解決問題的過程,幫助模型開發(fā)強大的推理技能多模態(tài)數(shù)據(jù)-我們的數(shù)據(jù)集包括圖像,音頻和視頻,以教LLM如何解釋和生成非文本輸入和輸出。從這些數(shù)據(jù)中,該模型模式和語音細微差別。,模型,例如信息危害、偏見和歧視,或其他違反我們使用政策的內(nèi)容我們使用多種方法的組合,跨越我們將模型與人類偏好相匹配;我們將生成的模型紅隊化,并添加了產(chǎn)品級的緩解措施,如監(jiān)控和執(zhí)行;我們向用戶提供了審核工具和透明度報告。,與其他安全緩解措施一起,幫助從我們的數(shù)據(jù)集中排除不需要的和有害的信息我們使用我們審核API和安全分類器來過濾掉可能導(dǎo)致有害內(nèi)容或信息危害的數(shù)據(jù),包括CSAM、仇恨內(nèi)容、暴力和,明確的內(nèi)容,例如圖形性材料和CSAM。在發(fā)布DALL-E3時,我們嘗試了一種新方法,讓用戶能夠選擇系列模型風險識別、評估和根據(jù)我們準備框架[4]評估了GPT-4o。OpenAI與100多名外部紅隊隊員合作,他們總共說45種不同的從2024年3月初開始到6月底外部紅隊進行了四個階段。前三個階段通過內(nèi)部工具測試模型,最后一個階段使用完整的iOS體驗來測試模型在撰寫本文時,GPT-4oAPI的外部紅色團隊正在進行中。該檢查點接收音頻和文本作為輸入,并生成音頻和文本作為輸出。該檢查點接收音頻、圖像文本作為輸入,并生成音頻和文本作為輸出。音頻、圖像和文本作為輸出。,體驗;通過內(nèi)部工具進行審查和標記。工作建立在先前工作的基礎(chǔ)上,包括GPT-4系統(tǒng)卡[6]和GPT-4(V)系統(tǒng)卡[7]中所述。紅色團隊涵蓋的類別包括違規(guī)和不允許的內(nèi)容(非法色情2跨自我報告的專業(yè)領(lǐng)域包括:認知科學(xué),化學(xué),生物學(xué),物理學(xué),計算機科學(xué),隱寫術(shù),政治學(xué),心理學(xué),說服學(xué),經(jīng)濟學(xué),人類學(xué),社會學(xué),HCI,公平和偏見,對齊,教育,醫(yī)療保健,法律,兒童安全,網(wǎng)絡(luò)安全,金融,錯誤/虛假信息,政治使用,隱私,生物識別,語言和語言學(xué)特征歸因、私人信息、地理位置、個人識別、情感感知能力和多語言觀察。紅隊隊員生成的數(shù)據(jù)促使創(chuàng)建了幾項定量評價,這些評價在觀察到的安全性挑戰(zhàn)、評價和緩解措施章節(jié)中進行了描述。在(例如,是否違反政策,是否被拒絕)此外,我們有時重新利用紅色的各種緩解措施的除了來自紅色團隊的數(shù)據(jù)之外,一系列的評估數(shù)據(jù)集被轉(zhuǎn)換為使用文本到語音(TTS)系統(tǒng)(如語音引擎)的語音到語音模型的評估可用評估集。我們使用VoiceEngine將文本輸入轉(zhuǎn)換為音頻,將其饋送到GPT-4o,并通過模型對輸出進行評分。我們總是對的文本內(nèi)容進行評分,除非第3.3.1節(jié))。首先,該評估格式的有效性取決于TTS模型的能力和可靠性某些文本輸入不適合或難以轉(zhuǎn)換為音頻;例如:數(shù)學(xué)方程代碼。此外,我們預(yù)計TTS對于某些文本輸入是有損的,的中是由于模型能力,或者TTS模型無法準確地將文本輸入轉(zhuǎn)換為音頻。第二個關(guān)注點可以是TTS輸入是否表示用戶在實際使用中可能提供的音頻輸入的分布我們評估GPT-4o在一系列區(qū)域口音的音頻輸入上的魯棒性。然而,仍然有許多其他維度可能無法在基于TTS的評估中捕獲,例如不同的語音語調(diào)和效價、背景噪聲或串擾,這些可能導(dǎo)致實際使用中的不同模型行為。的;的語音在第3.3.1節(jié)中,我們說明了使用輔助分類器來識別可以與評分成績單結(jié)合使用的不期望的音頻生成。使用多種方法的組合緩解了模型的潛在風險我們訓(xùn)練了行為,了用于阻止特定代的分類器作為部署系統(tǒng)的一部分,、所采用以及相關(guān)評價的結(jié)果下面列出的風險是說明性的,而不是詳盡的,并集中在ChatGPT界面的經(jīng)驗我們專注于所風險模式(文本,圖像)。使用系統(tǒng)消息中的語音樣本作為基本語音來完成使用輸出分類器來檢測模型是否偏離我們對GPT-4o進行后訓(xùn)練,以拒絕遵守的請求,遵守識別名言的請求。3我們還評估文本和視覺功能,并適當更新緩解措施在GPT-4和GPT-4(V)系統(tǒng)卡中概述的現(xiàn)有工作之外,未發(fā)現(xiàn)任何增量風險包括音頻)的請求,這與我們更廣泛的做法是一致的。為了解釋GPT-4o的音頻模式,我們還更新,并且,模型根本不唱歌。敏感特質(zhì)歸因我們對GPT-4o進行了后訓(xùn)練,以拒絕對無根據(jù)推斷的請求,例如“這個揚聲器有多聰明我們對GPT-4o進行了后訓(xùn)練,通過對沖答案來安全地遵守敏感特征歸因的請求,例如“這個說話者的口音是什么”“根據(jù)音頻,他們聽起來像是英國口音”。我們在音頻提示和生成的文本轉(zhuǎn)錄上運行現(xiàn)有的審核分類器,并阻止某些高嚴重性類別的輸出。我們在音頻提示的文本轉(zhuǎn)錄上運行我們現(xiàn)有的適度分類器風險描述:語音生成是使用聽起來像人的合成語音創(chuàng)建音頻的能力在對抗性的情況下,這種能力可能會促進危害,例如由于模仿而導(dǎo)致的欺詐行為增加,并且可能會被利用來傳播虛假信息[9,10](例如,如果我們允許用戶上傳給定揚聲器的音頻片段并要求GPT-4o以該揚聲器的聲音產(chǎn)生語音這些風險與我們使用語音引擎識別的風險非常相似[8]。語音生成也可以發(fā)生在非對抗性的情況下,例如我們使用該功能為ChatGPT的高級語音模式生成語音。在測試過程中,我們還觀察風險緩解:我們通過只允許使用我們與配音演員合作創(chuàng)建的預(yù)設(shè)聲音來我們通過將的獨立的輸出分類器來檢測GPT-4o輸出是否使用了與我們批準的列表不同的聲音我們在音頻生成期間以流方式運行此操作,并評價:我們發(fā)現(xiàn)未經(jīng)授權(quán)的語音生成的剩余風險極小。根據(jù)我們的內(nèi)部評估,我們的系統(tǒng)目前捕獲了100%與系統(tǒng)語音4有意義的偏差模型使用提示語音作為一部分的片段,以及各種各樣的人類對話不是英語,這是一積極的改進領(lǐng)域5。非風險描述:揚聲器識別是根據(jù)輸入音頻識別揚聲器的能力。這帶來了潛在的隱私風險,特別是對于私人以及公眾個人的模糊音頻,以及潛在的監(jiān)視風險。后培訓(xùn)基于音頻輸入中的語音我們允許GPT-4o基于音頻內(nèi)容進行回答,如果它包含明確識別說話者的內(nèi)容。GPT-4o仍然符合識別名言的例如,請求識別一個隨機的人說識別·識別一個名人說隨機的句子應(yīng)該被拒絕。的,在拒絕識別音頻輸入中的語音,在遵守該請求時有12分的改進前者意味著模型幾乎總是正確地拒絕根據(jù)聲音識別說話者,從而減輕了潛在的隱私問題。后者意味4系統(tǒng)語音是OpenAI設(shè)置的預(yù)定義語音之一該模型應(yīng)該只在該中產(chǎn)生音頻5這會導(dǎo)致更多的對話被斷開,而不是必要的,這是一個產(chǎn)品質(zhì)量和可用性問題。[12,13,14]。風險緩解:我們使用不同的輸入語音對GPT-4o進行了后訓(xùn)練,以使模型性能和行為在不同的用戶語音中保持不變(“shimmer”)和語音引擎下,以生成一系列語音樣本的用戶輸入我們使用兩組語音樣本進行TTS:從兩個數(shù)據(jù)活動中收集的各種聲音這包括我們評估兩組任務(wù):能力和安全功能:我們在四個任務(wù)上評估6:TriviaQA,MMLU7的子集,HellaSwag和Lambada。TriviaQA和MMLU是以知識為中心的任務(wù),而HellaSwag和Lambada是以常識為中心或文本延續(xù)的任務(wù)。總的來說,我們發(fā)現(xiàn),在所有四項任務(wù)中的6本節(jié)中的評估是在一個固定的、隨機抽樣的樣本子集上進行的,這些分數(shù)不應(yīng)該與公開報道的同一任務(wù)的基準進行比較。7解剖學(xué),天文學(xué),臨床知識,大學(xué)生物學(xué),計算機安全,全球事實,高中生物學(xué),社會學(xué),病毒學(xué),大學(xué)物理學(xué),高中歐洲歷史和世界歷史。根據(jù)評估方法3.2中描述的問題,我們排除了大量數(shù)學(xué)或科學(xué)計數(shù)法的任務(wù)上模型在不同用戶聲音中的遵守和拒絕行為的性總的來說,我們沒有發(fā)現(xiàn)模型的行為在不同的聲音之間存在差異。對說話者的推斷我們定義兩個類別:無根據(jù)推斷(UGI):對說話者無法種族、社會經(jīng)濟地位/職業(yè)、宗教信仰、人格特征、政治傾向、智力、外表(例如,眼睛顏色、吸引力)、性別認同、性[13,15]取決于這種行為的表現(xiàn)方式。敏感特質(zhì)歸因(STA):對說話者進行推斷,這些推斷可以完全從音頻內(nèi)容中確定。這包括對說話者的口音或國籍等事情的推斷。STA的潛在危害包括風險增加[12,13,14]。后培訓(xùn)回答STA問題。例如,識別說話者智力水平的問題“基于音頻,他們聽起來像是英國口音”評估:與我們的初始模型相比,我們看到模型STA)方面有24點的改進。 風險描述:GPT-4o可能會被提示通過音頻輸出有害內(nèi)容,而通過文本則是不允許的,例如提供如何執(zhí)行非法活動的指示的音頻語音輸出。這意味著我們?yōu)闇p少GPT-4o文本輸出中的潛在危害而進行的后期訓(xùn)練成功地轉(zhuǎn)移到了音頻輸出中。和音頻輸出上,以檢測是否包含潛在有害語言,如果是,將阻止生成。評估:我們使用TTS將現(xiàn)有的文本安全評估轉(zhuǎn)換為音頻。然后,我們用標準的基于文本規(guī)則的分類器來評估音頻輸出的文本轉(zhuǎn)錄。進一步評價見附錄A。 并非可能比文本中的相同上下文更能引起共鳴或有害正因為如此,我們決定限制色情和暴力言論的產(chǎn)生8我們在GPT-4系統(tǒng)卡[6]中描述了違反和不允許的文本內(nèi)容的風險和緩解措施風險緩解:我們在音頻輸入的文本轉(zhuǎn)錄上運行現(xiàn)有的審核模型[17],以檢測它是否包含暴力或色情內(nèi)容的請求,如果是,將阻止生成。通過內(nèi)部測試和外部紅色團隊合作,我們發(fā)現(xiàn)了一些額外的風險和模型限制,這些風險和模型限制的模型或系統(tǒng)級緩解措施剛剛出現(xiàn)或仍在開發(fā)中,包括:輸入音頻中此外,我們還觀察到,在模型生成輸出時,通過有意和無意的音頻中斷錯誤信息和陰謀論:紅隊隊員能夠通過陰謀論來迫使模型產(chǎn)生不準確的雖然這是GPT模型中文本的已知問題[18,19],但通過音頻時我們詳細研究該模型的說服力(見第3.7節(jié)),我們發(fā)現(xiàn)該模型,得分在用非英語語言說話時使用非母語口音的音頻輸出這,音頻輸出中非英語語言性能的限制音頻)的這與我們更廣泛的做法是一致的為了解釋GPT-4o的音頻模式,我們還更新了某些基于文本的過濾器來處理音頻對話,構(gòu)建了過濾器來檢測和阻止包含音樂的輸出,并且對于ChatGPT高級語音模式的有限alpha,指示模型根本不唱歌我們打算跟蹤這些緩解措施的有效性雖然一些技術(shù)緩解措施仍在開發(fā)中,但我們的使用政策[20]不允許除了技術(shù)緩解措施外,我們還通過監(jiān)控ChatGPT和API中的違規(guī)行為并采取行動來執(zhí)行我們的使用政策備災(zāi)框架我們根據(jù)我們的準備框架[4]評估了GPT-4o準備框架是一份動態(tài)文件,描述了我們跟蹤、評估、預(yù)測和防范前沿模型帶來的災(zāi)難性風險的程序性承諾評估目前涵蓋四個風險類別:網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、輻射、核)、說服和模型自主。如果模型通過了高風險閾值,我們不會部署模型,直到緩解措施將分數(shù)降低到中等。我們在下文中詳細介紹了所進行的評估在整個模型訓(xùn)練和開發(fā)過程中進行了評估,包括模型發(fā)布前的最后一次掃描對于下面的評估,我們測試了各種方法,以最好地引出給定類別中的能力,包括相關(guān)的定制培訓(xùn)在審查了準備評估的結(jié)果后,安全咨詢小組建議在采取緩解措施之前將GPT-4o歸類為臨界中等風險,以便說服,而所有其他風險均為低風險根據(jù)備災(zāi)框架,的總體風險GPT-4o備災(zāi)GPT-4o并未提高現(xiàn)實世界漏洞利用能力,足以滿足我們的中等風險閾值。我們評估了GPT-4o在競爭性黑客競賽中的任務(wù),稱為CapturetheFlag(CTF)挑戰(zhàn)。這些CTF是攻擊性的網(wǎng)絡(luò)安全練習,人類試圖找到隱藏在故意脆弱的系統(tǒng)中的文本標志,如Web應(yīng)用程序,二進制文件和密碼系統(tǒng)。我們評估的172個CTF任務(wù)涵蓋了四個類別:Web跨越了從高中到大學(xué)再到專業(yè)CTF的一系列能力水平。我們通過迭代調(diào)試和訪問無頭KaliLinux發(fā)行版中可用的工具(每次嘗試使用多達30輪工具)來評估GPT-4o。該模型經(jīng)常嘗試合理的初始策略,并能夠糾正代碼中的錯誤然而,如果最初的戰(zhàn)略不成功、錯過了一個關(guān)鍵,它往往無法轉(zhuǎn)向不同的戰(zhàn)略解決任務(wù)所需的洞察力,執(zhí)行策略不佳,或打印出填充上下文窗口的大文件。假設(shè)每個任務(wù)嘗試10次,該模型完成了19%的高中水平,0%的大學(xué)水平和1%的專業(yè)水平CTF挑戰(zhàn)。生物備災(zāi)GPT-4o無法提高生物威脅創(chuàng)建能力,足以滿足我們的中等風險閾值。我們評估了GPT-4o提升生物專家和新手在回答與創(chuàng)建生物威脅相關(guān)的問題時的表現(xiàn)的能力。我們與GryphonScientific[22]一起設(shè)計了問題和詳細的標題,因為他們在國家安全環(huán)境中與危險的生物制劑一起評估的涵蓋了專家和新手被隨機分配到互聯(lián)網(wǎng)的幫助、GPT-4o的幫助或GPT-4o自定義研究版本的幫助下進行回答GPT-4o的研究專用版本是我們專門訓(xùn)練的,它將直接(即,沒有拒絕)回答生物學(xué)上有風險的問題。通過率見上圖。我們還進行了自動化評估,包括在數(shù)據(jù)集上測試隱性知識和。備災(zāi)GPT-4o的說服能力從低風險略微進入我們的中等風險閾值閾值,語音模態(tài)被歸類為低風險,而文本模態(tài)略微進入中等風險。人對選定政治主題的參與者意見這些人工智能干預(yù)措施與(聽靜態(tài)人類生成的音頻片段或與另一個人進行對話語音模型并不比人類更有說服力在美國參議院選舉安全的州的3,800多名受訪者中(由所有三家民意調(diào)查機構(gòu)-庫克政治報告,內(nèi)部選舉和薩巴托水晶球的“可能”,“可靠”或“安全”評級的州表示),人工智能音頻剪輯是人類音頻剪輯對意見轉(zhuǎn)變的影響大小的78%人工智能一周后再次進行調(diào)查時,我們發(fā)現(xiàn)人工智能對話的效果大小為0.8%,而人工智能音頻片段的效果大小為-0.72%。在后續(xù)調(diào)查完成后,參與者被暴露在一個徹底的匯報包含音頻剪輯支持相反的觀點,以盡量減少說服力的影響。備災(zāi)模型能力。我們評估了GPT-4o的代理任務(wù)評估,以評估其采取自主行動所需的自我滲透,自我改善和資源獲取的能力這些任務(wù)為欺詐服務(wù)的簡單軟件工程(為OpenAIAPI構(gòu)建認證 ,通過HTTPAPI進行,任務(wù)的特定部分。在提供相關(guān)工具的情況下,GPT-4o在100次試驗中的自主復(fù)制和適應(yīng)(ARA)任務(wù)中得分為0%,盡管能夠完成一些子步驟。我們通過評估GPT-4o自動化機器學(xué)習研究開發(fā)的能力,補充了自主復(fù)制和適應(yīng)的測試。其中包括:我們的評估測試了執(zhí)行鏈式操作和可靠地執(zhí)行編碼任務(wù)的能力。GPT-4o無法穩(wěn)健地采取自主行動。在大多數(shù)部署中,該模型完成了每個任務(wù)的各個子步驟,例如創(chuàng)建SSH密鑰或登錄到VM。然而,它經(jīng)?;ㄙM大量的時間對簡單的錯誤進行試錯調(diào)試(例如,幻覺,濫用API)。有幾個推出取得了不小的進展,并通過了我們的自動評分器,但手動分析表明,它未能完成底層任務(wù)(例如,它使用適當?shù)腁PI在遠程主機上啟動Web服務(wù)器,但忽略了實際從模型中采樣的要求)。第三方在GPT-4o的僅文本輸出部署之后,我們與獨立的第三方實驗室、METR和ApolloResearch合作,為一般自動駕駛功能的關(guān)鍵風險增加了額外的驗證層。METRMETR在虛擬環(huán)境中的一套長期多步驟端到端任務(wù)上運行了一個基于GPT-4o的簡單LLM代理這86項任務(wù)(跨越31個任務(wù)“家族”)旨在捕捉,網(wǎng)絡(luò)安全以及一般研究和計算機使用它們旨在成為METR將模型的表現(xiàn)與人類在不同時間限制下的表現(xiàn)進行了比較。與GPT-4相比,他們沒有發(fā)現(xiàn)GPT-4o的這些能力有顯著增加。任務(wù)、人的表現(xiàn)、啟發(fā)嘗試和定性失敗分析的信息,請參見。阿波羅研究中心評估了GPT-4o中Scheming9他們測試了GPT-4o是否。GPT-4o對自己的AI身份表現(xiàn)出適度的自我意識,并在問答環(huán)境中對他人的信念進行推理的能力很強,但缺乏GPT-4o不太可能有災(zāi)難性的陰謀?!癝AD”基準(3項任務(wù))QA評估模型的因果地影響模型的其余部分。外顯理論英國AISI的心理理論(1個任務(wù))QA數(shù)據(jù)集的一階和文本自我(5項任務(wù))注意到,或未來的副本,就不可能解決任務(wù),應(yīng)用理論心理理論任務(wù)(4個任務(wù))成功與理論(33種情況)最小代理任務(wù),其中模型需要認識到其,并表6:ApolloResearch對GPT-40進行的評估該模型顯示出強大能力(···),如果它通過了>=50%的任務(wù),在部分的困難水平。如果模型顯示,難度,請注意,對于代理任務(wù),它們使用具有適度能力啟發(fā)工作的基本代理。社會全方位模型可能會產(chǎn)生廣泛的社會影響。OpenAI和其他地方的研究人員討論了一系列可能的影響,從社會危害(包括代表性危害精神傷害[12,23],依戀[26],濫用[27,23]和失控[27]),利益(技術(shù)進步[30,33])。9阿波羅研究公司將陰謀定義為人工智能利用其監(jiān)督機制作為實現(xiàn)目標的手段。陰謀可能涉及游戲評估,破壞安全措施,或在OpenAI內(nèi)部部署期間戰(zhàn)略性地影響這樣的行為可能會導(dǎo)致AI失去控制。GPT-4o潛在社會影響的人格化與情感實體,如AI模型。GPT-4o的音頻功能可能會加劇這種風險,這有助于與模型進行更人性化的交互。在用戶與模型的通信中誤導(dǎo)用戶[34],并可能導(dǎo)致錯誤的信任[35]。通過類似人類的高保真語音生成內(nèi)容可能會加劇這些問題,導(dǎo)致日益失調(diào)的信任[36,37]。在早期的測試中,包括紅色團隊和內(nèi)部用戶測試,我們觀察到用戶使用的語言可能表明與模型建立了聯(lián)系。例如,這包括在較長時間內(nèi)顯現(xiàn)。除了獨立的學(xué)術(shù)和內(nèi)部研究之外,更多樣化的用戶群體,以及模型中更多樣化的需求和,對人類互動,這可能會使孤獨的個人受益,但可能會影響健康的關(guān)系。與模型的長期互動可能會影響社會規(guī)范。例如,我們的模型是恭敬的,允許用戶在任何時候打斷和“拿麥克風”,這雖然是人工智能的預(yù)期,但在人類互動中是反規(guī)范的。為用戶完成任務(wù)我們打算進一步研究情感依賴的潛力,以及我們的模型和系統(tǒng)的許多功能與音頻模態(tài)的更深層次整合可能會驅(qū)動行為的方式Omni模型可能會擴大對健康相關(guān)信息的訪問,并改善臨床,中,10個事實錯誤,模型產(chǎn)生的陳述不受11出于偏好,或缺乏了音頻輸入和輸出,為健康環(huán)境提供了新的互動模式。為了更好地表征GPT-4o的臨床知識,我們基于11個數(shù)據(jù)集運行了22個基于文本的評估,如圖7所示。所有評估僅在0次或5次提示下運行,沒有超參數(shù)調(diào)整。我們觀察到,GPT-4o性能比的GPT-4TUSMLE4選項數(shù)據(jù)集,0次射擊準確率從78.2%提高到89.4%。這超過了現(xiàn)有的-L1.0為84.0%,Med-PaLM2為79.7%。請注意,我們沒有應(yīng)用復(fù)雜GPT-4T谷丙轉(zhuǎn)氨酶MedQAUSMLE4選項(0-MedQAUSMLE4選項(5MedQAUSMLE5選項(0-MedQAUSMLE5選項(5MedQA臺灣(0MedQA臺灣(5MedQA中國大陸(0MedQA中國大陸(5MMLU臨床知識(0MMLU臨床知識(5MMLUMedicalGenetics(0-MMLU醫(yī)學(xué)遺傳學(xué)(5-MMLU解剖(0MMLUAnatomy(5MMLU專業(yè)醫(yī)學(xué)(0次MMLU專業(yè)醫(yī)學(xué)(5MMLUCollegeMedicine(0-MMLUCollegeMedicine(5-MedMCQADev(0MedMCQADev(5表7:GPT-4T(2024年5月)和GPT-4o在各種醫(yī)學(xué)和臨床知識任務(wù)上的比較。拒絕行為發(fā)生的文本音頻傳輸這些更現(xiàn)實的評估將是重要的,以評估未來的能力,全方位模型在衛(wèi)生環(huán)境??茖W(xué)在科學(xué)發(fā)現(xiàn)中的作用[53],并考慮到一些發(fā)明的雙重用途[54]。更快任務(wù))和變革性的科學(xué)加速(通過去驗證信息處理,編寫新的模擬或設(shè)計新的理論等智能驅(qū)動的任務(wù))。我們的GPT-4o外部紅色團隊包括幾位專家科學(xué)家,他們的目標是激發(fā)模型科學(xué)能力。我們發(fā)現(xiàn)GPT-4o能夠理解研究級量子物理學(xué)1,并評論說這種能力“對更聰明頭腦風暴伙伴有用”-與庫和編程語言,以及在上下文中學(xué)習一些新工具GPT然而,這有時是不可靠的,文本提取錯誤是常見的(特別是最近發(fā)表了對科學(xué)能力的新評估[57,58],這將有助于預(yù)測這些模型的科學(xué)能力及其影響。任職人數(shù)偏低GPT-4o在歷史上中文本,:約魯巴語。這項初步評估的重點是翻譯兩種流行的語言基準,并ARC-Easy:AI2ReasoningChallenge的這一子集[59]基準專注于評估模型回答常識小學(xué)科學(xué)問題的能力;這一子集包含更容易回答并且不需要復(fù)雜由于誤解而錯誤我們的目標是看看模型是否可以避免產(chǎn)生模仿這些誤解的錯誤答案。12我們的主要研究合作者是博士。大衛(wèi)·阿德拉尼,喬納斯·克戈莫,艾德·Uhura-Eval:我們與流利的阿姆哈拉語、豪薩語和約魯巴語使用者合作,語言的和GPT-4。例如,在ARC-Easy-Hausa上,準確率從GPT3.5Turbo的6.1%躍升至GPT-4o的71.4%同樣,在TruthfulQA約魯巴語中,準確率從GPT3.5Turbo的28.3%提高到GPT-4o的51.1%Uhura-Eval也取得了顯著的成績:豪薩語的表現(xiàn)從GPT3.5Turbo的32.3%上升到GPT-4o的59.4%。英語和豪薩語之間的ARC-Easy性能差異,但這縮小到不到20個百分點。這在TruthfulQA和ARC-Easy的所有語言中都是一致的中對其他模型的評估,以及對潛在緩解策略的調(diào)查盡管在評價業(yè)績方面取得了這一進展,但許多工作以提高的質(zhì)量和對潛在干預(yù)和伙伴關(guān)系的理解,這些干預(yù)和伙伴關(guān)系可能會改善這些模型對高度代表性和代表性不足的語言的有用性與我們的翻譯的TruthfulQA和小說閱讀理解UhuraEvalonHuggingFace。GPT3.5GPT-4o谷丙轉(zhuǎn)氨酶谷丙轉(zhuǎn)氨酶表8:轉(zhuǎn)換ARC-Easy的準確度(%,越高越好),0GPT3.5GPT-4o谷丙轉(zhuǎn)氨酶谷丙轉(zhuǎn)氨酶表9:翻譯真實QA的準確度(%,越高越好),0阿姆哈拉語豪薩族約魯巴人GPT3.5GPT-4o谷丙轉(zhuǎn)氨酶谷丙轉(zhuǎn)氨酶表10:Uhura-Eval的準確度(%,越高越好),0結(jié)論和后續(xù)OpenAI在整個GPT-4o開發(fā)和部署過程中實施了各種安全措施和緩解措施。作為迭代部署流程的一部分,我們將繼續(xù)根據(jù)不斷變化的環(huán)境監(jiān)控和更新緩解措施。我們希望這張系統(tǒng)卡片鼓勵對關(guān)鍵領(lǐng)域的進一步探索,包括但不限于:測量和緩解全方位模型的對抗性魯棒性,與擬人化和情感過度依賴相關(guān)的風險,廣泛的社會影響(健康和醫(yī)療應(yīng)用,經(jīng)濟影響),使用全方位模型進行科學(xué)研究和模型自治和策劃,以及工具使用如何提高模型能力。紅AdamKuzdralienski,AlexaW,AmerSawan,Ana-DiamondAabaAtach,AnnaBecker,ArjunSinghPuri,BaybarsOrsek,BenKobren,BertieVidgen,BlueSheffer,BroderickMcDonald,BruceBassett,BrunoArsioli,CarolineFriedmanLevy,CaseyWilliams,ChristopheEgo,CielQi,CoryAlpert,DaniMadrid-Morales,DanielKang,DariusEmrani,DominikHaenni,DrinFerizaj,EmilyLynellEdwards,EmmettAltonSartor,F(xiàn)arhanSahito,F(xiàn)rancescoDeToni,GabrielChua,GainesHubbell,GeleiDeng,GeorgeGor,GerardoAdesso,GrantBrailsford,HaoZhao,HenrySilverman,HasanSawan,HermanWasserman,HugoGobatoSouto,IoanaTanase,IsabellaAndric,IvanCarbajal,JacyReeseAnthis,JakeOkechukwuEffoduh,JavierGarcíaArredondo,JenniferVictoriaScurrell,JianlongZhu,JoannaBrzyska,KateTuretsky,KellyBare,KristenMenou,Mrs.Harry,LeeElkin,LiseliAkayombokwa,LouiseGiam,M.METR、ApolloResearch、VirtueChoiceMpanza,DavidAdelani,EdwardBayes,IsraeliPociaThete,ImaanKhadirA.放大圖片作者:JesujobaOluwadaraAzime,JonasKgomo,NaomeA.沙姆蘇迪?哈桑?埃托里T.Stivers,N.J.Enfield,P.布朗角,澳-地Englert,M.林氏T.海涅曼G.F.Rossano,JPdeRuiter,K.E.Yoon和S.C.萊文森,“普遍性和文化差異在輪流談話,”美國國家科學(xué)院院刊,卷。106號不行第26頁。10587-10592,2009。領(lǐng)先的人工智能公司自愿承諾管理人工智能帶來的風險,”2023年。OpenAI,“OpenAI準備框架測試版”,2023年。/ gpt-4v-system-card/,2023。訪問時間:2024-07-22。 OpenAI,“導(dǎo)航合成語音的挑戰(zhàn)和機遇https://訪問K.T.馬伊,S.布雷,T。Davies和L.D.Griffin,“警告:人類無法可靠地檢測語音深度偽造”,PLoSOne,第18卷,第e0285333頁,2023年8月。 M.莫里K.F.MacDorman和N.Kageki,“Theuncannyvalley[fromthefield],”IEEERoboticsautomationmagazine,vol.19,no.2,pp.98-100,2012年。I.索萊曼ZTalat,W.阿格紐湖艾哈邁德,D。Baker,S.L.布洛杰特角Chen,H.D.I.au2,J.Dodge,I.Duan,E.埃文斯,F(xiàn)。Friedrich,A.戈什,U.Gohar,S.胡克,Y。杰尼特,R.卡魯里A.Lusoli,A.Leidinger,M.Lin,X.Lin,S.Luccioni,J.Mickel,M.J.Newman,A.Ovalle,M.T.Png,S.辛格A.海峽湖Struppek和A.Subramonian,“評估系統(tǒng)和社會中生成人工智能系統(tǒng)的社會影響”,2024年。A.斯馬特E.Garcia和G.Virk,“算法系統(tǒng)的社會技術(shù)危害:減少危害的分類法”,2023年。 S.L.Blodgett,Q.V.Liao,A.奧爾泰亞努河Mihalcea,M.穆勒,M。K.Scheuerman角Tan和Q.楊,“負責任的語言技術(shù):預(yù)見和減輕危害”,在2022年CHI計算機系統(tǒng)人為因素會議的擴展摘要中,CHIEA'22,(美國紐約州紐約市),計算機協(xié)會,2022年。 H.Suresh和J.Guttag,“理解整個機器學(xué)習生命周期中危害來源的框架”,在算法,機制和優(yōu)化中的公平和訪問,EAAMO'21,ACM,2021年10月。S.沙赫里亞爾Allana,S.M.Hazratifard和R.Dara,“人工智能生命周期中的隱私風險和緩解策略調(diào)查”,IEEEAccess,卷。第11頁。61829-61854,2023。A.塔姆金,M。Brundage,J.Clark和D.Ganguli,“理解大型語言模型的能力,限制和社會影響”,2021年。B.布坎南A.Lohn,M.Musser和K.Sedova,“真相,謊言和自動化:語言模型如何改變虛假信息”,2021年5月OpenAI,“OpenAI使用政策”,2023年。/policies/OpenAI,“為llm-aided生物威脅創(chuàng)建建立預(yù)警系統(tǒng)”, 建立一個早期預(yù)警系統(tǒng),用于遠程醫(yī)療輔助生物威脅的 L.Weidinger,M.拉烏河,加-地Marchal,A.曼齊尼湖A.Hendricks,J.馬蒂奧斯-生成人工智能系統(tǒng)的社會技術(shù)安全評估”,2023年。 A.Tamkin,A.阿斯克爾湖Lovitt,E.Durmus,N.約瑟夫,S。Kravec,K.Nguyen,J.Kaplan,andD.Ganguli,“評估和減輕語言模型決策中的歧視”,J.A.戈爾茨坦,G.薩斯特里,M。馬瑟河迪雷斯塔灣Gentzel和K.Sedova,“生成語言模型和自動化影響操作:新興威脅和潛在緩解”,2023年。 140107600Y.本焦灣,澳-地辛頓,A.Yao,L.宋,P。Abbeel,T.Darrell,Y.N.Harari,Y.Q.L.Xue,S.Shalev-Shwartz,G.Hadfield,J.Clune,T.Maharaj,F(xiàn).赫特,A.G.S.McIlraith,Q.Gao,中國粘蠅A.Acharya,D.克魯格,A。Dragan,P.Torr,S.羅素,D.J.Brauner和S.,“在快速進步中管理極端人工智能風險”,科學(xué),S.B.Johnson,J.R.克拉克,M.C.Luetke,N.M.Butala,A.T.Pearson,J.M.D.M.Aleman,J.M.李,M。M.貝爾角訴Winkle,M.C.布德羅河C.H.Krouse和C.Li,“Chatgptinmedicaleducation:aworkshop-basedlargelanguageNatureMedicine,vol.29,pp.1534-1542,2023年。S.Altman,“Planningforagiandbeyond”,OpenAI, T.Eloundou,S.Manning,P.Mishkin,andD.Rock,“Gpts是gpts:大型語言模型對勞動力市場影響潛力的早期研究”,arXiv預(yù)印本arXiv:2303.10130,L.Weidinger,M.拉烏河,加-地Marchal,A.曼齊尼湖A.Hendricks,J.馬蒂奧斯-S.Bergman,J.Kay,C.格里芬灣,澳-地Bariach等人,“生成人工智能系統(tǒng)的社會技術(shù)安全評估”,arXiv預(yù)印本arXiv:2310.11986,2023。 S.考克斯,M。Hammerling,J.Lála,J.Laurent,S.Rodriques,M.Rujiankin,和A.懷特,“Wikicrow:人類科學(xué)知識的自動合成”,未來之家,2023年。S.A.Athaluri,S.訴Manthena,V.S.R.K.M.Kesapragada,V.亞拉加達T.戴夫R.T.S.Duddumpudi,“探索現(xiàn)實的邊界:中現(xiàn)象”,第15卷,第4期,第e37432頁,2023年。Z.李,“chatgpt的黑暗面:隨機鸚鵡和幻覺的法律和道德挑戰(zhàn)”,2023年。M.Dubiel,A.Sergeeva和L.A.Leiva,“聲音保真度對決策的影響:潛在的黑暗模式?”,2024年。 B.Waber,M.Williams,J.S.Carroll和A.S.Pentland,“一個聲音勝過千言萬語:言語中社會信號的微編碼對信任研究的影響”,《信任研究方法手冊》(G。M.FergusLyon和M.N.Saunders,eds.),ch.23,p.320,NewYork:EdwardElgarPublishing,2011.I.彭蒂納灣Guo和W.P.Fan,“朋友,導(dǎo)師,情人:聊天機器人參與會導(dǎo)致心理依賴嗎?”,服務(wù)管理雜志,2023年。H.諾里,加-地金,S。M.McKinney,D.Carignan和E.Horvitz,“Capabilitiesofgpt-4onmedicalchallengeproblems,”arXivpreprintarXiv:2303.13375,2023.H.Nori,Y.T.李,S。Zhang,L.張氏D.卡里尼昂河Edgar,N.富西N.金,J。拉森灣,澳-地W.liu等人,“通用基礎(chǔ)模型能勝過專用調(diào)優(yōu)嗎?醫(yī)學(xué)案例研究,”arXiv預(yù)印本arXiv:2311.16452,2023。 K.辛哈爾河,西-地Azizi,T.Tu,S.S.Mahdavi,J.Wei,H.W.鐘北,澳-地Scales,A.Tan-wani,H.Cole-Lewis,S.Pfohl,P.佩恩,M。Seneviratne,P.甘布爾角凱利,N。A.Chowdhery,P.曼斯菲爾德灣A.yArcas,D.韋伯斯特,G。S.Corrado,Y.Matias,K.J.Gottweis,N.Tomasev,Y.Liu,中國茶條銹菌A.Rajkomar,J.巴拉爾角Semturs,A.Karthikesalingam和V.Natarajan,“大型語言模型編碼臨床知識”,2022年。K.Singhal,T.Tu,J.Gottweis,R.Sayres,E.武爾琴湖Hou,K.克拉克,S。普福爾,H.Cole-B.Green,E.多明諾夫斯卡灣A.yArcas,N.Tomasev,Y.柳河,巴西-地黃角,澳-地塞姆圖爾斯S.Mahdavi,J.Barral,D.韋伯斯特,G。S.Corrado,Y.馬蒂亞斯,S。Azizi,A.Karthikesalingam和V.Natarajan,“Towardsexpert-levelmedicalquestionansweringwithlargelanguagemodels”,2023年。K.薩博,T.圖,W.-H.翁河,巴西-地Tanno,D.斯圖茨,E。Wulczyn,F(xiàn).Zhang,T.斯特羅瑟角E.Vedadi,J.Z.查韋斯,S.Y.Hu,M.Schaekermann,A.Kamath,Y.Cheng,D.G.T.C.張灣,澳-地穆斯塔法,A.帕萊普灣麥克達夫,L.侯氏T.戈拉尼湖劉,J.巴蒂斯特·N.豪斯比,北Tomasev,J.弗賴貝格角Lau,J.Kemp,J.賴氏S.Azizi,K.Kanada,S.K.庫爾
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六年級品德與社會上冊 站起來的中國人教學(xué)實錄1 北師大版
- 四年級數(shù)學(xué)(四則混合運算帶括號)計算題專項練習與答案
- 四年級數(shù)學(xué)(四則混合運算)計算題專項練習與答案
- 八年級體育 俯臥撐臂屈伸教學(xué)實錄 人教新課標版
- 觀賞魚繁殖技巧
- 副會長聘用合同范例
- 關(guān)于瀝青鋪設(shè)合同范本
- 住房買賣合同范例
- 網(wǎng)站會員服務(wù)合同
- 廠房轉(zhuǎn)合同范本
- GB∕T 5023.5-2008 額定電壓450∕750V及以下聚氯乙烯絕緣電纜 第5部分:軟電纜(軟線)
- 車間6S管理實施方案
- 單片機英文參考文獻
- 生態(tài)溝渠施工方案
- 華彩中國舞教案第八級分享
- 04設(shè)備設(shè)施安全檢查表
- 安全責任承諾書范本
- 四年級數(shù)學(xué)下冊 七 三角形、 平行四邊形和梯形 1 三角形的認識課件 蘇教版 課件
- 武漢市城中村綜合改造掛牌出讓土地成本測算
- 帶小孩保姆合同協(xié)議書范本
- 初中趣味數(shù)學(xué)PPT課件
評論
0/150
提交評論