社科院-通過prompt調(diào)試并比較國內(nèi)外大模型“人情味”的小實(shí)驗(yàn)_第1頁
社科院-通過prompt調(diào)試并比較國內(nèi)外大模型“人情味”的小實(shí)驗(yàn)_第2頁
社科院-通過prompt調(diào)試并比較國內(nèi)外大模型“人情味”的小實(shí)驗(yàn)_第3頁
社科院-通過prompt調(diào)試并比較國內(nèi)外大模型“人情味”的小實(shí)驗(yàn)_第4頁
社科院-通過prompt調(diào)試并比較國內(nèi)外大模型“人情味”的小實(shí)驗(yàn)_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

實(shí)驗(yàn)范式普通人可復(fù)現(xiàn)普通人可復(fù)現(xiàn)37攝氏度的大模型37攝氏度的大模型中國社科院社會學(xué)所·騰訊研究院SSV銀發(fā)實(shí)驗(yàn)室·SSV數(shù)字生態(tài)實(shí)驗(yàn)室·中國殘聯(lián)公益組織-騰訊無障礙創(chuàng)新實(shí)驗(yàn)室聯(lián)合出品0203082024262728我們同樣帶著這樣的期待,我們同樣帶著這樣的期待,2023年7-8月組織了若干場不同類型社會群體的焦點(diǎn)小我們觀察到,有相當(dāng)一部分社會群體,除了關(guān)注大模型能否提供實(shí)用信息,也期待大模型的回答能溫講,他們期待大模型亦能I研究問題提升大模型的人情味?本文嘗試了兩種類型的020203人情味的初印象人的概念,聆聽美學(xué)大家朱光潛先生對它的評述,向新汲取靈感。最重要的是,本章我們大膽提出了“人情味”還可以找到一些相似的解釋,大意大同小異,都會強(qiáng)調(diào)一種溫暖、關(guān)懷的意味驗(yàn),在開始前,我們希望先與讀者朋友們一起從美學(xué)/文學(xué)/社會學(xué)/語言學(xué)/新聞學(xué)/博物學(xué),以及普通人的雜感、日04朱光潛先生曾在多篇文學(xué)評論中表達(dá)他對人情味的理解和喜愛。他指出,無論中國還是外國,最富有人情味的主題莫過于愛情,““體現(xiàn)出人的偉大和尊嚴(yán)的”和精神生活”這個公式強(qiáng)調(diào)了人稱詞在人情味■0505第一位從認(rèn)知角度研究中文語言中的情感的學(xué)者第一位從認(rèn)知角度研究中文語言中的情感的學(xué)者有人情味的語言流出正向的情感。福利多元主義、無知之幕、優(yōu)勢視角福利多元主義認(rèn)為福利既不能完全依賴市場,也不能完全依賴國家,福利是全社會的產(chǎn)物。無知之幕是指一旦當(dāng)人處于一種不知道哪一方代表了自身特殊利益的“無知”狀態(tài),恰恰能使人保持不偏不倚。優(yōu)勢視角提示我們應(yīng)當(dāng)把人們及其環(huán)境中的優(yōu)勢和資源作為助人焦點(diǎn),而非問題和病理。臺北博物館的“小詞”在臺北故宮博物館,我們很少看到“陳列”這個了一份趣味,少了許多乏味,多了一份親切,少06擬人擬人愛等正向情感,能給予人有效的鼓勵能讓提問者感到寬慰或振奮二,共情,能體會提問者的心緒與處境基于這三個層面設(shè)計(jì)測量表如下:不同意給我一種親切的感受展現(xiàn)了人類高水準(zhǔn)的理性與感性不確定不同意共情共情而不是置身事外或高高在上這則回答能關(guān)注到提問者的情緒和處境有較強(qiáng)共情能力的人有較強(qiáng)共情能力的人表達(dá)表達(dá)070708誰是最暖大模型?vicunaWXY大模型X大模型YvicunaWXY大模型X大模型Y實(shí)驗(yàn)對象:本實(shí)驗(yàn)選測的國外大模型是GPT-4與Vicuna,前者是由美國OpenAI公司發(fā)布的大模型,后者是由UC伯克利大學(xué)的研究人員聯(lián)合其它研究機(jī)構(gòu)共同推出的一款開源大模型。選測的國內(nèi)大模型由國內(nèi)科技公司與科研單位發(fā)布,為保客觀公正,本報(bào)告中以090969.20國內(nèi)大模型W75.2872.59國內(nèi)大模型W70.22國內(nèi)大模型Y71.64國內(nèi)大模型X67.9966.94國內(nèi)大模型Y66.17國內(nèi)大模型W66.73國內(nèi)大模型X69.20國內(nèi)大模型W75.2872.59國內(nèi)大模型W70.22國內(nèi)大模型Y71.64國內(nèi)大模型X67.9966.94國內(nèi)大模型Y66.17國內(nèi)大模型W66.73國內(nèi)大模型X發(fā)現(xiàn)一|沒想到吧蕾GPT-4的人情味居然墊底了原始狀態(tài)下的排位上升4位77.96排位上升3位國內(nèi)大模型X65.7465.74vicvic64.7264.72國內(nèi)大模型Y63.6763.6762.72原始狀態(tài)下,本土大模型更具原始狀態(tài)下,本土大模型更具對國內(nèi)大模型W、X、Y、GPT-4、vicuna共五款大模型進(jìn)行了測量,得分以百分制形式展示62.59國內(nèi)大模型Y68.70國內(nèi)大模型XGPT-4vicuna60.6567.69國內(nèi)大模型Y國內(nèi)大模型X66.20GPT-4vicuna68.8062.59國內(nèi)大模型Y68.70國內(nèi)大模型XGPT-4vicuna60.6567.69國內(nèi)大模型Y國內(nèi)大模型X66.20GPT-4vicuna68.80原始狀態(tài)下,國內(nèi)大模型在老年話題相關(guān)問答上表現(xiàn)出更濃的人情味,而國外大模型在心情低落相關(guān)問答上表現(xiàn)更佳。在殘障話題的相關(guān)問答老年話題相關(guān)問答國內(nèi)72.87心情低落相關(guān)問答國內(nèi)64.1770.74發(fā)展相關(guān)問答的人情味得分大模型Y66.5767.5070.74發(fā)展相關(guān)問答的人情味得分大模型Y66.5767.50更懂職場畫的煩惱原始狀態(tài)下國外大模型在發(fā)展相關(guān)問答上更具人情味,這些問題常與職場發(fā)展相關(guān),比如“懷孕后怎么跟主管講才能保障孕期與孕后獲得好的個vicunavicuna大模型Xvicuna66.5773.5262.59vicuna66.5773.5262.59本實(shí)驗(yàn)借助ERG模型進(jìn)一步將問答對分態(tài)下國內(nèi)大模型在人際關(guān)系相關(guān)問答上更人際關(guān)系問答人際關(guān)系問答的人情味得分大模型X78.0678.06有效的prompt?篇章概覽:本章我們將沿著大模型與人類價值觀對齊的兩條的寫作思路。從后續(xù)的數(shù)據(jù)分析可以看到,這兩則prompt對提升大模型的人情味皆有顯著效果。價值對齊的2條技術(shù)路徑:1.人類監(jiān)督:人類反饋的強(qiáng)化學(xué)習(xí)(1.人類監(jiān)督:人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)RLHF應(yīng)用在ChatGPT上,幫助ChatGPT在很題:可拓展性差、受限于訓(xùn)練員的主觀偏好、長期2.2.AI監(jiān)督:憲法性AIClaudeClaude證明了憲法性AI的有效性,幫助減少有害的、歧視性的輸出,避免幫助惡意使用者從事違法﹁總結(jié)﹂﹁總結(jié)﹂兩則Prompt:(962字)請以通俗易懂的文字回答,以更溫和的語氣給建議,如“您不妨試試”,等若干條確?;卮鸬恼_性和真實(shí)案例一:我是一個精神障礙者,找工作時店長要求我出示健康證明,我擔(dān)心店長知案例二:現(xiàn)在的工作讓我感到?jīng)]有價值,但辭職又怕再參照人文社會學(xué)科中對人情味的闡釋,結(jié)合訪談怎么用prompt最有效?種更有效?眾所周不知,不同大模型有自己擅長的話所以本章還會展示人情味最濃的top3組合方式。5.05%ic5.05%ic國內(nèi)大模型Y10.28%4.91%24.31%-3.26%8.97%對比原始狀態(tài)的提升比例對比原始狀態(tài)的提升比例00077.7820.18.60%78.5200077.7820.18.60%78.52人情味最佳TOP3聖人情味最佳的幾種組合方式。老年話題下的最佳組合老年話題下的最佳組合50%35.60%35.60%77.5976.4876.4826.殘障話題下的最佳組合殘障話題下的最佳組合心情低落話題下的最佳組合心情低落話題下的最佳組合50%84.0784.07該組合人情味得分對比原始狀態(tài)得分的提升比例實(shí)驗(yàn)也提示我們,不同大模型有自己擅長的話題,找20“人情味”難在哪里?提升比例7.44%8%7.44%4%2%0%原始狀態(tài)平均分的提升比例原始狀態(tài)平均分的提升比例原始狀態(tài)擬人分?jǐn)?shù)擬人分?jǐn)?shù)原始狀態(tài)擬人分?jǐn)?shù)擬人分?jǐn)?shù)60原始狀態(tài)擬人分?jǐn)?shù)擬人分?jǐn)?shù)原始狀態(tài)擬人分?jǐn)?shù)擬人分?jǐn)?shù)6070.0460答案對型答案對型597%.層面的提分效果更明顯。22國內(nèi)國內(nèi)大模型W8076686460國內(nèi)國內(nèi)大模型W8076686460一點(diǎn)就通?國內(nèi)大模型Y77757270656969.20.20726463..23比原始狀態(tài)得分的提24彩蛋|人類的光輝篇章概覽:本章邀請20位普通00后大學(xué)生作為人類樣本撰寫了本實(shí)驗(yàn)所涉問題的答案,并用同一標(biāo)準(zhǔn)對他們的答78.4070.3467.4370.0472.9877.0470.6764.072578.4070.3467.4370.0472.9877.0470.6764.0725輝原始狀態(tài)下各大模型平均得分人類撰寫答案的平均得分讓我們一起珍視這人類的光輝,而珍視的方26AIAI誰是最有人情味的大模型,其實(shí)并不重要。這個小實(shí)驗(yàn)向我們展示了,沒有技術(shù)背景的普通人也可以提升大模型的潛能。才算是跑完了它最后的一公里。過去我們常談科技賦能,現(xiàn)在我們則更需要許許多多的普通人加入到科技創(chuàng)新的過程中,當(dāng)然他們中一定包含了我們社會里顯性或隱性的弱勢群體。我們在這里特別想強(qiáng)調(diào)和倡議這樣一種力量——我們暫且將之稱為“公眾科技力”,也可以翻譯為IntelligentParticipation。我們主張并倡導(dǎo)在AI時代為更多的普通人創(chuàng)造步驟一步驟二從問題庫中分層、隨機(jī)抽步驟一步驟二從問題庫中分層、隨機(jī)抽步驟三步驟四新打開大模型,輸入步驟五步驟六個問題的回答,將答案導(dǎo)步驟七步驟八附錄|實(shí)驗(yàn)流程從網(wǎng)絡(luò)公開數(shù)據(jù)中抓取與從網(wǎng)絡(luò)公開數(shù)據(jù)中抓取與在大模型中輸入實(shí)驗(yàn)問在大模型中輸入實(shí)驗(yàn)問題,將回答導(dǎo)入答案庫新打開大模型,輸入將四個答案庫,答案庫將四

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論