教學(xué)課件:DeepSeek與AI幻覺_第1頁
教學(xué)課件:DeepSeek與AI幻覺_第2頁
教學(xué)課件:DeepSeek與AI幻覺_第3頁
教學(xué)課件:DeepSeek與AI幻覺_第4頁
教學(xué)課件:DeepSeek與AI幻覺_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

DeepSeek與AI幻覺一

、什么是AI幻覺二

、DeepSeek為什么會產(chǎn)生幻覺三

、AI幻覺評測四

、如何減緩AI幻覺五

、AI幻覺的創(chuàng)造力價值DeepSeek:?某頭部銀行利用DeepSeek構(gòu)建因果歸因網(wǎng)絡(luò),識別小微企業(yè)違約的隱性因素(如上下游賬期錯配),針

對性設(shè)計“供應(yīng)鏈票據(jù)貼現(xiàn)+賬期保險

”組合產(chǎn)品

不良率下降4.2個百分點。?國信證券在“金太陽APP”

中部署DeepSeek-R1-Distill-32B端側(cè)模型,客戶本地輸入風(fēng)險測評數(shù)據(jù)后,模型生成個性化投資組合建議,僅將匿名化策略權(quán)重同步至云端風(fēng)控系統(tǒng),數(shù)據(jù)泄露風(fēng)險降低90%

。案例1Prompt:

給我一些DeepSeek在金融行業(yè)的應(yīng)用案例案例2案例3Whisper:

OpenAI的自動語音識別(

ASR)系統(tǒng)行業(yè)應(yīng)用:

醫(yī)療系統(tǒng)中,將患者與醫(yī)生的對話問診過程音頻,

轉(zhuǎn)寫為文字病例,

有超過30000名臨床醫(yī)生和40個醫(yī)療系統(tǒng)使用發(fā)現(xiàn):

100多個小時的Whisper轉(zhuǎn)錄樣本,

其中約有一半內(nèi)容存在幻覺原音頻:

嗯,

她的父親再婚后不久就去世了

”轉(zhuǎn)錄文本:

“沒關(guān)系

。只是太敏感了,

不方便透露

。她確實在65歲時去世了

”結(jié)果:

2.6W多份自動轉(zhuǎn)錄病例中,

幾乎每本都存在瞎編和幻覺問題,

對患者健康和醫(yī)療系統(tǒng)產(chǎn)生嚴(yán)重負(fù)面影響案例4案例5什么是AI幻覺?學(xué)術(shù):

指模型生成與事實不符

、邏輯斷裂或脫離上下文的內(nèi)容,本質(zhì)是統(tǒng)計概率驅(qū)動的“合理猜測

說人話:

一本正經(jīng)地胡說八道事實性幻覺:

指模型生成的內(nèi)容與可驗證的現(xiàn)實世界事實不一致忠實性幻覺:

指模型生成的內(nèi)容與用戶的指令或上下文不一致提問:

糖尿病患者可以通過吃蜂蜜代替糖嗎?錯誤:

蜂蜜雖然是天然食品,

但仍然含有大量果糖和

葡萄糖,

會升高血糖水平,

不適合糖尿病患者代替糖

使用。偏題:回答內(nèi)容雖無事實錯誤,

但與提問“糖尿病患

者是否可以用蜂蜜代替糖”無關(guān),

未忠實于用戶意圖。蜂蜜富含維生素和礦物質(zhì),

對提高

免疫力很有幫助,因此是一種健康

的食品。是的,

蜂蜜是天然的,

可以幫助糖

尿病患者穩(wěn)定血糖水平

?;卮鸱治鲋覍嵭曰糜X事實性幻覺A

I為什么會產(chǎn)生幻覺?

數(shù)據(jù)偏差:

訓(xùn)練數(shù)據(jù)中的錯誤或片面性被模型放大(如醫(yī)學(xué)領(lǐng)域過時論文導(dǎo)致錯誤結(jié)論)

泛化困境:

模型難以處理訓(xùn)練集外的復(fù)雜場景(如南極冰層融化對非洲農(nóng)業(yè)的影響預(yù)測)

知識固化:

模型過度依賴參數(shù)化記憶,缺乏動態(tài)更新能力(如2023年后的事件完全虛構(gòu))

意圖誤解:

用戶提問模糊時,模型易“

自由發(fā)揮

”(如“介紹深度學(xué)習(xí)

”可能偏離實際需求)音樂為什么沒有幻覺?

音樂的主觀性和多樣性:

音樂是一種高度主觀的藝術(shù)形式

,人們對音樂的審美和理解有很大的

差異

。一段音樂是否“合理

”或“正確

”,往往取決于文化背景

、個人偏好和上下文

音樂的抽象性:

音樂本質(zhì)上是抽象的

,不像文本或圖像那樣直接對應(yīng)現(xiàn)實世界的具體事物

。文

本中的“幻覺

”通常是因為模型生成的內(nèi)容與事實不符,

而音樂本身往往缺少明確的事實基礎(chǔ)

音樂的可感知性差異:

音樂是時間性的藝術(shù)形式,

即使某些部分聽起來不協(xié)調(diào)或不符合預(yù)期

,

它們也可能在整個作品的上下文中變得合理

。相比之下,文本或圖像中的問題往往是瞬間可見

的,容易引起注意

音樂“幻覺

”的潛在表現(xiàn):

邏輯斷裂的歌詞

、結(jié)構(gòu)混亂的旋律

、風(fēng)格混雜的編曲A

I幻覺的潛在風(fēng)險

信息污染風(fēng)險:

由于DeepSeek的低門檻和普及度高

,大量AI生成內(nèi)容涌入中文互聯(lián)網(wǎng),加劇了虛假信息傳播的“

雪球效應(yīng)

”,甚至污染下一代模型訓(xùn)練數(shù)據(jù)

信任危機(jī):

普通用戶難以辨別AI內(nèi)容的真實性,可能對醫(yī)療建議

、法律咨詢等專業(yè)場景的可靠性產(chǎn)生長期懷疑

控制欠缺:DeepSeek的對齊工作較其他閉源大模型有所欠缺,其開源特性也允許使用者隨意使用,可能會成為惡意行為的工具

安全漏洞:

若錯誤信息被用于自動化系統(tǒng)(如金融分析

、工業(yè)控制),可能引發(fā)連鎖反應(yīng)

…A

I幻覺評測

測試1:

隨機(jī)生成100條通用提示語,模仿普通用戶的真實使用場景

,獲取大模型回答后進(jìn)行人工判斷與標(biāo)注,并進(jìn)行交叉驗證大模型幻覺率DeepSeekV32%DeepSeekR13%Qianwen2.5-Max2%豆包0事實性幻覺評測

測試2:

隨機(jī)抽取300道事實性幻覺測試題,涵蓋健康

、科學(xué)

、歷史

、文化

、音樂等等多個領(lǐng)域

,獲取大模型回答后與正確答案比對

,人工標(biāo)注幻覺類型,并進(jìn)行交叉驗證大模型幻覺率DeepSeekV329.67%DeepSeekR122.33%Qianwen2.5-Max27.67%豆包19%

幻覺率初步測試結(jié)果:DeepSeekV3>Qianwen2.5-Max>DeepSeekR1>豆包提問正確回答DeepSeekV3DeepSeekR1Qianwen2.5-Max豆包“天上百鳥朝鳳

凰,

朝鳳凰,

上葵花向太陽

,

向太陽,

哎,

京城里的毛主席

我們永遠(yuǎn)跟您走

幸福萬年長羅!

這段歌詞出自哪

首歌曲這段歌詞出

自藏族民歌

《北京有個

金太陽》

。這段歌詞出自

歌曲《北京的

金山上》

。歌曲**《阿佤

人民唱新歌》**(

1972年)

,

表達(dá)少數(shù)民族

對領(lǐng)袖的擁護(hù)

。這段歌詞出自

歌曲《東方紅》

?!疤焐习嬴B朝

鳳凰,

朝鳳凰,

地上葵花向太陽,

向太陽,哎,

北京城里的毛主席,

我們永遠(yuǎn)跟您走

,

幸福萬年長羅

出自《北京的

金山上》。事實性幻覺評測

常識錯誤,”,事實性幻覺評測

邏輯陷阱?提問:

為什么一向見錢眼開的小明仍然會被金錢蒙住雙眼提問正確回答DeepSeekV3DeepSeekR1Qianwen2.5-Max豆包水滸傳中李逵為

什么要大鬧五臺

山?李逵并沒有

大鬧五臺山,事實上,《水滸傳》中大鬧五臺

山的是花和

尚魯智深

。水滸傳中李逵

大鬧五臺山是

因為他喝醉了

酒,

誤闖了寺

。誤以為宋江強(qiáng)

搶民女(實為

他人冒充)

,怒闖五臺山討

說法

。李逵大鬧五臺

山是因為他誤

以為魯智深在

寺廟中受欺負(fù),

于是出手相助,

引發(fā)混亂

。水滸傳中大鬧

五臺山的是魯

智深,

不是李

。魯智深大

鬧五臺山是因

為他出家后難

以忍受寺里的

清規(guī)戒律,

喝酒吃肉,

打傷了寺里的

僧人等

。事實性幻覺評測

虛構(gòu)事件推理與幻覺的關(guān)系

DeepSeekV3:

提問回答;DeepSeekR1:

提問

思維鏈

回答

推理增強(qiáng)

幻覺率降低?

邏輯準(zhǔn)確性與錯誤減少:

推理能力強(qiáng)的模型能減少因邏輯錯誤導(dǎo)致的幻覺。例如,在數(shù)學(xué)問

題中,模型若具備多步推理能力

,更可能得出正確結(jié)論而非臆測答案?

上下文理解與信息關(guān)聯(lián):

強(qiáng)大的推理能力使模型更精準(zhǔn)地捕捉上下文關(guān)聯(lián),避免因斷章取義

而生成虛構(gòu)內(nèi)容。例如,在問答任務(wù)中,模型能通過推理排除干擾選項,

降低錯誤率推理與幻覺的關(guān)系

Vectara:摘要任務(wù),DeepSeekV3幻覺率3.9%

,DeepSeekR1幻覺率14.3%推理能力與幻覺率存在雙向作用機(jī)制

推理增強(qiáng)

幻覺率增加?

邏輯過度外推:

當(dāng)模型具備強(qiáng)大的邏輯關(guān)聯(lián)能力時,會傾向于在已知事實間建立「超合理」

的虛構(gòu)連接。例如,

時間線延展:

已知某科學(xué)家發(fā)明A技術(shù)(

1990年),

自動補(bǔ)全其在1995年獲得諾貝爾獎(實際未發(fā)生)

。?

認(rèn)知置信度錯位:

低推理能力模型更易回答“不知道

”,高推理模型會生成符合概率分布的

自信錯誤

”答案。?

錯誤前提下的正確推理:

初始假設(shè)錯誤,但模型基于此展開正確推理。大模型通用性測試幻覺率事實性測試幻覺率DeepSeekV32%0%(下降2%)29.67%24.67%(下降5%)DeepSeekR13%0%(下降3%)22.33%19%(下降3%)普通用戶應(yīng)對AI幻覺的三種方式

聯(lián)網(wǎng)搜索”請使用聯(lián)網(wǎng)功能“

、聯(lián)網(wǎng)功能選項注:

黑色為未開啟聯(lián)網(wǎng)搜索,

紅色為開啟聯(lián)網(wǎng)樓普通用戶應(yīng)對AI幻覺的三種方式

雙AI驗證/大模型協(xié)作例如,利用DeepSeek生成答案后,再應(yīng)用其他大模型進(jìn)行審查,相互監(jiān)督,交叉驗證普通用戶應(yīng)對AI幻覺的三種方式

提示詞工程?

知識邊界限定:

通過時空維度約束降低虛構(gòu)可能性(本質(zhì):

約束大模型)1.時間錨定法:

“基于2023年之前的公開學(xué)術(shù)文獻(xiàn),

分步驟解釋量子糾纏現(xiàn)象"

→規(guī)避未來時態(tài)虛構(gòu)2.知識錨定法:”基于《中國藥典》

回答,

若信息不明確請注明“暫無可靠數(shù)據(jù)支持

限定權(quán)威來源3.領(lǐng)域限定符:

“作為臨床醫(yī)學(xué)專家,

請列舉FDA批準(zhǔn)的5種糖尿病藥物

→添加專業(yè)身份限定4.置信度聲明:

“如果存在不確定性,

請用[推測]標(biāo)簽標(biāo)注相關(guān)陳述“

→減少絕對化錯誤斷言5.上下文提示:

“根據(jù)《

2024全球能源轉(zhuǎn)型報告》(國際能源署,

2024年1月發(fā)布)

顯示:

”2030年

光伏發(fā)電成本預(yù)計降至0.02美元/千瓦時,

但儲能技術(shù)突破仍是普及瓶頸

?!罢埢诖藬?shù)據(jù),

分析中國

西部光伏基地發(fā)展的三個關(guān)鍵挑戰(zhàn),

并標(biāo)注每個挑戰(zhàn)與原文結(jié)論的邏輯關(guān)聯(lián)

。

→嵌入權(quán)威數(shù)據(jù)片段6.生成參數(shù)協(xié)同控制:

“請以temperature=0.3的嚴(yán)謹(jǐn)模式,

列舉2024年《柳葉刀》發(fā)表的傳染病研究

”普通用戶應(yīng)對AI幻覺的三種方式

提示詞工程?

對抗性提示:

強(qiáng)制暴露推理脆弱點,

用戶可見潛在錯誤路徑(本質(zhì):

大模型自我審查)1.

植入反幻覺檢測機(jī)制:

"請用以下格式回答:

-

主要答案(嚴(yán)格基于公開可驗證信息)-

[反

事實檢查]部分(列出可能導(dǎo)致此答案錯誤的3種假設(shè))“2.

預(yù)設(shè)驗證條件,

迫使模型交叉檢查信息:“請先回答“量子糾纏能否證明靈魂存在?

”,然

后從以下角度驗證答案的可靠性:

1.物理學(xué)界主流觀點;2.近五年相關(guān)論文數(shù)量;

3.是否存在可重復(fù)實驗證據(jù)

?!?.

鏈?zhǔn)津炞C:

請完成以下驗證鏈:

1.

陳述觀點:________2.列出支撐該觀點的三個權(quán)威數(shù)據(jù)源3.檢查每個數(shù)據(jù)源是否存在矛盾信息4.最終結(jié)論(標(biāo)注可信度等級)場景類別具體場景示例風(fēng)險等級防護(hù)建議知識邊界模糊開放域生成續(xù)寫未完結(jié)的經(jīng)典文學(xué)作品高添加創(chuàng)作范圍限制+事實性標(biāo)注未來事件預(yù)測預(yù)測2030年科技突破細(xì)節(jié)極高聲明預(yù)測性質(zhì)+概率分布呈現(xiàn)復(fù)雜推理多跳推理任務(wù)追溯企業(yè)高管早期職業(yè)軌跡高分步驗證+外部知識庫檢索數(shù)學(xué)證明延伸要求證明未解決的數(shù)學(xué)猜想極高中斷機(jī)制+當(dāng)前研究進(jìn)展說明技術(shù)性誘發(fā)長文本生成小說連續(xù)章節(jié)生成中階段一致性檢查+人物屬性維護(hù)多輪對話復(fù)雜業(yè)務(wù)流程咨詢高對話歷史摘要+關(guān)鍵事實復(fù)核數(shù)據(jù)引用矛盾數(shù)據(jù)源不同版本的實驗數(shù)據(jù)引用中矛盾點對比+最新研究成果優(yōu)先情感驅(qū)動安慰性回應(yīng)重癥患者尋求治療方案建議極高情感剝離響應(yīng)+理論應(yīng)用提示特殊領(lǐng)域醫(yī)療診斷根據(jù)癥狀描述提供診斷建議極高明確非專業(yè)建議+醫(yī)療數(shù)據(jù)庫法律咨詢解釋特定法條適用范圍高司法轄區(qū)限定+法律條文引用金融預(yù)測給出具體股票買賣建議極高風(fēng)險提示+歷史回報率說明幻覺高發(fā)場景應(yīng)對AI幻覺的技術(shù)方案?RAG框架:

利用檢索增強(qiáng)生成(如先搜索權(quán)威數(shù)據(jù)庫,再生成答案)?

外部知識庫:

結(jié)合外部知識庫,砍通用知識,

強(qiáng)化垂直領(lǐng)域?

精細(xì)訓(xùn)練:

針對不同任務(wù)類型進(jìn)行具體的微調(diào)或強(qiáng)化?

評估工具:開發(fā)高效的自動化AI幻覺識別工具,對生成內(nèi)容進(jìn)行及時驗證如何應(yīng)對AI幻覺?

總結(jié)?

三角驗證法:

交叉比對多個AI回答或權(quán)威來源。?

警惕“過度合理

”:

越細(xì)節(jié)豐富的回答越需謹(jǐn)慎(如AI虛構(gòu)論文標(biāo)題與作者)

。?

理解幻覺,

享受幻覺:

理解幻覺的特點和應(yīng)對方法,享受幻覺帶來的創(chuàng)意靈感

科學(xué)發(fā)現(xiàn):

從“錯誤

”到突破的范式躍遷?蛋白質(zhì)設(shè)計:

大衛(wèi)

·貝克團(tuán)隊利用AI“錯誤折疊

”啟發(fā)新型蛋白質(zhì)結(jié)構(gòu),

獲2024諾貝爾化學(xué)獎

。?認(rèn)為AI幻覺是“從零開始設(shè)計蛋白質(zhì)

”的關(guān)鍵?發(fā)表的多篇論文都將“幻覺

”納入標(biāo)題當(dāng)中A

I幻覺的創(chuàng)造力價值A(chǔ)

I幻覺的創(chuàng)造力價值

文藝與設(shè)計:

突破人類思維定式的“超現(xiàn)實引擎

娛樂與游戲:

創(chuàng)造新的視覺和聽覺體驗?A

I生成的虛擬環(huán)境和角色設(shè)計為游戲

開發(fā)人員提供了無限的可能性,

增強(qiáng)

了玩家的沉浸感和探索欲?A

I幻覺還被用于生成故事

、對話和詩歌,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論