大模型概念、技術(shù)與應用實踐-廈大團隊-202502_第1頁
大模型概念、技術(shù)與應用實踐-廈大團隊-202502_第2頁
大模型概念、技術(shù)與應用實踐-廈大團隊-202502_第3頁
大模型概念、技術(shù)與應用實踐-廈大團隊-202502_第4頁
大模型概念、技術(shù)與應用實踐-廈大團隊-202502_第5頁
已閱讀5頁,還剩252頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

DeepSeek每個人都可以讀懂的大模型科普文章廈門大學廈門大學林子雨副教授廈門大學大數(shù)據(jù)教學團隊作品2025年2月9日廈門大學大數(shù)據(jù)教學團隊國內(nèi)高校大數(shù)據(jù)教學的重要貢獻者團隊負責人:林子雨副教授年輕力量:核心成員全部46周歲以下結(jié)構(gòu)合理:教學型、科研型、實驗工程師專注專業(yè):從2013年至今,11年專注于大數(shù)據(jù)教學影響力高:多項指標在國內(nèi)高校大數(shù)據(jù)教學領(lǐng)域領(lǐng)先?教材數(shù)量?教材占有率?MOOC課程學習人數(shù)?教學研討會?教學網(wǎng)站訪問量?在線講座觀看人數(shù)?……團隊負責人林子雨入選“2021年高校計算機專業(yè)優(yōu)秀教師獎勵計劃”入選“2023年教育部國家智慧教育公共服務平臺應用典型案例”本PPT節(jié)選自林子雨編著《數(shù)字素養(yǎng)通識教程》林子雨編著《數(shù)字素養(yǎng)通識教程——大數(shù)據(jù)與人工智能時代的計算機通識教育》人民郵電出版社,2025年1月ISBN:978-7-115-65946-0定價:59.8元面向大一新生的全校大學計算機公共課教材教材官網(wǎng):/post/digital-literacy/教材官網(wǎng)提供講義PPT、MOOC視頻、案例視頻、上機實驗、教學大綱、課程思政案例、開學第一課講座PPT等豐富的教學資源掃一掃訪問教材官網(wǎng)林子雨編著《數(shù)字素養(yǎng)通識教程——大數(shù)據(jù)與人工智能時代的計算機通識教育》人民郵電出版社ISBN:978-7-115-65946-02025年1月第1版,定價:59.8元教材官網(wǎng):/post/digital-literacy/15年計算機教學生涯感悟升華,15本計算機暢銷教材知識凝練數(shù)字時代的大學計算機公共課教材,重構(gòu)大學計算機公共課知識體系深刻變革傳統(tǒng)大學計算機通識教育,培養(yǎng)學生計算思維、數(shù)據(jù)思維和AI思維《數(shù)字素養(yǎng)通識教程》到B站觀看林子雨主講《數(shù)字素養(yǎng)通識教程》MOOC視頻(1359分鐘)視頻地址:/video/BV1XPf8YZE6M/能、促進科技創(chuàng)新的關(guān)鍵力量。本報告《大模型概念、技術(shù)與應用實踐》將深入剖析大 o1.人工智能發(fā)展簡史o2.人工智能思維o3.大模型:人工智能的前沿4.AIGC應用與實踐1950年,“計算機之父”和“人工智能之父”艾倫·圖靈(AlanM.Turing)發(fā)表了論文《計算機器與智能》,這篇論文被譽為人工智能科學的開山之作。在論文的開篇,圖靈提出了一個引人深思的問題:“機器能思考嗎?”。這個問題激發(fā)了人們無盡的想象,同時也奠定了人工智能的基本概念和雛形1.2人工智能的誕生人工智能的誕生可以追溯到20世紀50年代。當時,計算機科學剛剛起步,人們開始嘗試通過計算機程序來模擬人類的思維和行為。在這個背景下,一些杰出的科學家和工程師們開始研究如何使計算機具備更高級的功能1956年8月,在美國達特茅斯學院舉辦的人工智能夏季研討會,是人工智能領(lǐng)域具有里程碑意義的一次重要會議。這次會議匯聚了眾多杰出的科學家和工程師,他們共同探討和研究人工智能的發(fā)展和應用前景這次會議的主題圍繞著人工智能的定義、研究方法和應用場景展開。與會者們深入探討了人工智能的基本概念、算法和技術(shù),以及其在各個領(lǐng)域的應用潛力。他們共同認識到,人工智能的研究和發(fā)展將為人類帶來巨大的變革和進步1.2人工智能的誕生在這次會議上,“人工智能”這個詞匯被約翰.麥卡錫(JohnMcCarthy)首次提出。與會者們不僅對人工智能的研究和應用前景進行了深入探討,還提出了許多重要的觀點和思路,為人工智能的發(fā)展奠定了基礎(chǔ)。這次會議的召開標志著人工智能作為一個獨立學科的正式誕生,因此,達特茅斯會議被稱為“人工智能的開端”,1956年也被稱為“人工智能元年”。這次會議不僅為人工智能的研究和發(fā)展奠定了基礎(chǔ),還為人類帶來了巨大的變革和進步1.3人工智能的發(fā)展階段從1956年人工智能元年至今,人工智能的發(fā)展歷程經(jīng)歷了漫長的歲月,大致可以劃分為以下6個階段1.4未來人工智能發(fā)展5個階段 2.人工智能思維3.1大模型的概念大模型通常指的是大規(guī)模的人工智能模型,是一種基于深度學習技術(shù),具有海量參數(shù)、強大的學習能力和泛化能力,能夠處理和生成多種類型數(shù)據(jù)的人工智能模型通常說的大模型的“大”的特點體現(xiàn)在:參數(shù)數(shù)量龐大、訓練數(shù)據(jù)量大、計算資源需求高2020年,OpenAI公司推出了GPT-3,模型參數(shù)規(guī)模達到了1750億,2023年3月發(fā)布的GPT-4的參數(shù)規(guī)模是GPT-3的10倍以上,達到1.8萬億,2021年11月阿里推出的M6模型的參數(shù)量達10萬億3.1大模型的概念大模型的設(shè)計和訓練旨在提供更強大、更準確的模型性能,以應對更復雜、更龐大的數(shù)據(jù)集或任務。大模型通常能夠?qū)W習到更細微的模式和規(guī)律,具有更強的泛化能力和表達能力上下文理解能力語言生成能力學習能力強可遷移性高3.2大模型的發(fā)展歷程大模型發(fā)展歷經(jīng)三個階段,分別是萌芽期、沉淀期和爆發(fā)期3.2大模型的發(fā)展歷程n萌芽期(1950-2005)這是一個以CNN(ConvolutionalNeuralNetworks,卷積神經(jīng)網(wǎng)絡(luò))為代表的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型階段n1956年,從計算機專家約翰·麥卡錫提出“人工智能”概念開始,AI發(fā)展由最開始基于小規(guī)模專家知識逐步發(fā)展為基于機器學習n1980年,卷積神經(jīng)網(wǎng)絡(luò)的雛形CNN誕生n1998年,現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)LeNet-5誕生,機器學習方法由早期基于淺層機器學習的模型,變?yōu)榱嘶谏疃葘W習的模型,為自然語言生成、計算機視覺等領(lǐng)域的深入研究奠定了基礎(chǔ),對后續(xù)深度學習框架的迭代及大模型發(fā)展具有開創(chuàng)性的意義3.2大模型的發(fā)展歷程n沉淀期(2006-2019)3.2大模型的發(fā)展歷程n爆發(fā)期(2020-至今)為當時最大的語言模型,并且在零樣本學習任務上實現(xiàn)了巨大性能提升。隨后,更多策略如基于人類反饋的強化學習(RLHF,Reinforcement2022年11月,搭載了GPT3.5的ChatGPT(ChatGenerativePre-trainedTransformer)橫空出世,憑借逼真的自然語言交互與多場景內(nèi)容生成能力,迅速引爆互聯(lián)網(wǎng),在全球范圍內(nèi)引起轟動,使得大模型的概念迅速進入普通大眾的視野。ChatGPT是人工智能技術(shù)驅(qū)動的自然語言處理工具,它能夠通過理解和學習人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、3.2大模型的發(fā)展歷程n爆發(fā)期(2020-至今)OpenAI在2023年3月發(fā)布了GPT-4,它是一個多模態(tài)大模型(接受圖像和文本輸入,生成文本)。相比上一代的GPT-3,GPT-4可以更準確地解決難題,具有更廣泛的常識和解決問題的能力。2023年12月,谷歌發(fā)布大模型Gemini,它可以同時識別文本、圖像、音頻、視頻和代碼五種類型信息,還可以理解并生成主流編程語言(如Python、Java、C++)的高質(zhì)量代碼,并擁有全面的安全性評估。2024年12月,DeepSeek迅速崛起,震撼全球,使得人工智能進入“普惠”時代3.3人工智能與大模型的關(guān)系ChatGPT人工智能包含了機器學習,機器學習包含了深度學習,深度學習可以采用不同的模型,其中一種模型是預訓練模型,預訓練模型包含了預訓練大模型(可以簡稱為“大模型”預訓練大模型包含了預訓練大語言模型(可以簡稱為“大語言模型”預訓練大語言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE,ChatGPT是基于GPT開發(fā)的大模型產(chǎn)品,文心一言是基于文心ERNIE開發(fā)的大模型產(chǎn)品ChatGPT文心一言深度學習模型預訓練模型預訓練大語言模型GPT文心ERNIE...預訓練大模型預訓練大語言模型人工智能文心一言深度學習模型預訓練模型預訓練大語言模型GPT文心ERNIE...預訓練大模型預訓練大語言模型人工智能機器學習深度學習3.4.1國外的大模型產(chǎn)品ChatGPT是一種由OpenAI訓練的大語言模型。它是基于Transformer架構(gòu),經(jīng)過大量文本數(shù)據(jù)訓練而成,能夠生成自然、流暢的語言,并具備回答問題、生成文本、語言翻譯等多種功能ChatGPT的應用范圍廣泛,可以用于客服、問答系統(tǒng)、對話生成、文本生成等領(lǐng)域。它能夠理解人類語言,并能夠回答各種問題,提供相關(guān)的知識和信息。與其他聊天機器人相比,ChatGPT具備更強的語言理解和生成能力,能夠更自然地與人類交流,并且能夠更好地適應不同的領(lǐng)域和場景。ChatGPT的訓練數(shù)據(jù)來自互聯(lián)網(wǎng)上的大量文本,因此,它能夠涵蓋多種語言風格和文化背景3.4.1國外的大模型產(chǎn)品Gemini是谷歌發(fā)布的大模型,它能夠同時處理多種類型的數(shù)據(jù)和任務,覆蓋文本、圖像、音頻、視頻等多個領(lǐng)域。Gemini采用了全新的架構(gòu),將多模態(tài)編碼器和多模態(tài)解碼器兩個主要組件結(jié)合在一起,以提供最佳結(jié)果Gemini包括三種不同規(guī)模的模型:GeminiUltra、GeminiPro和GeminiNano,適用于不同任務和設(shè)備。2023年12月6日,Gemini的初始版本已在Bard中提供,開發(fā)人員版本可通過GoogleCloud的API獲得。Gemini可以應用于Bard和Pixel8Pro智能手機。Gemini的應用范圍廣泛,包括問題回答、摘要生成、翻譯、字幕生成、情感分析等任務。然而,由于其復雜性和黑箱性質(zhì),Gemini的可解釋性仍然是一個挑戰(zhàn)3.4.1國外的大模型產(chǎn)品2024年2月16日,OpenAI再次震撼全球科技界,發(fā)布了名為Sora的文本生成視頻大模型,只需輸入文本就能自動生成視頻。這一技術(shù)的誕生,不僅標志著人工智能在視頻生成領(lǐng)域的重大突破,更引發(fā)了關(guān)于人工智能發(fā)展對人類未來影響的深刻思考。隨著Sora的發(fā)布,人工智能似乎正式踏入了通用人工智能(AGI:ArtificialGeneralIntelligence)的時代。AGI是指能夠像人類一樣進行各種智能活動的機器智能,包括理解語言、識別圖像、進行復雜推理等。Sora大模型能夠直接輸出長達60秒的視頻,并且視頻中包含了高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。這種能力已經(jīng)超越了簡單的圖像或文本生成,開始觸及到視頻這一更加復雜和動態(tài)的媒介。這意味著人工智能不僅在處理靜態(tài)信息上越來越強大,而且在動態(tài)內(nèi)容的創(chuàng)造上也展現(xiàn)出了驚人的潛力3.4.1國外的大模型產(chǎn)品右圖是Sora根據(jù)文本自動生成的視頻畫面,一位戴著墨鏡、穿著皮衣的時尚女子走在雨后夜晚的東京市區(qū)街道上,抹了鮮艷唇彩的唇角微微翹起,即便帶著墨鏡也能看到她的微笑,地面的積水映出了她的身影和燈紅酒綠的霓虹燈,熱鬧非凡的唐人街正在進行舞龍表演,熙熙攘攘的人群目光都聚焦在躍動的彩龍身上,整個環(huán)境的喜慶氛圍仿佛令人身臨其境3.4.1國外的大模型產(chǎn)品2024年12月20日,OpenAI發(fā)布推理模型o3,無論在軟件工程、編寫代碼,還是競賽數(shù)學、掌握人類博士級別的自然科學知識能力方面,o3都達到了很高的水平3.4.2國內(nèi)的大模型產(chǎn)品大模型指標排名DeepSeek能力測評第一豆包用戶數(shù)量第一文本處理第一即夢AI作圖能力第一通義萬相視頻生成第一智譜清言文檔歸納第一3.4.2國內(nèi)的大模型產(chǎn)品nDeepSeek(深度求索)2024年12月26日,杭州一家名為“深度求索”(DeepSeek)的中國初創(chuàng)公司,發(fā)布了全新一代大模型DeepSeek-V3。在多個基準測試中,DeepSeek-V3的性能均超越了其他開源模型,甚至與頂尖的閉源大模型GPT-4o不相上下,尤其在數(shù)學推理上,DeepSeek-V3更是遙遙領(lǐng)先。DeepSeek-V3以多項開創(chuàng)性技術(shù),大幅提升了模型的性能和訓練效率。DeepSeek-V3在性能比肩GPT-4o的同時,研發(fā)卻只花了558萬美元,訓練成本不到后者的二十分之一。因為表現(xiàn)太過優(yōu)越,DeepSeek在硅谷被譽為“來自東方的神秘力量”。2025年1月20日,DeepSeek-R1正式發(fā)布,擁有卓越的性能,在數(shù)學、代碼和推理任務上可與OpenAIo1媲美。DeepSeek創(chuàng)始人梁文峰3.4.2國內(nèi)的大模型產(chǎn)品n通義千問通義千問是阿里云推出的一個超大規(guī)模的語言模型,它具備多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語言支持的能力。通義千問這個名字有“通義”和“千問”兩層含義,“通義”表示這個模型能夠理解各種語言的含義,“千問”則表示這個模型能夠回答各種問題。通義千問基于深度學習技術(shù),通過對大量文本數(shù)據(jù)進行訓練,從而具備了強大的語言理解和生成能力。它能夠理解自然語言,并能夠生成自然語言文本同時,通義千問還具備多模態(tài)理解能力,能夠處理圖像、音頻等多種類型的數(shù)據(jù)。通義千問的應用范圍非常廣泛,可以應用于智能客服、智能家居、移動應用等多個領(lǐng)域。它可以與用戶進行自然語言交互,幫助用戶解決各種問題,提供相關(guān)的知識和信息。同時,通義千問還可以與各種設(shè)備和應用進行集成,為用戶提供更加便捷的服務3.4.2國內(nèi)的大模型產(chǎn)品n字節(jié)跳動豆包豆包是字節(jié)跳動基于云雀模型開發(fā)的AI,能理解你的需求并生成高質(zhì)量回應。它知識儲備豐富,涵蓋歷史、科學、技術(shù)等眾多領(lǐng)域,無論是日常問題咨詢,還是深入學術(shù)探討,都能提供準確全面的信息。同時,具備出色的文本創(chuàng)作能力,能撰寫故事、詩歌、文案等各類體裁。并且擅長語言交互,交流自然流暢,就像身邊的知心伙伴,耐心傾聽并給予恰當反饋。3.4.2國內(nèi)的大模型產(chǎn)品n文心一言文心一言是由百度研發(fā)的知識增強大模型,能夠與人對話互動、回答問題、協(xié)助創(chuàng)作,高效便捷地幫助人們獲取信息、知識和靈感文心一言基于飛槳深度學習平臺和文心知識增強大模型,持續(xù)從海量數(shù)據(jù)和大規(guī)模知識中融合學習,具備知識增強、檢索增強和對話增強的技術(shù)特色。文心一言具有廣泛的應用場景,例如智能客服、智能家居、移動應用等領(lǐng)域。它可以與用戶進行自然語言交互,幫助用戶解決各種問題,提供相關(guān)的知識和信息3.5大模型的基本原理大模型是基于Transformer架構(gòu)的,這種架構(gòu)是一種專門用于自然語言處理的“編碼-解碼器”架構(gòu)。在訓練過程中,大模型將輸入的單詞以向量的形式傳遞給神經(jīng)網(wǎng)絡(luò),然后通過網(wǎng)絡(luò)的編碼解碼以及自注意力機制,建立起每個單詞之間聯(lián)系的權(quán)重。大模型的核心能力在于將輸入的每句話中的每個單詞與已經(jīng)編碼在模型中的單詞進行相關(guān)性的計算,并把相關(guān)性又編碼疊加在每個單詞中。這樣,大模型能夠更好地理解和生成自然文本,同時還能夠表現(xiàn)出一定的邏輯思維和推理能力3.5大模型的基本原理 3.6大模型的特點大模型通常包含數(shù)十億個參數(shù),模型大小可以達到數(shù)百GB甚至更大。這種巨大的規(guī)模不僅提供了強大的表達能力和學習能力,還使得大模型在處理復雜任務時具有更高的效率和準確性3.6大模型的特點(2)涌現(xiàn)能力涌現(xiàn)能力是指模型在訓練過程中突然展現(xiàn)出之前小模型所沒有的、更深層次的復雜特性和能力。當模型的訓練數(shù)據(jù)突破一定規(guī)模時,模型能夠綜合分析和解決更深層次的問題,展現(xiàn)出類似人類的思維和智能。這種涌現(xiàn)能力是大模型最顯著的特點之一,也是其超越傳統(tǒng)模型的關(guān)鍵所在3.6大模型的特點(3)更好的性能和泛化能力(4)多任務學習3.6大模型的特點(5)大數(shù)據(jù)訓練(6)強大的計算資源3.6大模型的特點(7)遷移學習和預訓練在特定任務的數(shù)據(jù)上進行微調(diào)在特定任務的數(shù)據(jù)上進行微調(diào)跨領(lǐng)域的應用能力3.6大模型的特點模的未標記數(shù)據(jù)中,大模型通過預測輸入數(shù)據(jù)的3.6大模型的特點(9)領(lǐng)域知識融合3.6大模型的特點 3.7大模型的分類語言大模型是指在自然語言處理(NaturalLanguageProcessing,NLP)領(lǐng)域中的一類大模型,通常用于處理文本數(shù)據(jù)和理解自然語言。這類大模型以學習自然語言的各種語法、語義和語境規(guī)則。代表性產(chǎn)品包括GPT系列(OpenAI)、Bard視覺大模型是指在計算機視覺(ComputerVision,CV)領(lǐng)域中使用的大模型,通常用于圖像處理和分析。這類模型通過在大規(guī)模圖像數(shù)據(jù)上進行訓練,可圖像分割、姿態(tài)估計、人臉識別等。代表性產(chǎn)品包括VIT系列(Google)、文心UFO、華為盤古多模態(tài)大模型3.7大模型的分類按照應用領(lǐng)域的不同,大模型主要可以分為L0、L1、L2三個層級相當于AI完成了“通識教育”領(lǐng)域的性能和準確度,相當于AI成為“行業(yè)專家” 3.8大模型的應用領(lǐng)域大模型的應用領(lǐng)域非常廣泛,涵蓋了自然語言處理、計算機視覺、語音識別、推薦系統(tǒng)、醫(yī)療健康、金融風控、工業(yè)制造、生物信息學、自動駕駛、氣候研究等多個領(lǐng)域跨語言翻譯)、問答系統(tǒng)(能夠回答用戶提出的問題)(用于判斷文本中的情感傾向)、語言生成(如聊天機器(2)計算機視覺體)、圖像生成(如風格遷移、圖像超分辨率增強)、人臉于安全驗證和身份識別)、醫(yī)學影像分析(輔助醫(yī)生診斷疾?。┑?.8大模型的應用領(lǐng)域(3)語音識別(4)推薦系統(tǒng)大模型可以用于個性化推薦、廣告推薦等任務。通過分析3.8大模型的應用領(lǐng)域3.8大模型的應用領(lǐng)域3.9.1大模型對工作的影響提高工作效率大模型在自然語言處理、機器翻譯等領(lǐng)域的應用,使得人們能夠快速、準確地處理大量文在翻譯領(lǐng)域,大模型能夠自動翻譯多種語言,減少人工翻譯優(yōu)化決策過程大模型能夠收集、整理和分析大量的數(shù)據(jù),通過數(shù)據(jù)挖掘和機器學習技術(shù),幫助人們更準確地了解問題現(xiàn)狀,預測未來部分工作大模型的發(fā)展使得一些繁瑣、從而減輕了人們的工作負擔。例如,在金融領(lǐng)域,大模型可以自動分析大量的金融數(shù)據(jù),創(chuàng)造新的就業(yè)機會隨著大模型的普及和應用,將創(chuàng)造出許多新的就業(yè)機會。例如,需要更多的人來開發(fā)和維護大模型,也需要更多的人來3.9.2大模型對生活的影響大模型在智能家居、智能客服等領(lǐng)域的例如,通過智能家居系統(tǒng),人們可以通大模型在教育領(lǐng)域的應用,可以幫助人們更高效地學習新知識。例如,通過大模型的智能推薦功能,人們可以根據(jù)自己的興趣和需求,獲取更加個性化的學大模型在娛樂領(lǐng)域的應用,可以提供更加豐富、多樣的娛樂體驗。例如,通過大模型的語音識別功能,人們可以通過語音指令控制游戲,實現(xiàn)更加智能化的 3.10.1為什么需要本地部署大模型本地部署大模型本地部署大模型3.10.2本地部署大模型方法?安裝Ollama?下載DeepSeekR1?運行DeepSeekR1?使用OpenWebUI增強交互體驗 3.11基于大模型的智能體智能體(AIAgent又稱“人工智能代理”,是一種模仿人類智能行為的智能化系統(tǒng),它就像是擁有豐富經(jīng)驗和知識的“智慧大腦”,能夠感知所處的環(huán)境,并依據(jù)感知結(jié)果,自主地進行規(guī)劃、決策,進而采取行動以達成特定目標。簡單來說,智能體能夠根據(jù)外部輸入做出決策,并通過與環(huán)境的互動,不斷優(yōu)化自身行為。智能體本身既不是單純的軟件也不是硬件,而是一個更為寬泛的概念,它們可以是軟件程序、機器人或其他形式的系統(tǒng),具備一定的自主性和智能性。3.11基于大模型的智能體基于大模型的智能體是指利用大語言模型(如GPT、BERT等)作為核心組件,構(gòu)建的能夠執(zhí)行特定任務、與環(huán)境交互并做出決策的人工智能系統(tǒng)。這些智能體具有自主性、交互性、適應性等特點,能夠模擬人類的認知和決策過程,提供更加自然、高效和個性化的交互體驗。它們能夠處理海量數(shù)據(jù),進行高效的學習與推理,并展現(xiàn)出跨領(lǐng)域的應用潛力。3.11基于大模型的智能體2025年1月23日,OpenAI發(fā)布了一個創(chuàng)新性的智能體——Operator,它是一個能夠像人類一樣使用計算機的智能體。它基于OpenAI最新研發(fā)的CUA(Computer-UsingAgent)模型,CUA將GPT-4o的視覺功能與通過強化學習獲得的高級推理相結(jié)合,經(jīng)過訓練可以與圖形用戶界面(GUI,即人們在屏幕上看到的按鈕、菜單和文本字段)進行交互。Operator通過觀察屏幕并使用虛擬鼠標和鍵盤來完成任務,而無需依賴專門的API接口。這種設(shè)計使其可以適配任何為人類設(shè)計的軟件界面,帶來極高的靈活性。Operator好比一個博士水平的個人助理,你給他一個復雜的任務,它就會自動執(zhí)行。Operator的主要功能包括自主完成諸如采購雜貨、提交費用報表、訂票、買日用品、填寫表格等任務,旨在通過自動化操作提升日常生活和工作效率。它還可以一邊在StubHub搜索勇士隊比賽門票,一邊處理網(wǎng)球場預訂、尋找清潔服務和DoorDash訂餐,實現(xiàn)多任務并行處理。3.11基于大模型的智能體2025年2月3日,OpenAI發(fā)布了一款新的智能體產(chǎn)品——DeepResearch。DeepResearch由OpenAIo3模型的一個版本提供支持,該模型針對網(wǎng)頁瀏覽和數(shù)據(jù)分析進行了優(yōu)化,它利用推理來搜索、解釋和分析互聯(lián)網(wǎng)上的大量文本、圖像和PDF,并根據(jù)需要根據(jù)遇到的信息做出調(diào)整。DeepResearch具有以下四大核心技術(shù):(1)數(shù)據(jù)雷達。會自動24小時掃描全球知識庫。(2)知識拼圖。能把零散的信息拼成完整的戰(zhàn)略地圖。(3)邏輯推理。發(fā)現(xiàn)矛盾時,自動回溯、驗證,調(diào)整推理路徑。(4)學術(shù)裁縫??梢跃C合各種知識,生成完美的報告,還附帶文獻引用。3.11基于大模型的智能體Coze(扣子)4.1.1什么是AIGCAIGC的全稱為“ArtificialIntelligenceGeneratedContent”,中文翻譯為“人工智能生成內(nèi)容”。這是一種新的創(chuàng)作方式,利用人工智能技術(shù)來生成各種形式的內(nèi)容,包括文字、音樂、圖像、視頻等4.1.2AIGC與大模型的關(guān)系大模型與AIGC之間的關(guān)系可以說是相輔相成、相互促進的。大模型為AIGC提供了強大的技術(shù)基礎(chǔ)和支撐,而AIGC則進一步推動了大模型的發(fā)展和應用,具體如下:AIGC的需求也推動了大AIGC的需求也推動了大模型的發(fā)展大模型和AIGC的結(jié)合,也帶來了廣泛的應用前景大模型為AIGC提供了豐富的數(shù)據(jù)資源和強大的計算能力4.1.3常見的AIGC應用場景AIGC可以應用于各行各業(yè),主要包括但不限于生成文字、圖像、音頻、視頻等,具體如下:游戲辦公寫周報日報游戲辦公寫周報日報,寫方案,寫運營活動,制作PPT,寫讀后感,寫代碼生成商品標題、描述、廣告文案和廣告圖生成場景原畫,生成角色形象,生成世界觀,生成數(shù)值,生成3D模型生成商品標題、描述、廣告文案和廣告圖娛樂影視娛樂頭像生成,照片修復,圖像生成,音樂生成生成分鏡頭腳本,生成劇本腳本頭像生成,照片修復,圖像生成,音樂生成)4.1.3常見的AIGC應用場景藝術(shù)寫詩,寫小說,藝術(shù)寫詩,寫小說,生成藝術(shù)創(chuàng)作品,草圖生成,藝術(shù)風格轉(zhuǎn)換,音樂創(chuàng)作教育批改試卷,試卷創(chuàng)建,搜題虛擬講師媒體軟文撰寫,大綱提煉,熱點撰寫生活制定學習計劃,做旅游規(guī)劃設(shè)計動漫原畫繪制,動畫生成,分鏡生成,音樂生成UI設(shè)計,美術(shù)設(shè)計,插畫設(shè)計,建筑設(shè)計4.1.4AIGC技術(shù)對行業(yè)發(fā)展的影響AIGC技術(shù)對行業(yè)發(fā)展的影響深遠且廣泛,主要體現(xiàn)在以下幾個方面:生產(chǎn)力提升與成本降低生產(chǎn)力提升與成本降低應用,幫助創(chuàng)作者快速生成多樣化、個性化的內(nèi)容,滿足市場需求。這種技術(shù)革新不僅降低了內(nèi)容創(chuàng)作的成本,還激發(fā)了創(chuàng)作者的創(chuàng)新靈感,推動了內(nèi)用戶體驗的升級用戶體驗的升級的服務,滿足用戶的個性化需求。這種以用戶為中心的服務模式不僅增強了AIGC技術(shù)的快速發(fā)展為傳統(tǒng)行業(yè)帶來了轉(zhuǎn)型升級的契機。通過與AIGC技術(shù)的深度融合,傳統(tǒng)行業(yè)可以探索新的商業(yè)模式和服務模式,實現(xiàn)創(chuàng)新發(fā)展。的服務,滿足用戶的個性化需求。這種以用戶為中心的服務模式不僅增強了4.1.5AIGC技術(shù)對職業(yè)發(fā)展的影響AIGC技術(shù)對職業(yè)發(fā)展產(chǎn)生了深遠的影響,主要體現(xiàn)在以下幾個方面:新興職業(yè)的出現(xiàn)隨著AIGC技術(shù)的快速發(fā)展,新興職業(yè)的出現(xiàn)隨著AIGC技術(shù)的快速發(fā)展,一系列與該技師、機器學習工程師、數(shù)據(jù)標注員等職業(yè)需求激增。這些新興職業(yè)不僅要求從業(yè)者具備扎實的技術(shù)基礎(chǔ),還需要不斷學習和掌握最工作方式的變革AIGC技術(shù)改變了傳統(tǒng)的工作方式,使得遠程工作、靈活辦公成為可能。許多企業(yè)開始采用AIGC技術(shù)來優(yōu)化工作流程,減少人力成本,提高工作效率。這種變革不僅為員工提供了更加靈活的工作方式,也為企業(yè)帶來AIGC技術(shù)也為傳統(tǒng)職業(yè)的轉(zhuǎn)型升級提供了契機。許多傳統(tǒng)職業(yè)如編輯、設(shè)計師、教師等,在AIGC技術(shù)的輔助下,工作效率和創(chuàng)需要從業(yè)者不斷適應技術(shù)變革,掌握新的技持續(xù)學習與技能提升面對AIGC持續(xù)學習與技能提升面對AIGC技術(shù)的快速發(fā)展,從業(yè)者需要不斷學習和提升自己的技能水平。通過參加培訓課程、閱讀專業(yè)書籍、參與技術(shù)論壇等方式,從業(yè)者可以緊跟技術(shù)前沿,保持自己的AIGC技術(shù)的發(fā)展為職業(yè)發(fā)展路徑提供了更多的可能性。從業(yè)者可以根據(jù)自己的興趣和一些對AI技術(shù)感興趣的從業(yè)者可以選擇成為AI訓練師或機器學習工程師,而一些具有創(chuàng)意和設(shè)計才能的從業(yè)者則可以利用AIGC技4.1.6常見的AIGC大模型工具常見的AIGC大模型工具包括:OpenAI的ChatGPT科大訊飛的訊飛星火OpenAI的ChatGPT科大訊飛的訊飛星火阿里的通義千問DeepSeek百度文心一言百度文心一言字節(jié)跳動豆包字節(jié)跳動豆包這些工具基于大規(guī)模語言模型技術(shù),具備文本生成、語言理解、知識問答、邏輯推理等多種能力,可廣泛應用于寫作輔助、內(nèi)容創(chuàng)作、智能客服等多個領(lǐng)域。通過不斷迭代和優(yōu)化,為用戶提供更加智能、高效的內(nèi)容生成解決方案4.1.7AIGC大模型的提示詞AIGC大模型的提示詞(Prompt)是指用戶向大模型輸入的文本內(nèi)容,用于觸發(fā)大模型的響應并指導其如何生成或回應這些提示詞可以是一個問題、一段描述、一個指令,甚至是一個帶有詳細參數(shù)的文字描述。它們?yōu)榇竽P吞峁┝松蓪谋尽D片、音頻、視頻等內(nèi)容的基礎(chǔ)信息和指導方向。提示詞的重要作用如下:引導生成增強交互性提高準確性4.1.7AIGC大模型的提示詞使用提示詞需要注意一些技巧,這樣可以從大模型獲得更加符合我們預期要求的結(jié)果,主要技巧如下:考慮受眾分解復雜任務使用肯定性指令簡潔明確考慮受眾分解復雜任務使用肯定性指令簡潔明確明確角色遵守規(guī)則自然語言回答示例驅(qū)動明確角色遵守規(guī)則自然語言回答示例驅(qū)動)4.2.1案例1:與DeepSeek進行對話1.快速體驗DeepSeek訪問DeepSeek官網(wǎng)(/會出現(xiàn)如圖7-1所示對話界面,在提示詞輸入框的底部,有兩個按鈕,即“深度思考(R1)”和“聯(lián)網(wǎng)搜索”,可以用鼠標點擊來選中或取消,默認情況下,“深度思考(R1)”按鈕是處于選中狀態(tài),“聯(lián)網(wǎng)搜索”則處于未選中狀態(tài)。兩個按鈕的功能如下:(1)深度思考(R1)。表示觸發(fā)更復雜的多步推理能力,適合需要邏輯鏈分析的場景,典型使用場景包括數(shù)學題/物理題推導、文學作品的隱喻分析、編程問題的架構(gòu)設(shè)計、需要分步驟解釋的操作指南等。(2)聯(lián)網(wǎng)搜索。表示實時獲取最新網(wǎng)絡(luò)信息,適合時效性強的查詢,典型使用場景包括查詢實時股價/匯率、驗證最新科研成果、獲取突發(fā)事件進展、檢索特定網(wǎng)頁內(nèi)容等。)4.2.1案例1:與DeepSeek進行對話1.快速體驗DeepSeek在提示詞輸入框中輸入“請模仿李白的《望廬山瀑布》做一首詩,題目是《看廈門鼓浪嶼》”,然后回車,或者用鼠標點擊提示詞輸入框右側(cè)的箭頭按鈕,向DeepSeek發(fā)起提問。DeepSeek給出的回答如圖7-2所示,需要注意的是,大模型屬于概率模型,每次生成的回答內(nèi)容可能不完全相同。)4.2.1案例1:與DeepSeek進行對話2.DeepSeek的基本用法(1)基本原則:簡單直接,自然表達。①無需復雜結(jié)構(gòu)。直接描述需求即可,無需添加“角色扮演”(如“假設(shè)你是專家”)或復雜指令(如“用學術(shù)語言分三點回答”)。比如,你可以直接向DeepSeek提問“什么是光合作用?”、“如何用Python寫一個計算器程序?”,而不建議使用提示詞“請以生物學教授的身份,用三個段落解釋光合作用,每段不超過100字”。②多輪對話優(yōu)化結(jié)果。如果首次回答不完整,可通過追問補充細節(jié),無需一次性給出完美提示。比如,第一輪提問“寫一首關(guān)于秋天的詩”,第二輪提問“加入一些悲傷的情緒”,第三輪提問“把‘落葉’換成比喻句”。(2)不同場景的提問技巧(非必需,但可提升效率)。雖然簡單提問即可滿足大多數(shù)需求,但在復雜任務中,適當提供背景信息或明確需求會讓結(jié)果更精準,具體技巧包括:①知識類問題。比如,基礎(chǔ)提問是“量子力學的基本原理是什么?”,優(yōu)化后的提問是“用通俗易懂的語言解釋量子糾纏,適合高中生理解”,②創(chuàng)作類任務(寫作、編程等)。比如,基礎(chǔ)提問是“寫一個關(guān)于人工智能的科幻短篇故事”,優(yōu)化后的提問是“寫一個反烏托邦主題的科幻故事,主角是女性工程師,結(jié)局有反轉(zhuǎn)”。③實用建議(學習、工作等)。比如,基礎(chǔ)提問是“如何提高英語聽力?”,優(yōu)化后的提問是“我每天只有30分鐘學習時間,有哪些高效的英語聽力練習方法?”。④復雜任務(數(shù)據(jù)分析、代碼調(diào)試)。比如,基礎(chǔ)提問是“這段Python代碼報錯了,幫我看看問題”,優(yōu)化后的提問是“我的代碼目標是爬取網(wǎng)頁數(shù)據(jù),但遇到SSL證書錯誤。報錯信息如下:[粘貼代碼]”。)4.2.1案例1:與DeepSeek進行對話2.DeepSeek的基本用法作為初學者,DeepSeek的一些“魔法”指令也很有用,比如,你可以輸入“/步驟如何??機拍攝旅游照?”,DeepSeek返回的回答結(jié)果就會按照步驟詳細給出拍攝旅游照片的說明,再比如,你可以輸入“請解釋量?計算,然后/簡化”,它就會返回比較簡明扼要的回答。表DeepSeek的“魔法”指令指令功能/續(xù)寫當回答中斷時?動繼續(xù)?成/簡化將復雜內(nèi)容轉(zhuǎn)換成??話/?例要求展?實際案例(特別是寫代碼時)/步驟讓AI分步驟指導操作流程/檢查幫你發(fā)現(xiàn)?檔中的錯誤)4.2.1案例1:與DeepSeek進行對話3.使用DeepSeek處理文檔點擊DeepSeek界面中的「回形針」圖標上傳?件,支持的文件類型包括文本類(PDF、DOCX、TXT、Markdown)、數(shù)據(jù)類(CSV、XLSX)和圖像類(JPG、PNG)。然后,就可以在對話框中輸入提示詞,比如,可以輸入“總結(jié)這份年報的三個核?要點”、“提取合同中的責任條款制成表格”、“對??檔A和?檔B的市場策略差異”、“從實驗報告中整理所有溫度數(shù)據(jù)”、“請識別圖片中的文字”等。也可以使用一些指令來處理文檔,如表7-2所示。表用于文檔處理的DeepSeek指令功能指令模板應用場景內(nèi)容摘要/總結(jié)[文件名]生成500字摘要快速把握長篇文檔核心內(nèi)容問答提取/問答[文件名]第三章提到的技術(shù)參數(shù)是?精準定位特定信息數(shù)據(jù)可視化/可視化[文件名]將銷售數(shù)據(jù)生成折線圖轉(zhuǎn)化表格數(shù)據(jù)為圖形分析跨文檔對比/對比文件Avs文件B的政策差異合同/論文查重對比還可以要求DeepSeek對回答結(jié)果進行結(jié)構(gòu)化輸出,比如,可以輸入如下提示詞:/解析文件年度報告.docx輸出要求:1.按"營收/利潤/成本"分類2.用Markdown表格對比近三年數(shù)據(jù)4.2.2案例2:與百度文心一言進行對話(1)告訴文心一言你要的風格在輸入提示詞時,明確指定你希望生成的文本內(nèi)容的風格。這樣,文心一言在理解并處理你的請求時,會更有針對性地調(diào)整其生成內(nèi)容的風格,以滿足你的具體需求。比如,可以使用提示詞:請按照要求寫一篇200字左右關(guān)于云計算的介紹。注意事項:文章的受眾是中學生,需要通俗易懂,語言風格需要幽默、風趣一些想要生成不同語氣風格的文字,可以在問題描述中加入你想要的語氣風格作為限定條件,提示文心一言按照你的要求去輸出。比如,如果你需要正式語氣,可以在提示詞中加入“請采用正式的詞匯和語法結(jié)構(gòu),使內(nèi)容顯得莊重、嚴肅和專業(yè)”;如果你需要抒情語氣,請在提示詞中加入“請使用富有感情和表達感情的詞匯,使內(nèi)容產(chǎn)生共鳴和情緒共振”;如果你需要口語化語氣,請在提示詞中加入“請運用口語化的表達方式,例如俚語、俗語和口頭禪,使內(nèi)容更加輕松和親切”。4.2.2案例2:與百度文心一言進行對話(2)告訴文心一言你要的結(jié)構(gòu)在構(gòu)建提示詞時,應明確指定期望的輸出結(jié)構(gòu)。比如,如果是要求生成一篇文章,可以在提示詞中明確指出“請按照引言-正文-結(jié)論的結(jié)構(gòu)來撰寫”。這樣,文心一言在生成內(nèi)容時,會遵循這一結(jié)構(gòu)框架,使得輸出更加條理清晰、邏輯嚴密。再比如,如果要撰寫給上級領(lǐng)導的方案、報告、總結(jié)時,可以使用提示詞:請按照【現(xiàn)狀/問題/解決方案,數(shù)據(jù)洞察/問題概覽/調(diào)研方向,數(shù)據(jù)/亮點/問題/經(jīng)驗】這個結(jié)構(gòu)撰寫一份關(guān)于我國芯片行業(yè)的總結(jié)報告4.2.2案例2:與百度文心一言進行對話(3)告訴文心一言你要的角色在提示詞中可以設(shè)定具體的角色或視角。例如,在要求創(chuàng)作故事時,可以明確指定“以一位勇敢探險家的視角講述這段經(jīng)歷”。這樣的提示能引導文心一言在生成內(nèi)容時,從特定角色的角度出發(fā),賦予文本獨特的情感色彩和敘事風格。此技巧有助于增強生成內(nèi)容的代入感和故事性,使內(nèi)容更加豐富和引人入勝。下面是一段提示詞實例:請你作為一個小紅書文案撰寫高手,為我生成一篇爆款小紅書文案,要求:突出酒店的特色,包括海景房、豪華單間、最新裝修、免費早餐、無線上網(wǎng)等下面是另一段提示詞實例:我希望你能扮演記者的角色我希望你能扮演記者的角色,按照我的要求撰寫一份新聞調(diào)查,要求:調(diào)查油罐車不清洗直接運送食用油的事情,不要出現(xiàn)具體企業(yè)名稱,要給出政府部門的處理態(tài)度4.2.2案例2:與百度文心一言進行對話(4)告訴文心一言你的內(nèi)容要求可以通過詳細具體的提示詞明確表達內(nèi)容要求。無論是希望生成的文章主題、關(guān)鍵詞匯,還是期望涵蓋的信息點、情感傾向,都應在提示詞中清晰呈現(xiàn)。這樣做能讓文心一言更準確地理解用戶需求,生成更符合期望的內(nèi)容。比如,可以通過如下提示詞表達自己的內(nèi)容要求:請把上面的數(shù)據(jù)更新到目前最新的數(shù)據(jù)4.2.2案例2:與百度文心一言進行對話(4)告訴文心一言你的內(nèi)容要求如果對輸出的內(nèi)容有比較多的要求或限制,不妨在輸入框中將這些內(nèi)容要求一條一條明確告訴文心一言,比如,可以采用類似如下的提示詞:請以小紅書的風格,按照以下要求幫我為“海景美食餐廳”寫一篇小紅書種草文案;內(nèi)容要求:(1)要有標題、正文(2)標題字數(shù):不超過20個字;盡量簡短精煉,要足夠吸引眼球,用詞浮夸(3)正文分段,層次分明,每段最少100字(4)要用“首先、其次、最后”這種模式(5)整篇文案不要超過1000個字4.2.2案例2:與百度文心一言進行對話(5)告訴文心一言你想寫的文體明確指定文體,如散文、小說、詩歌、科技文等,讓大模型理解并模擬該文體的語言特點、結(jié)構(gòu)安排和表達習慣,從而輸出更具針對性的文本。比如,可以采用提示詞“請寫一段[中秋賞月]的朋友圈文案,需要采用藏頭詩的形式”4.2.2案例2:與百度文心一言進行對話(6)指導文心一言分步解決問題將復雜問題拆解成多個簡單、具體的步驟,作為提示詞輸入給文心一言。這樣不僅能降低問題的處理難度,使文心一言更容易理解和響應,還能確保解決問題的過程更加系統(tǒng)、有條理。通過逐步引導,可以逐步逼近問題的解決方案,提高答案的準確性和實用性。比如,如果想讓文心一言幫你制定一份旅行規(guī)劃,可以使用類似如下的提示詞:請為我規(guī)劃一次為期一周的廈門自由行;(1)第1步:列出必去的景點,如廈門大學、鼓浪嶼、環(huán)島路、五緣灣、曾厝垵;(2)第2步:根據(jù)景點位置安排每日行程,確保交通便利;(3)第3步:推薦幾家當?shù)氐奶厣蛷d,包括早餐、午餐和晚餐;(4)第4步:提供一家性價比高的酒店住宿建議,并考慮其位置是否便于游覽。4.2.2案例2:與百度文心一言進行對話(7)告訴文心一言你要的示例明確溝通意圖,通過具體示例引導大模型理解你的需求。這有助于文心一言更準確地捕捉你的思維框架和期望結(jié)果,減少誤解。比如,可以使用類似如下的提示詞:我是一位高校教師,請幫我寫一份工作周報,內(nèi)容盡量簡潔精煉,下面是我本周的工作內(nèi)容:(1)完成了5個本科生畢業(yè)論文修改(2)撰寫了教材的一個章節(jié)“云計算與大數(shù)據(jù)”輸出要求示例:【本周工作周報】【本周工作進展】本周做了哪些事,產(chǎn)生了哪些結(jié)果【下周工作安排】基于本周的結(jié)果下周要推進哪些事【思考總結(jié)】簡要說說本周的收獲和反思4.2.2案例2:與百度文心一言進行對話(8)告訴文心一言你要的場景在輸入提示詞時,應明確描述所需的上下文或環(huán)境背景,如“在科幻電影中描述一個未來城市的景象”或“請撰寫一封給朋友的生日祝福信,場景設(shè)定在海邊日落時”。這樣做有助于文心一言更好地理解你的需求,生成更符合場景氛圍和情境的內(nèi)容,從而提升輸出內(nèi)容的貼切性和情感共鳴。)4.2.3案例3:使用訊飛智文生成PPT訊飛智文是科大訊飛公司旗下的AI一鍵生成PPT/WORD的網(wǎng)站平臺,是基于科大訊飛星火認知大模型技術(shù)基礎(chǔ)上開發(fā)的一個具體應用,主要功能有文檔一鍵生成、AI撰寫助手、多語種文檔生成、AI自動配圖、模板圖示切換功能。這里介紹如何使用訊飛智文快速生成PPT。請請首先準備一個包含文本內(nèi)容的PDF文件,比如,可以從網(wǎng)絡(luò)新聞報道中復制一段關(guān)于2024年7月19日微軟藍屏事件的內(nèi)容保存到一個WORD文檔中,命名為“微軟藍屏.docx”,然后,使用WPS軟件打開“微軟藍屏.docx”,把該WORD文檔保存成PDF格式,生成“微軟藍屏.pdf”。4.2.3案例3:使用訊飛智文生成PPT訪問訊飛智文官網(wǎng)(/在首頁(如圖所示)中點擊“免費使用”,然后按照網(wǎng)頁提示完成注冊(推薦使用手機號注冊)。)4.2.3案例3:使用訊飛智文生成PPT在頁面中(如圖7-2所示)點擊“開始制作”PPT的“文檔創(chuàng)建”。然后,在出現(xiàn)的頁面中(如圖7-4所示點擊“點擊上傳”,把本地文件“微軟藍屏.pdf”文件上傳上去(當然,也可以上傳“微軟藍屏.docx”)。然后,在出現(xiàn)的頁面中(如圖7-5所示點擊“開始解析文檔”。之后,頁面會顯示提示文字的PPT標題和大綱,如果你不滿意,可以點擊頁面底部的“重新生成”,如果滿意,可以直接點擊“下一步”。)4.2.3案例3:使用訊飛智文生成PPT圖7-3選擇AIPPT中的“文檔創(chuàng)建”)4.2.3案例3:使用訊飛智文生成PPT)4.2.3案例3:使用訊飛智文生成PPT)4.2.3案例3:使用訊飛智文生成PPT在出現(xiàn)的頁面中(如圖7-6所示選擇你想要的模板配色,比如,這里選擇“清逸天藍”,然后點擊頁面頂部的“下一步”。經(jīng)過一段時間以后,頁面就會顯示自動生成的PPT(如圖7-7所作PPT的水平非常專業(yè),邏輯清晰,配圖精美,超過了很多PPT初級者的制作水平,可以大大提高普通用戶制作PPT的效率和水平。4.3圖片類AIGC應用實踐圖片類AIGC是一種基于人工智能技術(shù)生成圖片的方法,它利用深度學習、生成對抗網(wǎng)絡(luò)(GAN)等先進算法,通過學習和模仿大量圖像數(shù)據(jù),能夠自動創(chuàng)作出高度真實和藝術(shù)化的圖片。AIGC在圖像生成、修復、風格轉(zhuǎn)換、藝術(shù)創(chuàng)作等領(lǐng)域展現(xiàn)出強大能力,為數(shù)字藝術(shù)、設(shè)計、游戲、電影等多個行業(yè)帶來創(chuàng)新解決方案。其優(yōu)勢包括高效性、多樣性和自動化,能夠快速生成大量高質(zhì)量的圖像內(nèi)容,滿足各種復雜需求。4.3.1圖片類AIGC應用場景圖片類AIGC的應用場景非常廣泛,主要包括圖像生成、圖像修復、圖像增強和圖像識別等方面:AIGC能夠生成高度逼真的圖像,如人臉、動物、建筑物等。例如,OpenAI發(fā)布的DALL-E可以根據(jù)文本提示詞創(chuàng)作出全新的、原創(chuàng)的圖像,展示了AI在圖像創(chuàng)作方面的強大能力。AIGC還可以修復損壞的圖像,如去除噪聲、填充缺失的部分等。這項技術(shù)對于保護和恢復古老的藝術(shù)作品、修復損壞的照片等具有重要意義。通過對圖像進行增強處理,AIGC可以增加圖像的飽滿感和增強細節(jié),使圖像質(zhì)量得到提升。這在提升照片的視覺效果、改善圖像的清晰度和細節(jié)方面非常有用。AIGC在圖像識別方面也有廣泛應用,可以識別圖像中的對象、場景和特征,如人臉識別、車牌識別等。這項技術(shù)對于安防監(jiān)控、智能搜索、自動駕駛等領(lǐng)域的發(fā)展至關(guān)重要。4.3.2圖片類AIGC案例實踐圖片類AIGC大模型主要包括Midjourney、StableDiffusionSDXL、百度文心一格等。這里以百度文心一格為例介紹圖片類AIGC的使用方法。文心一格是一款由百度公司研發(fā)的AI繪畫工具,為用戶提供了豐富的創(chuàng)意空間。使用文心一格進行AI繪畫的步驟包括注冊賬戶、選擇創(chuàng)作模式、輸入提示詞、設(shè)置畫面類型、設(shè)置比例、設(shè)置數(shù)量以及生成圖片等,具體如下:(1)注冊賬戶:訪問文心一格官網(wǎng)(/點擊“注冊”按鈕,完成注冊過程。(2)選擇創(chuàng)作模式:進入文心一格首頁以后,點擊“立即創(chuàng)作”。在出現(xiàn)的界面中,在界面左上角位置選擇“AI創(chuàng)作”,可供選擇的模式包括推薦、自定義、商品圖、藝術(shù)字、海報,可以滿足不同的創(chuàng)作需求。這里可以選擇默認的模式“推薦”。)4.3.2圖片類AIGC案例實踐((3)輸入提示詞:在提示詞輸入框中輸入提示詞,比如輸入“請繪制一張圖片,一個9歲的女孩子在海邊沙灘上挖沙子”。(4(4)設(shè)置畫面類型:可以選擇智能推薦、唯美二次元、中國風等各種類型。((5)設(shè)置比例:可以選擇豎圖、方圖、橫圖。((6)設(shè)置數(shù)量:設(shè)置想要生成的圖片的數(shù)量,比如設(shè)置為1。(7)生成圖片:點擊“立即生成”,就可以生成相應的圖片(如圖所示)。圖片生成以后,可以點擊圖片底部的“編輯本圖片”,對圖片進行編輯。)4.3.2圖片類AIGC案例實踐文心一格提供了豐富的AI編輯功能,可以對圖片進行各種智能化處理,包括圖片擴展、圖片變高清、涂抹消除、智能摳圖、涂抹編輯、圖片疊加等4.4語音類AIGC應用實踐語音類AIGC是一種利用人工智能技術(shù)(特別是語音識別、自然語言處理和語音合成技術(shù)自動生成和處理語音內(nèi)容的技術(shù)。它能夠模擬人類語音,實現(xiàn)語音到文本的轉(zhuǎn)換、文本到語音的合成,以及語音情感分析等功能,廣泛應用于智能語音助手、智能客服、語音翻譯等多個領(lǐng)域。4.4.1語音類AIGC應用場景語音類AIGC的應用場景非常豐富,涵蓋了多個領(lǐng)域,從日常生活到專業(yè)應用,都展現(xiàn)出了其獨特的價值和潛力,以下是一些主要的語音類AIGC應用場景:虛擬人物與數(shù)字人虛擬人物與數(shù)字人智能語音助手語音翻譯語音合成與轉(zhuǎn)換語音翻譯語音合成與轉(zhuǎn)換智能客服語音分析與情感識別智能客服智能駕駛艙與車載語音助手應用場景4.4.2語音類AIGC案例實踐n豆包大模型的語音類功能用法一般情況下,普通用戶在手機上使用語音類AIGC大模型的場景比較多,因此,這里介紹手機版豆包的使用方法。在智能手機上下載并安裝“豆包APP”。啟動進入豆包APP,會出現(xiàn)如圖所示的對話界面,按住“語音按鈕”(圖中箭頭指向的位置)不要松開,然后就可以對著手機說話,把自己的需求說出來,比如,可以說“請介紹一下廈門大學”,然后松開“語音按鈕”,豆包就可以立即開始回答你提出的問題。豆包可以支持實時翻譯,你可以語音輸入“廈門大學的英文名稱是什么”,豆包會馬上給出翻譯結(jié)果。)4.4.2語音類AIGC案例實踐n豆包大模型的語音類功能用法豆包不僅支持語音輸入,也可以支持文字輸入,只要在文字輸入框內(nèi)輸入提示詞,豆包就會給出回答。豆包也支持AI繪圖功能,你可以用手指點擊界面上的“圖片生成”按鈕,然后輸入提示詞,比如通過文字或者語音輸入“請幫我繪制一張圖片,一個9歲的小女孩在海邊沙灘上玩沙子”,然后,豆包就會自動繪制生成滿足你要求的圖片4.4.2語音類AIGC案例實踐n豆包大模型的語音類功能用法豆包還有一個很實用的功能,就是可以幫助你進行英語口語對話練習。在豆包的操作界面的底部在豆包的操作界面的底部,用手指點擊“對話”,在出現(xiàn)的功能選擇界面中(如圖所示選擇“英語口語聊天搭子”就可以進入英語口語聊天界面(如圖所示按住界面右下角的“語音按鈕”,就可以開始用英語語音聊天了,你說完一句英語,松開語音按鈕,豆包就會自動用英語語音回答你,然后你可以繼續(xù)輸入語音進行后續(xù)對話。4.4.2語音類AIGC案例實踐n訊飛智作大模型的語音類功能用法訪問訊飛配音官網(wǎng)(/首先按照頁面提示完成用戶注冊。注冊成功以后,會進入“訊在訊飛配音頁面在訊飛配音頁面(如圖4-14所示輸入你的配音文本內(nèi)容,比如輸入“人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的一門新的技術(shù)科學”。可播類型,并且允許對主播的語速和語調(diào)進行設(shè)置,然后再點擊頁面右上角的“使用”按鈕。然后,點擊頁面右上角的“生成音頻”,在出現(xiàn)的頁面中(如圖4-16所示設(shè)置作品名稱、文件格式和字幕,再點擊“確認”。這時這時,會出現(xiàn)訂單支付頁面(如圖4-17所示可以選擇“會員及語音包購買”(45元一個月)或者“單次付費”(20元每次)。完成費用支付以后,就會出現(xiàn)下載提示頁面(如圖4-18所示點擊“去下載”,然后,在出現(xiàn)的下載頁面中(如圖4-19所示點擊下載按鈕(圖中箭頭指向的位置)就可以把配音文件下載到本地電腦中。在本地電腦播放下載后的配音文件可以發(fā)現(xiàn),現(xiàn)在的AI配音技術(shù)已經(jīng)比較成熟,生成的配音質(zhì)量已經(jīng)可以達到專業(yè)配音員的水平。4.4.2語音類AIGC案例實踐n訊飛智作大模型的語音類功能用法4.4.2語音類AIGC案例實踐n訊飛智作大模型的語音類功能用法4.4.2語音類AIGC案例實踐n訊飛智作大模型的語音類功能用法4.4.2語音類AIGC案例實踐n訊飛智作大模型的語音類功能用法4.5視頻類AIGC應用實踐視頻類AIGC是指利用人工智能技術(shù),特別是深度學習、機器學習等算法,自動創(chuàng)建或處理視頻內(nèi)容的技術(shù)。它能根據(jù)給定的文本、圖像或其他數(shù)據(jù),自動生成符合描述的視頻內(nèi)容,涵蓋文生視頻、圖生視頻、視頻風格化、人物動態(tài)化等多個方向。這一技術(shù)在創(chuàng)意設(shè)計、影視制作等領(lǐng)域潛力巨大,極大地提升了視頻內(nèi)容的生產(chǎn)效率和質(zhì)量4.5.1視頻類AIGC應用場景視頻類AIGC在多個領(lǐng)域擁有廣泛的應用場景,以下是一些主要的應用方向:自露教育與培訓短視頻與直播廣告與營銷影視制作與后期制作教育與培訓短視頻與直播廣告與營銷其他領(lǐng)域新聞傳播與媒體融合虛擬現(xiàn)實與增強現(xiàn)實4.5.2代表性視頻類AIGC大模型視頻類AIGC大模型發(fā)端于Sora。2024年2月,美國的OpenAI發(fā)布了全球第一款文生視頻大模型Sora(這里的“文生視頻”是指由輸入的文本內(nèi)容生成相應的視頻迅速引起了業(yè)界的廣泛關(guān)注和討論,因其能夠快速生成高質(zhì)量的廣告宣傳視頻及商品演示視頻,從而大幅降低廣告相關(guān)內(nèi)容的制作成本及時間。我國的視頻類AIGC大模型主要包括:Vidu可靈由快手推出Vidu可靈由快手推出,被譽為中國版Sora,視頻生成時長可達120秒,支持文生視頻、圖生視頻、視頻續(xù)寫、鏡頭控制等功能,表現(xiàn)出色。由上海人工智能實驗室研發(fā),可生成分鐘級視頻,已用于央視AI動畫片《千秋詩頌》的制作,具備中國元素和高清畫質(zhì)。由上海人工智能實驗室研發(fā),可生成分鐘級視頻,已用于央視AI動畫片《千秋詩頌》的制作,具備中國元素和高清畫質(zhì)。由于視頻類AIGC大模型在使用時,會消耗大量的算力資源,使用成本很高,所以,目前國內(nèi)的視頻類AIGC大模型大多數(shù)沒有免費開放給大眾使用,即使是免費使用,也只能生成很短時間長度的視頻。)4.5.3視頻類AIGC案例實踐案例:使用騰訊智影生成數(shù)字人播報視頻(備注:本案例由夏小云老師制作)步驟1:登錄騰訊智影平臺。在瀏覽器地址欄中輸入網(wǎng)址“/”,進入“騰訊智影”平臺,點擊“登錄”(如圖7-107所示可以使用微信掃碼登錄、也可以手機號登錄或者QQ掃碼登錄,任選一種方式登錄即可。登錄成功后,點擊平臺首頁“智能小工具”欄目中的“數(shù)字人播報”按鈕(如圖7-108所示)或者“智能小工具”上方的“數(shù)字人播報”按鈕,進入“數(shù)字人播報”功能界面。圖7-107騰訊智影登錄界面圖7-108“數(shù)字人播報”功能入口4.5.3視頻類AIGC案例實踐步驟2:上傳PPT。進入“數(shù)字人播報”功能界面后(如圖7-109所示在左側(cè)工具欄,點擊“PPT模式”,平臺會出現(xiàn)“上傳PPT或PDF”的界面,點擊“上傳”按鈕,上傳需要播報的PPT,這里上傳“數(shù)字人播報PPT.ppt”文件(可以從林子雨編著《數(shù)字素養(yǎng)通識教程》教材官網(wǎng)下載)。圖7-109“PPT模式”上傳PPT入口4.5.3視頻類AIGC案例實踐步驟3:選擇數(shù)字人。PPT上傳結(jié)束后,點擊左側(cè)工具欄“數(shù)字人”按鈕,會出現(xiàn)“數(shù)字人”設(shè)置界面,包括“預置形象”和“照片播報”兩大板塊(如圖7-110所示)?!邦A置形象”分為“2D數(shù)字人”和“3D數(shù)字人”;“照片播報”分為“照片主播”和“AI繪制主播”兩種(如圖7-111所示)。這里選擇“預置形象”里面的“2D數(shù)字人”——卓妤數(shù)字人,作為PPT播報的數(shù)字人。圖7-110“預置形象”的數(shù)字人圖7-111“照片播報”的數(shù)字人4.5.3視頻類AIGC案例實踐步驟4:調(diào)整數(shù)字人的位置、大小和服裝類型。選用的數(shù)字人確認后,可以點擊PPT上的“數(shù)字人”,進入“數(shù)字人”設(shè)置界面,點擊“數(shù)字人編輯”按鈕(如圖7-112所示對“數(shù)字人”進行編輯,可以重新?lián)Q服裝以及選擇數(shù)字人出現(xiàn)的“形狀”;點擊“畫面”按鈕,可以通過坐標設(shè)置來調(diào)整數(shù)字人的位置和大?。ㄈ鐖D7-113所示也可以點擊數(shù)字人的邊框,通過拖動鼠標來調(diào)整數(shù)字人的位置和大小。這里可以根據(jù)PPT畫面的布局來調(diào)整“數(shù)字人”的位置和大小,盡量避免數(shù)字人遮擋文字。圖7-112“數(shù)字人編輯”功能界面確認服裝和形狀圖7-113進入“畫面”功能界面調(diào)整數(shù)字人的位置和大小4.9總結(jié)大模型是人工智能領(lǐng)域的重要研究方向大模型是人工智能領(lǐng)域的重要研究方向,其強大的語言理解和生成能力使得它在自然語言處理、機器翻譯、智能客服等領(lǐng)域有著廣泛的應用。大模型的訓練需要大量的數(shù)據(jù)和計算資源,同時也需要先進的技術(shù)和算法支持。隨著技術(shù)的不斷發(fā)展,大模型的應用場景也在不斷擴展,未來將會更加廣泛地應用于各個領(lǐng)域。4.5.3視頻類AIGC案例實踐步驟5:輸入播報內(nèi)容和設(shè)置字幕樣式。數(shù)字人調(diào)整完成后,點擊右側(cè)工具欄的“播報內(nèi)容”按鈕(如圖7-114所示),輸入播報內(nèi)容,播報內(nèi)容可以AI自動生成,也可以手動輸入或?qū)胛募ㄗ謹?shù)不超過5000字這里選擇“手動輸入”每頁PPT的播報內(nèi)容。點擊右側(cè)工具欄的“字幕樣式”按鈕(如圖7-115所示設(shè)置視頻字幕的樣式并打開字幕顯示按鈕,通過鼠標拖動把字幕放置畫面的合適位置。圖7-114輸入PPT播報內(nèi)容圖7-115設(shè)置字幕樣式并打開字幕按鈕4.5.3視頻類AIGC案例實踐步驟5:根據(jù)需要添加“背景”、“貼紙”、“音樂”并選擇播報音色。輸入完播報內(nèi)容后,可以點擊左側(cè)工具欄的“背景”、“貼紙”和“音樂”等功能(如圖7-116所示根據(jù)需要添加,這里選擇不添加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論