AI商業(yè)化的旗手:不止豆包的字節(jié)跳動-海通國際_第1頁
AI商業(yè)化的旗手:不止豆包的字節(jié)跳動-海通國際_第2頁
AI商業(yè)化的旗手:不止豆包的字節(jié)跳動-海通國際_第3頁
AI商業(yè)化的旗手:不止豆包的字節(jié)跳動-海通國際_第4頁
AI商業(yè)化的旗手:不止豆包的字節(jié)跳動-海通國際_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

l“更強模型”,是豆包大模型的持續(xù)追求。2023年,豆包大模型(原名:云雀)在字節(jié)跳動內(nèi)部完成了上線,在一年的時間內(nèi),豆包大模型在字節(jié)跳動內(nèi)部50多個業(yè)務被大量使用。2024年5月,字節(jié)跳動正式發(fā)布豆包大模型家族,此后7個月時間,豆包大模型團隊發(fā)布了Doubao-pro、Seed-TTS、Seed-ASR、Seed-Music、視頻生成模型、視覺理解模型等多項重磅成果,在語言能力、多模態(tài)理解與生成、模型推理、代碼生成等方面不斷提升。到2024年12月,豆包大模型通用模型能力已經(jīng)全面對齊GPT-4o,在FlagEval模型評測的“對話模型”榜單中,豆包-pro32k版本已經(jīng)位列第一。我們認為,在短短6個月的時間里,豆包大模型不斷升級迭代,性能持續(xù)提升,已經(jīng)成為字節(jié)AI發(fā)展的重要基石,這背后代表的是字節(jié)孜孜不倦的技術(shù)投入,這些投入不僅推動了模型能力的持續(xù)擴展,也有效地拓展了豆包大模型的應用邊界,此外,豆包大模型團隊對AI前沿技術(shù)的積極研究,奠定了未來豆包大模型長期發(fā)展的基礎(chǔ),未來豆包大模型的領(lǐng)先優(yōu)勢有望持續(xù)擴大,“更強模型”也有望不斷實現(xiàn)。l“更低價格”與“更易落地”,讓豆包大模型落地千行百業(yè)。2024年5月,豆包大模型剛發(fā)布時,豆包主力模型在企業(yè)市場的定價只有0.0008元/千tokens,0.8厘就能處理1500多個漢字,比行業(yè)便宜99.3%,大模型價格,進入“厘時代”。此后,豆包大模型家族維持了“極低”的定價體系,例如新發(fā)布的豆包·視覺理解的輸入價格為每千tokens0.003元,比行業(yè)平均價格降低85%,相當于一塊錢可以處理284張720P的圖片,視覺理解模型也正式走進厘時代。此外,豆包還積極開發(fā)各類開發(fā)者工具,助力AI應用的落地。例如字節(jié)發(fā)布的新一代AI應用開發(fā)平臺:扣子(Coze目前的扣子1.5已經(jīng)擁有超過100萬活躍開發(fā)者,發(fā)布超過200萬個智能體,并提供全新的AI應用開發(fā)環(huán)境和更強的多模態(tài)能力。這就使得豆包大模型迅速在各行各業(yè)落地,2024年12月豆包大模型日均tokens調(diào)用量突破4萬億,7個月增長幅度達33倍。尤其在汽車、手機、智能終端等新興行業(yè),豆包大模型調(diào)用量增長了50倍以上。我們認為,展望未來,字節(jié)AI的目標:“更強模型”、“更低價格”、“更易落地”正在推動字節(jié)AI更加高速的落地千行百業(yè),AI應用爆發(fā)的前夜也正離我們越來越近。l不止豆包,字節(jié)AI商業(yè)布局行以致遠。2023年8月豆包APP正式上線,伴隨時用榜(APP豆包11月上榜應用APPMAU高達5998萬,對比第二名文小言1299萬的數(shù)據(jù)在國內(nèi)處于斷崖領(lǐng)先的位置。在全球范圍內(nèi),豆包的11月上榜應用APPMAU也能排到第二的位置,僅次于ChatGPT。我們認為,豆包的功能全面,并且多端覆蓋,使用門檻又低,日常場景夠用,再疊加字節(jié)強大的廣告投放和流量效應,使得豆包獲得了巨大流量。而豆包也遠不是字節(jié)在AI應用唯一的布局,根據(jù)第一財經(jīng)雜志,字節(jié)目前還在正常運營的AI應用大約20款。在2024年8月a16z評選的領(lǐng)先的100款生成式AI應用榜單中,字節(jié)上榜了6款應用。我們認為,客觀上,AI技術(shù)逐漸從陡峭進入到平緩區(qū)間,AI商業(yè)化落地已經(jīng)成為事實上AI發(fā)展的下一階段。豆包使得字節(jié)獲得了領(lǐng)先于其他競爭對手的獨特的AI應用成功落地經(jīng)驗。考慮到字節(jié)強大的資本體量和對AI商業(yè)化的高度重視,字節(jié)目前20余款AI應用也許只是個開始,字節(jié)已經(jīng)成為了事實上的中國AI商業(yè)化旗手,正在AI發(fā)展的道路上行以致遠。l建議關(guān)注。金山辦公、新致軟件、漢得信息、合合信息、萬興科技、虹軟科技、新國都、當虹科技、同花順、福昕軟件、泛微網(wǎng)絡(luò)、致遠互聯(lián)、三六零、商湯-W、科大訊飛、邁富時、鼎捷數(shù)智、賽意信息、中國軟件國際、??低暋⒋笕A股份、潤澤科技、浪潮信息。l風險提示。AI技術(shù)的發(fā)展不及預期,AI商業(yè)落地不及預期,市場競爭加劇的風2行業(yè)研究·信息服務行業(yè)21.“更強模型”,是豆包大模型的持續(xù)追求 52.“更低價格”與“更易落地”,讓豆包大模型落地千行百業(yè) 3.不止豆包,字節(jié)AI商業(yè)布局行以致遠 4.建議關(guān)注與風險提示 3行業(yè)研究·信息服務行業(yè)3 圖1豆包大模型正式發(fā)布時已經(jīng)被廣泛應用 5圖2剛發(fā)布時的豆包大模型家族 6圖32024年6月的FlagEval大模型評測能力榜單(客觀評測) 7圖4豆包·視頻生成模型支持多種畫面比例/風格 8圖52024年9月豆包通用模型pro最新版本性能不斷升級 9圖6豆包·視覺理解模型內(nèi)容識別能力優(yōu)秀 圖7豆包·視覺理解模型理解推理能力突出 圖8豆包·視覺理解模型擁有細膩的視覺描述能力 圖9Doubao-pro綜合能力持平GPT-4o 圖10豆包通用模型pro性能全面升級 圖11豆包3D模型示例 圖12最新的豆包大模型家族 圖13Doubao-pro模型位列FlagEval模型評測第一 圖14火山引擎對話式AI實時交互服務方案架構(gòu) 圖15豆包·視頻生成模型運用的相關(guān)技術(shù) 圖16HybridFlow能有效減少模型參數(shù)在兩個階段之間的重分片和通信開銷 圖18北京大學-字節(jié)跳動“豆包大模型系統(tǒng)軟件聯(lián)合實驗室”簽約儀式 圖19豆包大模型維持“極低”價格水平 圖20豆包·視覺理解模型定價顯著低于行業(yè)水平 圖21方舟2.0擁有優(yōu)質(zhì)插件庫 圖22Prompt優(yōu)解功能介紹 圖23火山引擎提供的AI落地方案 圖24豆包大模型日均tokens7個月時間增速達33倍 圖25火山引擎汽車大模型生態(tài)聯(lián)盟首批聯(lián)盟成員 圖26豆包大模型在10-12月各應用場景調(diào)用量增長 圖27豆包APP版示例 圖28豆包支持一鍵生成帶有指定文字的圖片 圖29豆包電腦網(wǎng)頁版示例 圖30豆包排名2024年11月AI產(chǎn)品榜·國內(nèi)總榜第一 4行業(yè)研究·信息服務行業(yè)4圖31豆包能滿足日常生活中的多重需求 圖32豆包能滿足教育領(lǐng)域中的多重需求 圖33豆包的擬人化形象:可愛女生 圖34豆包輸入更方便,所以更“快” 圖35OlaFriend耳機與豆包App 圖36豆包離用戶更近,所以更“快” 圖37豆包模型能力更強,所以更“快” 圖382024年6月豆包MAU迅速超過競爭對手 圖39字節(jié)跳動旗下AI應用/硬件 圖40a16zTop50生成式AIWeb應用榜單 圖41a16zTop50生成式AI移動應用榜單 5行業(yè)研究·信息服務行業(yè)52023年,豆包大模型(原名:云雀)在字節(jié)跳動內(nèi)部完成了上線,它也是首批通過大模型服務安全備案的大模型之一。在一年的時間內(nèi),豆包大模型在字節(jié)跳動內(nèi)部50多個業(yè)務被大量使用,以進行AI創(chuàng)新,包括抖音、頭條等數(shù)億DAU產(chǎn)品。2024年5月,在2024春季火山引擎FORCE原動力大會上,字節(jié)跳動正式發(fā)布了豆包大模型家族。此時,豆包大模型已經(jīng)能夠日均處理1200億tokens文本、生成3000萬張圖片。在豆包模型發(fā)布時,字節(jié)對于AI的目標是:更強模型:大使用量才能打磨出更好模型。豆包大模型已經(jīng)在字節(jié)跳動內(nèi)部50多個業(yè)務、多場景應用中落地,經(jīng)過千億級日tokens的持續(xù)打磨,模型能力和推理效果得到市場的廣泛認可。更低價格:為了讓每一家企業(yè)都能用得起大模型,火山引擎大幅度降低大模型應用推理成本。例如本次登榜的豆包通用模型pro,其32k版模型推理輸入價格僅為0.0008元/千tokens。更易落地:火山引擎2023年發(fā)布了一站式大模型服務平臺火山方舟,通過模型即服務的理念,幫助企業(yè)在高效、安全的環(huán)境里應用各類模型。2024年5月,火山引擎對方舟平臺進行了全面升級,升級后的火山方舟2.0將大幅提升模型效果、核心插件、系統(tǒng)性能以及平臺體驗,幫助企業(yè)推進大模型的價值創(chuàng)造。6行業(yè)研究·信息服務行業(yè)6當時的豆包大模型家族包括:豆包通用模型pro:字節(jié)跳動自研LLM模型專業(yè)版,支持128k長文本,全系列可精調(diào),具備更強的理解、生成、邏輯等綜合能力,適配問答、總結(jié)、創(chuàng)作、分類等豐豆包通用模型lite:字節(jié)跳動自研LLM模型輕量版,對比專業(yè)版提供更低token成本、更低延遲,為企業(yè)提供靈活經(jīng)濟的模型選擇;豆包·角色扮演模型:個性化的角色創(chuàng)作能力,更強的上下文感知和劇情推動能力,滿足靈活的角色扮演需求;豆包·語音合成模型:提供自然生動的語音合成能力,善于表達多種情緒,演繹多豆包·聲音復刻模型:5秒即可實現(xiàn)聲音1:1克隆,對音色相似度和自然度進行高度還原,支持聲音的跨語種遷移;豆包·語音識別模型:更高的準確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別;豆包·文生圖模型:更精準的文字理解能力,圖文匹配更準確,畫面效果更優(yōu)美,擅長對中國文化元素的創(chuàng)作;豆包·Functioncall模型:提供更加準確的功能識別和參數(shù)抽取能力,適合復雜工具調(diào)用的場景;豆包·向量化模型:聚焦向量檢索的使用場景,為LLM知識庫提供核心理解能力,支持多語言。2024年6月,智源研究院旗下的FlagEval大模型評測平臺發(fā)布最新評測榜單。榜單顯示,在閉源大模型的“客觀評測”中,豆包大模型(Doubao-Pro-4k)以綜合評分75.96分排名第二,僅次于GPT-4,是得分最高的國產(chǎn)大模型。在“主觀評測”中,豆包大模型同樣排名第二。7行業(yè)研究·信息服務行業(yè)7FlagEval大模型評測平臺由智源研究院與多個高校團隊共建,以人類認知能力的發(fā)展階梯為基準,對齊大模型所能達到的認知水平。FlagEval構(gòu)建了大量原創(chuàng)的非公開評測集,確保評測質(zhì)量和公正性。自2023年6月上線以來,F(xiàn)lagEval已完成了1000多次覆蓋全球大模型的評測。評測成績顯示,豆包大模型(Doubao-Pro-4k)的數(shù)學能力、知識運用、任務解決等多項能力在客觀評測和主觀評測中都有著出色表現(xiàn)。其中,知識運用和數(shù)學能力得分排名客觀評測第一、主觀評測前三,任務解決測試得分在主客觀評測中均排名前三。在隨后的日子里,豆包大模型不斷升級,其家族也不斷壯大。2024年8月,豆包大模型正式支持實時語音通話?;鹕揭嫱瞥隽藢υ捠紸I實時交互解決方案,搭載火山方舟大模型服務平臺,通過火山引擎RTC實現(xiàn)語音數(shù)據(jù)的高效采集、處理和傳輸,并深度整合豆包·語音識別模型和豆包·語音合成模型,簡化語音到文本和文本到語音的轉(zhuǎn)換過程,提供卓越的智能對話和自然語言處理能力,幫助應用快速實現(xiàn)用戶和云端大模型的實時語音通話。豆包·語音合成模型:解鎖「豆包」同款音色,提供自然生動的語音合成能力,善于表達多種情緒,演繹多種場景。豆包·語音識別模型:更高的準確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別?;鹕椒街郏禾峁┠P途{(diào)、推理、評測等全方位功能與服務,提供豐富的插件生態(tài)和AI原生應用開發(fā)服務,全方位保障企業(yè)級AI應用落地。2024年9月,豆包·視頻生成模型正式上線。2024年9月24日,2024火山引擎AI創(chuàng)新巡展在深圳舉辦,豆包大模型家族迎來新成員:豆包·視頻生成模型。豆包·視頻生成模型能遵從復雜prompt,解鎖時序性多拍動作指令與多個主體間的交互能力。還可以讓視頻在主體的大動態(tài)與鏡頭中炫酷切換,擁有變焦、環(huán)繞、平搖、縮放、目標跟隨等多鏡頭語言能力,靈活控制視角,帶來真實世界的體驗。8行業(yè)研究·信息服務行業(yè)8此外,豆包·視頻生成模型成功攻克多鏡頭切換時一致性的技術(shù)挑戰(zhàn),在一個prompt內(nèi)實現(xiàn)多個鏡頭切換,同時保持主體、風格、氛圍的一致性。豆包·視頻生成模型還支持包括黑白、3D動畫、2D動畫、國畫等多種風格,包含1:1、3:4、4:3、16:9、9:16、21:9六個比例,適配于各種終端,以及電影、手機豎屏等不同畫幅。在2024年9月的火山引擎AI創(chuàng)新巡展上,豆包·音樂模型、豆包·同聲傳譯模型同期豆包·音樂模型能夠讓用戶“實現(xiàn)高品質(zhì)的音樂創(chuàng)作自由”:(1)歌詞更精準,僅需幾個字,就能生成情感表達精準的歌詞。(2)旋律更多樣,提供10余種不同的音樂風格和情緒表達。(3)演唱更真實,基于豆包語音能力,媲美真人演唱效果。(4)創(chuàng)作門檻低,支持圖片成曲、靈感成曲、寫詞成曲多種創(chuàng)作方式。豆包·同聲傳譯模型則讓跨語言溝通“更無障礙”。(1)實時翻譯:超低延時,邊說邊譯,實時翻譯溝通無障礙。(2)精準自然:翻譯流暢自然、準確率高,在辦公、法律、教育等場景接近甚至超越人類同傳水平。(3)支持音色克隆:支持跨語言同音色翻譯,以更強聲音表現(xiàn)力打破溝通壁壘。此外,創(chuàng)新巡展上,豆包大模型團隊宣布豆包通用模型pro和文生圖模型、語音合成模型等垂類模型大幅升級。不斷增加的各類模態(tài)以及規(guī)?;恼{(diào)用量讓豆包大模型“更強模型、更低價格、更易落地”的優(yōu)勢持續(xù)凸顯。其中,主力模型“豆包通用模型pro”最新版本在各維度上國內(nèi)領(lǐng)先,模型效果持續(xù)增強。9行業(yè)研究·信息服務行業(yè)92024年12月,豆包視覺理解模型正式發(fā)布,通用模型能力全面對齊GPT-4o。2024年12月18日,在火山引擎Force原動力大會上,豆包大模型家族公布新成員“豆包·視覺理解模型”。它不僅具備強大的視覺感知能力,還能融合視覺與語言輸入,進行綜合的深度思考和創(chuàng)作。根據(jù)圖像信息,豆包·視覺理解模型可以完成諸多復雜的邏輯計算任務,包括解微積分題、分析論文圖表、診斷真實代碼問題等挑戰(zhàn)性任務。通過豆包·視覺理解模型,用戶可以同時輸入文本和圖像相關(guān)的問題,模型經(jīng)綜合理解,可給出準確的回答。這將極大地簡化開發(fā)流程,解鎖更多的大模型價值場景。豆包·視覺理解模型提供三大能力:●更強的內(nèi)容識別能力豆包·視覺理解模型有非常強的內(nèi)容識別能力,不僅可以識別出圖像中的物體類別、形狀、紋理等基本要素,還能理解物體之間的關(guān)系、空間布局以及場景的整體含義,甚至背后的文化知識。具體來說,視覺理解模型不僅可以識別現(xiàn)實中的物品,還能根據(jù)光影、輪廓、位置等特征,一眼識別出小動物的影子,并“認出”這是一只貓。行業(yè)研究·信息服務行業(yè)10●更強的理解推理能力豆包·視覺理解模型也具備出色的理解和推理能力。模型不僅能識別圖文信息,還能進行復雜的邏輯計算。拍下一道需要進行微積分運算的數(shù)學題,豆包·視覺理解模型能很好地理解圖片問題,并根據(jù)提示詞進行對應的推理計算,給出答題思路?!窀毮伒囊曈X描述能力除卻識別與理解推理能力,豆包·視覺理解模型還有著非常細膩的視覺描述和創(chuàng)作能力。當用戶想設(shè)計一款文創(chuàng)產(chǎn)品贈送客戶,模型可基于產(chǎn)品的造型或寓意寫一段真摯走心的祝福語。行業(yè)研究·信息服務行業(yè)除發(fā)布視覺理解模型之外,2024年12月的火山引擎Force原動力大會現(xiàn)場還官宣了豆包語言大模型的升級。相比2024年5月版本,豆包最強模型Doubao-pro能力大幅提升。面向MMLU_pro評測集,模型綜合能力提升32%,和GPT-4o持平,使用價格僅為GPT-4o的八分之一。Doubao-pro指令遵循能力提升9%,代碼能力提升58%,GPQA專業(yè)知識方面能力提升54%,數(shù)學能力提升43%,推理能力提升13%,全面對齊GPT-4o水平。行業(yè)研究·信息服務行業(yè)12豆包音樂模型和文生圖模型也在火山引擎Force原動力大會現(xiàn)場發(fā)布了升級。豆包·音樂模型,首次發(fā)布于2024年9月,時隔3個月后,已能支持3分鐘的完整音樂作品生成,實現(xiàn)包括前奏、主歌、副歌、間奏、過渡段等復雜結(jié)構(gòu)的作品創(chuàng)作。此外,全新版本模型可合理運用旋律、節(jié)奏、和聲等信息,使全曲保持在風格、情感等音樂元素上的連貫性。如對生成歌詞不滿意,還可進行局部修改,給原調(diào)賦新詞,讓音樂創(chuàng)作更自由靈活。文生圖模型則新增“一鍵P圖,一鍵海報”技能?;诙拱竽P蛨F隊成果SeedEdit,豆包文生圖模型2.1版支持通過自然語言對圖像進行“一鍵P圖”,包括換裝、美化、涂抹、風格轉(zhuǎn)化等任意編輯指令。同時,豆包文生圖模型還支持“一鍵海報”,可實現(xiàn)精準控制的文字圖案生成。通過打通LLM和DiT構(gòu)架,豆包文生圖模型構(gòu)建了高質(zhì)量文字渲染能力,可大幅提升文字生成準確率。這種原生的文字渲染能力,讓文字與整體畫面的融合更為自然和實用。此外,面向3D仿真領(lǐng)域,豆包大模型家族還新發(fā)布了3D生成模型,該模型采用3D-DiT架構(gòu),可生成高質(zhì)量3D模塊。該模型與火山引擎數(shù)字孿生平臺veOmniverse結(jié)合使用,可以高效完成智能訓練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持AIGC創(chuàng)作的物理世界仿真模擬器。舉例來說,用戶只需輸入文本,即可實時生成并搭建起一個工廠車間場景。通過快速批量生成并上傳至云空間,布局師可實時調(diào)用并完成場景設(shè)計,提升創(chuàng)作效率和協(xié)作體驗。行業(yè)研究·信息服務行業(yè)13自2024年5月豆包大模型家族正式發(fā)布,到12月冬季原動力大會,短短7個月時SeedEdit、視頻生成模型、視覺理解模型等多項重磅成果,在語言能力、多模態(tài)理解與生成、模型推理、代碼生成等方面不斷提升。我們上文提到的FlagEval模型評測,截至2024年12月21日的最新結(jié)果,在大語言模型總榜的“對話模型”榜單,豆包-pro32k版本已經(jīng)位列第一。行業(yè)研究·信息服務行業(yè)14而且,豆包大模型的潛力還不僅僅如此,字節(jié)跳動的AI團隊一直在積極研究各類AI前沿技術(shù),這也是豆包大模型能力的基石。舉例來講,在語音領(lǐng)域,字節(jié)AI團隊判斷相比于WebSocket,為了提供更流暢自然的用戶體驗,適應大模型向多模態(tài)方向的快速發(fā)展,AI實時語音方案采用實時通信(RTC)技術(shù)更為合適。于是團隊深耕RTC技術(shù),火山引擎的RTC基于成熟的音頻3A處理技術(shù),針對“雙講”通過傳統(tǒng)回聲消除算法和深度學習算法的結(jié)合,不僅有效去除回聲,還能避免用戶語音被過度處理,確保云端語音識別(ASR)能準確捕捉和識別用戶的語音信息。此外,火山引擎RTC通過簡化算法提高處理速度,避免因算法復雜性帶來的額外延時。簡單來說,這就使得用戶與AI的交流能夠像和朋友一樣自然,隨時打斷甚至直接插話。正是通過這一技術(shù),豆包大模型在2024年8月宣布支持實時語音通話。又比如,火山引擎就曾經(jīng)官方表示:“豆包·視頻生成模型生成強大畫面效果的背后,是字節(jié)跳動在視頻大模型技術(shù)研發(fā)的不斷投入?!毙袠I(yè)研究·信息服務行業(yè)15而豆包大模型團隊的AI前沿技術(shù)研究從未止步,僅僅在2024年11月,豆包大模型團隊就發(fā)布了多項技術(shù)進展。2024年11月1日,豆包大模型團隊宣布與香港大學聯(lián)合提出HybridFlow(開源項目名:veRL),一個靈活且高效的RL(強化學習)/RLHF(人類反饋強化學習)框架。該框架采用混合編程模型,融合單控制器(Single-Controller)的靈活性和多控制器(Multi-Controller)的高效性,可更好實現(xiàn)和執(zhí)行多種RL算法,顯著提升訓練吞吐量,降低開發(fā)和維護復雜度。實驗結(jié)果表明,HybridFlow在運行各種RL(HF)算法時,吞吐量相較SOTA基線提升了1.5-20倍。2024年11月20日,豆包大模型團隊宣布提出SuperClass,一個簡單且高效的預訓練方法。該方法首次舍棄文本編碼器,直接使用原始文本的分詞作為多分類標簽,無需額外的文本過濾或篩選,比CLIP(可謂AI大模型中的“眼睛”。該模型通過將圖像與文本對齊,實現(xiàn)了圖像與語言之間的理解與關(guān)聯(lián)。近些年來,CLIP被廣泛應用于視覺理解、圖像問答、機器人/具身智能等多個領(lǐng)域)具有更高的訓練效率。行業(yè)研究·信息服務行業(yè)162024年11月22日,豆包大模型團隊宣布與北京大學聯(lián)合提出FAN:FourierAnalysisNetworks,一種新型神經(jīng)網(wǎng)絡(luò)架構(gòu),彌補了Transformer缺陷。FAN通過引入傅里葉原理,將周期性信息顯式嵌入到網(wǎng)絡(luò)結(jié)構(gòu)中,使模型更自然地捕捉和理解數(shù)據(jù)中的周期性特征,并且可用更少參數(shù)量和FLOPs無縫替換傳統(tǒng)MLP層。實驗表明,F(xiàn)AN不僅在周期性建模上表現(xiàn)顯著優(yōu)于現(xiàn)有模型,而且在符號公式表示、時間序列預測、語言建模、圖像識別等實際任務中,同樣表現(xiàn)超過了Transformer等主流模型,尤其在域外測試數(shù)據(jù)上,表現(xiàn)出色。團隊認為,F(xiàn)AN提供了一種全新范式,可有效地對周期性建模,無縫替換傳統(tǒng)MLP,同時減少參數(shù)量和計算量,填補了當前基礎(chǔ)模型在周期性建模方面缺陷,并展示出廣泛應用潛力。2024年12月12日,字節(jié)跳動更是聯(lián)合北京大學共同成立了北京大學-字節(jié)跳動“豆包大模型系統(tǒng)軟件聯(lián)合實驗室”,這一實驗室將立足北京大學計算機學院在系統(tǒng)軟件領(lǐng)域的研究積累,依托字節(jié)跳動在大模型應用和系統(tǒng)方面的實踐優(yōu)勢,聚焦人工智能大模型系統(tǒng)軟件研發(fā)。團隊多名成員曾在SIGCOMM、NSDI等國際頂級會議發(fā)表成果,在訓練和推理系統(tǒng)方面,有過豐富的大規(guī)模生產(chǎn)環(huán)境成功部署經(jīng)驗,為團隊技術(shù)創(chuàng)新奠定了堅實基礎(chǔ)。行業(yè)研究·信息服務行業(yè)17正如我們上文所提到的,豆包大模型團隊一直在積極研究各類AI前沿技術(shù),這也是豆包大模型能力的基石,部分技術(shù)雖然還未落地,但是可以預期的前景十分廣闊。以HybridFlow為例,從ChatGPT到o1等各種大語言模型,強化學習(RL)算法在提升模型性能和適應性方面起著至關(guān)重要的作用。在大模型后訓練(Post-Training)階段引入RL方法,已成為提升模型質(zhì)量和對齊人類偏好的重要手段。我們認為,HybridFlow作為一個靈活且高效的RL/RLHF框架,在可以預期的未來,能夠為字節(jié)的模型訓練帶來重要助力。我們認為,在短短6個月的時間里,豆包大模型不斷升級迭代,性能持續(xù)提升,已經(jīng)成為字節(jié)AI發(fā)展的重要基石,豆包大模型從FlagEval模型評測的“第二”邁向“第一”,這背后代表的是字節(jié)孜孜不倦的技術(shù)投入,這些投入不僅推動了模型能力的持續(xù)擴展,也有效地拓展了豆包大模型的應用邊界,客觀上加速推動了AI大模型應用的普及與落地,此外,豆包大模型團隊對AI前沿技術(shù)的積極研究,更加奠定了未來豆包大模型長期發(fā)展的基礎(chǔ),未來豆包大模型的領(lǐng)先優(yōu)勢有望持續(xù)擴大,“更強模型”也有望不斷實現(xiàn)。行業(yè)研究·信息服務行業(yè)18上文我們提到了字節(jié)對于AI發(fā)展的目標:更強模型:大使用量才能打磨出更好模型。豆包大模型目前已經(jīng)在字節(jié)跳動內(nèi)部50多個業(yè)務、多場景應用中落地,經(jīng)過千億級日tokens的持續(xù)打磨,模型能力和推理效果得到市場的廣泛認可。更低價格:為了讓每一家企業(yè)都能用得起大模型,火山引擎大幅度降低大模型應用推理成本。例如本次登榜的豆包通用模型pro,其32k版模型推理輸入價格僅為0.0008元/千tokens。更易落地:火山引擎2023年發(fā)布了一站式大模型服務平臺火山方舟,通過模型即服務的理念,幫助企業(yè)在高效、安全的環(huán)境里應用各類模型。2024年5月,火山引擎對方舟平臺進行了全面升級,升級后的火山方舟2.0將大幅提升模型效果、核心插件、系統(tǒng)性能以及平臺體驗,幫助企業(yè)推進大模型的價值創(chuàng)造。其中,更低價格和更易落地,都是為了AI應用的落地和發(fā)展。2024年5月,豆包大模型剛發(fā)布的時候,豆包主力模型在企業(yè)市場的定價只有0.0008元/千tokens,0.8厘就能處理1500多個漢字,比行業(yè)便宜99.3%。以豆包通用模型pro-32k版為例,模型推理輸入價格僅為0.0008元/千tokens。而市面上同規(guī)格模型的定價一般為0.12元/千tokens,是豆包模型價格的150倍。大模型價格,進入“厘時代”。此后,豆包大模型家族維持了“極低”的定價體系,例如新發(fā)布的豆包·視覺理解的輸入價格為每千tokens0.003元,比行業(yè)平均價格降低85%,相當于一塊錢可以處理284張720P的圖片,視覺理解模型也正式走進厘時代。行業(yè)研究·信息服務行業(yè)19我們認為,“極低”的定價能夠助力企業(yè)以更低成本加速業(yè)務創(chuàng)新,讓企業(yè)在同等甚至稍差的技術(shù)水平下更愿意去使用豆包模型,這也帶動了豆包各類應用的廣泛落此外,豆包還積極開發(fā)各類開發(fā)者工具,助力AI應用的落地。2023年,火山引擎發(fā)布了一站式大模型服務平臺火山方舟,希望通過模型即服務的理念,幫助企業(yè)在高效、安全的環(huán)境里應用各類模型。2024年5月,豆包大模型首次發(fā)布時,火山引擎對方舟平臺進行了全面升級,升級后的火山方舟2.0將大幅提升模型效果、核心插件、系統(tǒng)性能以及平臺體驗,幫助企業(yè)推進大模型的價值創(chuàng)造。在插件和工具鏈上,方舟2.0升級了聯(lián)網(wǎng)插件,提供頭條抖音同款搜索能力,實時連接海量優(yōu)質(zhì)數(shù)據(jù),同時使用文本、圖像、語音等多模態(tài)交互方式,并通過業(yè)內(nèi)領(lǐng)先的意圖識別能力,大幅提升模型的信息獲取能力;升級內(nèi)容插件,提供頭條抖音同源海量內(nèi)容,支持多模態(tài)交互,提供基于意圖的垂類內(nèi)容信息檢索,內(nèi)容時效檢索更強,幫助大模型深入理解、檢索和生成內(nèi)容;升級知識庫插件,提供毫秒級百億規(guī)模的高性能檢索,秒級流式知識庫索引更新,內(nèi)嵌豆包向量化模型,提高搜索的相關(guān)性和準確性。行業(yè)研究·信息服務行業(yè)20除以上核心插件升級之外,火山方舟2.0也全面升級了系統(tǒng)承載能力、安全防護能力和算法服務能力。在系統(tǒng)承載力上,提供充沛的GPU算力資源,分鐘級千卡擴縮容的超強彈性,保障業(yè)務穩(wěn)定和成本可控;在安全防護上,通過安全沙箱構(gòu)建可信的執(zhí)行環(huán)境,多維度的安全架構(gòu),保障數(shù)據(jù)安全;此外,火山引擎提供專業(yè)的算法團隊服務,幫助客戶釋放獨有數(shù)據(jù)價值,讓企業(yè)大模型應用輕松落地。此外,火山引擎還正式發(fā)布了扣子專業(yè)版??圩樱–oze)作為字節(jié)跳動推出的新一代AI應用開發(fā)平臺,具備低門檻、個性化、實時性、多模態(tài)等優(yōu)勢,并集合海量的AI資源、豐富的發(fā)布渠道、一鍵自定義API服務,幫助填補大模型到用戶場景的最后一公火山引擎正式發(fā)布了扣子專業(yè)版。扣子專業(yè)版在扣子可視化靈活編排智能體的能力基礎(chǔ)上,進一步提供企業(yè)級SLA和多種高級特性,使AI應用更易落地,讓企業(yè)更專注于通過智能體創(chuàng)新,驅(qū)動業(yè)務增長。2024年7月,火山方舟進一步升級了核心插件和智能體能力,以及全周期數(shù)據(jù)安全可信方案,其中,頭條抖音同款三大插件——聯(lián)網(wǎng)插件、內(nèi)容插件和RAG知識庫插件能力再次升級,還新增了網(wǎng)頁解析插件和計算器插件,進一步擴寬模型能力的邊界,支持企業(yè)多樣的應用需求。智能體是大模型落地有效路徑。為幫助企業(yè)“低門檻”開發(fā)智能體,火山引擎提供扣子專業(yè)版,支持低代碼構(gòu)建契合企業(yè)業(yè)務場景的專家型“AIBot”,并通過專業(yè)級SLA和多種高級特性保障AI應用在企業(yè)中高效落地?;鹕揭孢€打造了HiAgent企業(yè)專屬AI應用創(chuàng)新平臺,幫助企業(yè)打通擁抱大模型的最后一公里。HiAgent能夠從速度、密度、厚度三個維度全方位賦能企業(yè)AI應用的快速落地與持續(xù)優(yōu)化:速度:HiAgent將模型應用開發(fā)方式從代碼進化到自然語言,業(yè)務人員可以利用提示詞、知識庫、插件等工具,像搭積木一樣低代碼搭建智能體,提升應用創(chuàng)新的“速度”。行業(yè)研究·信息服務行業(yè)密度:增強的企業(yè)級知識庫RAG,讓知識沉淀萃取成智慧,在企業(yè)流程中體現(xiàn)知識的“密度”。厚度:HiAgent豐富的專屬企業(yè)級特性,允許企業(yè)自定義新AI中臺,并支持混合部署,積累AI資產(chǎn),讓AI能力有“厚度”。此外,火山引擎AI全棧云依托字節(jié)跳動的海量資源共池,支持多芯、多云架構(gòu),擁有超大規(guī)模算力,支持萬卡集群組網(wǎng)、萬億參數(shù)MoE大模型;提供超高性能網(wǎng)絡(luò),支持3.2TbpsRDMA網(wǎng)絡(luò),全球網(wǎng)絡(luò)POP覆蓋廣,時延優(yōu)化最高達75%;提供優(yōu)質(zhì)的存儲性能,文件存儲vePFS支持2TB/s吞吐并行存儲、3000萬IOPS;提供毫秒級性能監(jiān)控,智能GPU自愈能力,保障計算資源的穩(wěn)定運行;提供靈活的資源使用和計費方式,自研mGPU容器共享方案,GPU利用率提升100%+,為生成式AI工作負載提供更高性價比的算力資源;強大的彈性調(diào)度能力,支持分鐘級創(chuàng)建千臺實例;提供一站式資源服務和全鏈路數(shù)據(jù)管理能力,助力企業(yè)高效、彈性構(gòu)建AI訓練或推理業(yè)務,加速企業(yè)實現(xiàn)AI應用落地。2024年12月,火山方舟、扣子平臺以及HiAgent等平臺進一步升級,加速了大模型落地,為企業(yè)和開發(fā)者提供高效的工具。火山方舟作為一站式大模型服務平臺,火山方舟憑借Cache、離線推理模式等產(chǎn)品與升級,以及全新發(fā)布的Prompt優(yōu)解,加速大模型能力落地。大模型落地過程中,prompt(提示詞)的編寫,往往是橫在面前的第一道門檻,大模型能力越強,對指示詞、指令的遵循程度也就越高?;鹕揭姘l(fā)布Prompt優(yōu)解,可以通過“自動+互動”方式協(xié)助用戶編寫提示詞,讓用戶在互動中表達需求,快速上手。用機器實現(xiàn)類似人類的反思、類比、錯誤總結(jié)能力,全自動優(yōu)化prompt,助力企業(yè)低成本高效率獲得高質(zhì)量prompt。圖22Prompt優(yōu)解功能介紹行業(yè)研究·信息服務行業(yè)22在價格方面,火山引擎始終把更低、更好的成本和價格放在首位。為進一步踐行“人人用得起,才是好模型”理念,火山引擎發(fā)布離線批量推理方案和上下文緩存,幫助用戶實現(xiàn)更為精細化和低成本的運營。以上下文緩存為例,針對有大量聊天、客服對話的連續(xù)型客戶需求場景,火山引擎推出context上下文緩存記憶方案,無需重復對話就可以保持上下文,可將多輪對話延遲減少50%,極大改善客戶體驗。同時在命中上下文緩存部分,降低企業(yè)使用成本80%。全新扣子1.5和HiAgent1.5也在2024年12月發(fā)布。(1)開發(fā)者生態(tài)逐漸完善,超過100萬活躍開發(fā)者,發(fā)布超過200萬個智能體。(2)全新的AI應用開發(fā)環(huán)境,支持GUI搭建界面,并且可以一鍵發(fā)布為小程序、H5、API等多種應用形態(tài)。(3)更強的多模態(tài)能力,提供音視頻對話能力,端到端延遲響應低至1秒低成本SDK快速接入各類硬件。(4)海量的精品模板,涵蓋多業(yè)務場景,一鍵復制使用。HiAgent1.5:(1)更懂AI轉(zhuǎn)型:提供觀測&評測體系,保障效果生產(chǎn)可用;提供100+行業(yè)應用模板,企業(yè)可開箱即用;提供配套AI咨詢,幫助企業(yè)找到AI落地路徑。(2)更深業(yè)務適配:提供豐富的企業(yè)級插件、靈活的應用集成機制;GraphRAG構(gòu)建知識圖譜,提供細粒度的知識資產(chǎn)管理;生成式畫布融合CUI和GUI,打造智能交互引擎。(3)更強安全保障:支持RAG知識庫和大模型全棧私有化部署。此外,豆包大模型最新發(fā)布的豆包·視覺理解模型、豆包·文生圖模型2.1和豆包·音樂模型,都可以在扣子通過插件的方式體驗,將有助于更多多模態(tài)AI應用在扣子誕行業(yè)研究·信息服務行業(yè)23可以看出,除了認真打磨技術(shù),讓模型更強以外,字節(jié)一直努力在踐行著“更低價格”和“更易落地”,這也使得字節(jié)的大模型,真正的在各行各業(yè)遍地開花。早在2024年5月豆包大模型剛發(fā)布時,豆包大模型和火山方舟2.0就已經(jīng)在金融、汽車、智能終端、電商零售、教育科研等多個行業(yè)實踐落地。招商銀行、海底撈火鍋、超級猩猩、攜程旅游、飛常準、獵聘等企業(yè)也已經(jīng)在扣子上搭建了智能體。復旦大學、浙江大學等名校也為課程和實驗搭建了“AI助教”。以招商銀行為例,作為金融行業(yè)AI轉(zhuǎn)型的踐行者,招商銀行正在智能外呼、數(shù)字人、智能數(shù)據(jù)助理等上百個AI服務場景探索和投入。招商銀行數(shù)字金融發(fā)展辦公室主任高旭磊就表示,大模型將為銀行全鏈條業(yè)務帶來改造和升級。攜手火山引擎,雙方將共建大模型應用場景及高性能基礎(chǔ)設(shè)施,改造現(xiàn)有系統(tǒng)和產(chǎn)品,催生大量以AI為核心的智能體應用。蒙牛集團也與火山引擎合作夯實技術(shù)底座,并構(gòu)建了AI營養(yǎng)專家、AI育嬰師、AI數(shù)據(jù)分析師、產(chǎn)品創(chuàng)新助手、熱點創(chuàng)意助手等智能體矩陣,提升前端消費者體驗,助力后端運營人員決策。2024年7月,豆包大模型日均tokens使用量超過5000億,自2024年5月15日豆包大模型發(fā)布的2個月內(nèi),平均每家企業(yè)客戶日均tokens使用量增長了22倍?,F(xiàn)如今,不少前沿技術(shù)已應用于豆包APP、即夢等C端產(chǎn)品,并通過火山引擎服務眾多行業(yè)的企業(yè)客戶。2024年12月豆包大模型日均tokens調(diào)用量突破4萬億,7個月增長幅度達33倍。尤其在汽車、手機、智能終端等新興行業(yè),豆包大模型調(diào)用量增長了50倍以上。此外,字節(jié)還高度重視生態(tài)建設(shè),早在豆包大模型正式發(fā)布的2024年5月的2024春季火山引擎FORCE原動力大會上,火山引擎還與OPPO、vivo、榮耀、小米、三星、華碩宣布成立智能終端大模型聯(lián)盟。OPPO小布助手、榮耀MagicBook的YOYO助理、小米“小愛同學”、華碩筆記本電腦的豆叮AI助手等應用,均已接入火山引擎的大模型服務。此外,字節(jié)還組織了火山引擎汽車行業(yè)大模型生態(tài)聯(lián)盟。2024年5月的時候,聯(lián)盟已聚合中國電動車百人會、廣汽集團、北汽集團、一汽奔騰、上汽大通、長城汽車、捷途汽車、智己汽車、哪吒汽車、吉祥汽車、東軟睿馳、美行科技、大搜車等眾多汽車產(chǎn)業(yè)上下游企業(yè),共同打造汽車大模型生態(tài)。當時字節(jié)的宣傳語就是:“大模型定價低于行業(yè)價格99%,火山引擎助力車企加速駛?cè)搿瓵I時代’”。行業(yè)研究·信息服務行業(yè)24汽車大模型生態(tài)聯(lián)盟也在不斷擴容,在2024年8月又迎來了領(lǐng)克汽車、吉利銀河、幾何汽車、上汽榮威、上汽名爵、雄獅科技、大圣科技等多位新成員。而在這基礎(chǔ)上,豆包大模型在汽車行業(yè)的拓展一騎絕塵,正如上文介紹的,豆包大模型2024年5月發(fā)布到2024年12月,在汽車行業(yè)的調(diào)用量增長了50倍以上,遠超平均值。2024年8月,火山引擎還攜手多點DMALL成立零售大模型生態(tài)聯(lián)盟,通過融合豆包大模型與AI能力,讓零售企業(yè)能夠以極低的試錯成本將大模型技術(shù)應用到業(yè)務場景中,推動零售行業(yè)的智能化升級,提升行業(yè)的整體效能和創(chuàng)新能力,以適應不斷變化的市場需求和消費者行為,加速零售行業(yè)的創(chuàng)新步伐。零售聯(lián)盟首批成員就包括物美集團、抖音電商、抖音生活服務、百勝、麥當勞、中國飛鶴、海底撈、居然之家、南7-11、重慶百貨、百果園、波司登、天虹、三得利、絕味、名創(chuàng)優(yōu)品、NielsenIQ、電我們認為,對生態(tài)的重視,也使得豆包大模型能夠更便利的進入不同的行業(yè),并在各企業(yè)端落地。而且,值得注意的是,tokens調(diào)用規(guī)?;鲩L的同時,豆包大模型在不同場景中都在快速增長、全面開花。我們認為,這說明不同領(lǐng)域企業(yè)對于豆包模型不同需求場景下的使用正在不斷深化。行業(yè)研究·信息服務行業(yè)25我們認為,“極低”的定價能夠助力企業(yè)以更低成本加速業(yè)務創(chuàng)新,讓企業(yè)在同等的技術(shù)水平下更愿意去使用豆包模型,這也帶動了豆包各類應用的廣泛落地,而不斷增加的tokens調(diào)用量,疊加越來越多的場景覆蓋嗎,使得豆包大模型能力越來越全面,這就進一步推動豆包大模型變得“更強”,使得“更強模型”這一目標能夠進一步實現(xiàn),從而帶動了多個良性循環(huán):模型能力層面:低價+易落地+好模型,使得豆包大模型用戶數(shù)持續(xù)提升,用戶越多,tokens調(diào)用量越大,場景覆蓋越多,從而使得豆包模型能力越來越全面,模型越強,用戶模型使用意愿越強,最終推動模型能力持續(xù)迭代。而且tokens調(diào)用量越大,字節(jié)算力規(guī)模越大,算力單位成本越低,模型價格就能進一步下降,從而使得用戶模型使用意愿進一步增強,從而使得tokens調(diào)用量進一步提升,使得算力單位成本進一步下降,最終推動模型價格持續(xù)下降。展望未來,字節(jié)AI的目標:“更強模型”、“更低價格”、“更易落地”正在推動字節(jié)AI更加高速的落地千行百業(yè),AI應用爆發(fā)的前夜也正離我們越來越近。行業(yè)研究·信息服務行業(yè)262023年8月豆包APP(由于豆包AI應用/豆包AI大模型名稱相同,下文如僅用“豆包”二字,則專指豆包AI應用,“豆包xx模型/大模型”則指代各類豆包AI大模型)正式上線。圖27豆包APP版示例行業(yè)研究·信息服務行業(yè)27伴隨時間的推移,豆包APP的應用功能也不斷深化。2024年7月16日,豆包瀏覽器插件推出播客總結(jié)功能,并不斷優(yōu)化視頻總結(jié)功能,不僅可以總結(jié)視頻內(nèi)容,還能增加多級目錄和思維導圖,方便用戶觀看和消化超2024年7月17日,三星電子面向中國市場發(fā)布新一代GalaxyZ系列產(chǎn)品。會上,三星電子與火山引擎官宣合作,為GalaxyZFold6、GalaxyZFlip6手機的Bixby語音助手和AI視覺接入豆包大模型,提升手機的智能應用體驗。2024年8月8日,豆包音樂生成功能上線。用戶在豆包“音樂生成”中輸入主題或歌詞,設(shè)定音樂風格、情緒及音色,便能快速生成一首約1分鐘的詞曲。2024年9月6日,豆包旗下教育品牌“豆包愛學”完成升級,應用推出作業(yè)批改、拍照答疑、作文創(chuàng)作等多項實用功能,以適配家庭教育各類場景。此外,豆包愛學還提供知識問答、AI搜知識、與歷史名人對話、故事創(chuàng)作等功能,旨在提升用戶綜合素2024年10月,豆包App和電腦版完成多項功能更新。豆包App支持上傳附件支持多種音頻文件格式,用戶可快速總結(jié)會議錄音、課程記錄等內(nèi)容。豆包電腦版上線「語2024年11月11日,豆包電腦版上線了一項新功能,讓用戶不懂P圖也能實現(xiàn)輕松修圖。在豆包電腦版,用戶選擇“圖片生成”,生成圖片后,選擇“繼續(xù)編輯”,輸入一句簡單的指令,就能實現(xiàn)一鍵P圖。此外,用戶也可以通過“參考圖”入口上傳圖片進行二次加工。2024年12月5日,豆包正式支持一鍵生成帶有指定文字的圖片。行業(yè)研究·信息服務行業(yè)28行業(yè)研究·信息服務行業(yè)292024年12月10日,豆包電腦版視頻生成功能開啟內(nèi)測使用,用戶內(nèi)測申請通過后,在豆包電腦版選擇“視頻生成”,上傳一張圖片輸入提示詞,并添加運鏡、分鏡信息,即可生成一段視頻。不難發(fā)現(xiàn),伴隨豆包大模型的不斷升級迭代,豆包的功能也在不斷更新。舉例來說,2024年8月9日,火山引擎宣布豆包大模型支持實時語音通話功能。該功能通過實時通信(RTC)技術(shù),提高了語音數(shù)據(jù)的傳輸效率和流暢度,適用于AI社交陪伴、口語學習、游戲NPC及呼叫中心等場景。而在2024年10月,豆包電腦版就上線「語音通話」功能。又比如,2024年9月24日,在火山引擎AI創(chuàng)新巡展深圳站活動上,豆包視頻生成模型PixelDance與Seaweed正式發(fā)布,支持多鏡頭一致性切換及多拍動作與主體復雜交互。在2024年12月10日,豆包電腦版視頻生成功能就開啟了內(nèi)測使用。行業(yè)研究·信息服務行業(yè)30在豆包上線后很長一段時間內(nèi),字節(jié)官方并沒有進行大量公開宣傳,豆包的官微都是在2024年6月才發(fā)布了第一篇官方文章,但是豆包的流量卻快速提升。2024年5月,豆包大模型正式發(fā)布的時候,基于豆包APP在蘋果APPStore和各大安卓應用市場的表現(xiàn),豆包APP的下載量在AIGC類應用中已經(jīng)排名第一。2024年11月,根據(jù)AI產(chǎn)品榜·應用榜(APP),豆包11月上榜應用APPMAU高達5998萬,對比第二名文小言1299萬的數(shù)據(jù)在國內(nèi)處于斷崖領(lǐng)先的位置。在全球范圍內(nèi),豆包的11月上榜應用APPMAU也能排到第二的位置,僅次于ChatGPT。行業(yè)研究·信息服務行業(yè)那么究竟是什么帶給了豆包如此強大的流量?我們認為,從表面來看,豆包首先是一個“好用”的AI助手,能滿足用戶在多種使用場景下的不同需求。作為一款通用型AI產(chǎn)品,豆包致力于去滿足不同用戶具體且真實的需求,讓用戶像開口問身邊的朋友一樣快捷方便地和豆包溝通,真正做到什么都問問豆包。日常生活里各種知識和經(jīng)驗問答,豆包總能快速為用戶答疑解惑。例如最近上海到了銀杏季節(jié),用戶問豆包“上海哪里可以看銀杏??,豆包很快就列出了市中心和郊區(qū)的觀賞地及特點,并配上了銀杏樹的照片和路線視頻攻略,非常方便。在教育學習領(lǐng)域,豆包也能很快很好的滿足學習和教育的各種需求。比如解答奧數(shù)題,豆包可以給用戶進行解答。豆包能提供詳盡的解題步驟,引導用戶理解題目解法。如果用戶對某類題目掌握的不太牢固,豆包還可以繼續(xù)給用戶出幾道同類知識點題目鞏固練習。英語口語練習也是重要的教育場景。根據(jù)用戶反饋,豆包的發(fā)音、詞匯量、句型都遠遠超過普通用戶水平。通過豆包實時語音通話功能,用戶可以實現(xiàn)和豆包一來一回練英語,毫不尷尬,也節(jié)約了請老師輔導的開銷。此外,生成的英語對話還配有字幕,用戶退出后還可以復習。行業(yè)研究·信息服務行業(yè)32在工作場景中,豆包也能滿足眾多使用場景。以論文這一“問問豆包”的高頻場景為例,用戶不僅可以讓豆包總結(jié),劃詞解釋專業(yè)名詞,還可以多追問,不論是圖片還是實驗數(shù)據(jù),都可以截圖問問豆包,它都能給出清晰的圖表解釋和實驗含義。此外,文字、圖片、音樂、視頻的創(chuàng)作上,用戶也都會問問豆包。我們認為,豆包的“好用”只是其廣受歡迎的最表面,在深層,豆包團隊做出了大量的努力。首先,豆包團隊努力讓豆包“接地氣”、“擬人化”。在豆包團隊看來,“擬人化”是大模型產(chǎn)品的新特性。AI除了帶來了新的能力,也帶來了新的交互方式,用和人類對齊的交互體驗,降低使用門檻,也讓用戶在使用產(chǎn)品時感覺到產(chǎn)品有類似人的溫度。為了體現(xiàn)這種擬人的感受,豆包團隊希望產(chǎn)品的名字,就像用戶對一個親密朋友日常稱呼的昵稱。在簡單、好讀、好記的通用原則下。最終,團隊在有點隨意,甚至字節(jié)跳動產(chǎn)品與戰(zhàn)略副總裁朱駿都曾表示:?(選中豆包后團隊認為)反正以后如果有更好的名字也還可以改嘛”的情況下,選擇了“豆包”這一親切又有點可愛的名字。豆包上線后,名字的起源引起了眾多用戶的猜測和討論,湊巧的吸引了普通用戶的關(guān)注,而且是用戶主動幫豆包想出了兩個有趣的解釋1)豆包=抖音的官方bot,“抖bot”諧音就是豆包;(2)說豆包=“都包了”,工作生活學習的需求都包了,寓意是通用助手的產(chǎn)品愿景。這兩個解釋最終也都得到了豆包官方團隊的認可。我們認為,豆包的“接地氣”和“擬人化”使得其發(fā)布最初,就得到了一波“自來水”,同時,也讓其更易于被普通用戶所接受。行業(yè)研究·信息服務行業(yè)33此外,豆包團隊不斷通過各種手段讓豆包更易用、更“快”。(1)豆包輸入更方便,所以更“快”在產(chǎn)品設(shè)計上,豆包團隊一直努力讓用戶的輸入更快更方便。豆包團隊非常注重多模態(tài)的輸入和打磨,尤其是語音輸入。輸入速度上來說,普通人的打字速度大概是每分鐘60到80個字,而普通人的語速每分鐘可以到250至300字。所以一般情況下,語音輸入效率至少是鍵盤輸入的3倍以上。語音的效率天然更高,更快。同時,豆包的語音能準確轉(zhuǎn)錄各種語音信號,識別不同語言、方言、口音。豆包對于人名、生詞,也能結(jié)合上下文做出準確分析。語音以外,豆包也上線了視覺識別模型。無論是讀心電圖、還是拍奧數(shù)題,都依靠視覺輸入。人和世界的溝通中,視覺是很重要的一環(huán)。相比用語言描述心電圖上的復雜信息,直接拍下來問問豆包,會更快更方便。(2)豆包離用戶更近,所以更“快”2024年10月,豆包團隊發(fā)布了OlaFriend智能體耳機,其宣傳語即為:“讓豆包,成為隨時隨地陪伴在你耳邊的朋友”。OlaFriend耳機與豆包APP深度結(jié)合。在官網(wǎng)和官方宣傳片中,豆包強調(diào)了OlaFriend能夠在信息查詢、旅游出行、英語學習及情感交流等場景為用戶提供幫助。行業(yè)研究·信息服務行業(yè)34OlaFriend耳機這樣輕便的可穿戴設(shè)備,讓豆包能夠成為用戶耳邊伴隨的朋友,在路上隨時和豆包對話,最快。運動,逛街,旅行時,用戶無需再拿出手機或其他設(shè)備,直接通過耳機就能和豆包對話,快速獲取信息。這種無縫連接的交互方式,讓豆包真正成為了用戶身邊的智能伙伴,陪伴用戶度過每一個需要知識和幫助的時刻。此外,豆包團隊在2024年還重點建設(shè)了豆包電腦版。用戶可以把電腦版當成瀏覽器,直接打開網(wǎng)頁。在瀏覽中遇到需要提問、翻譯或總結(jié)時,直接點擊“問問豆包”,就能輕松喚起,獲得幫助。豆包還即將上線“文檔編輯器”功能,采取全新的交互方式,生成文檔后,用戶可以在畫布中自由編輯,讓AI針對特定詞語和段落優(yōu)化改寫,也可以一鍵全文潤色、調(diào)整長度,全網(wǎng)搜圖等,讓創(chuàng)作更輕松。行業(yè)研究·信息服務行業(yè)35(3)豆包模型能力更強,所以更“快”豆包的快,究其根本,是背后的豆包大模型幫助用戶做了意圖識別、信息收集、處理、整合和分析。當用戶提出較為復雜的搜索或?qū)懽餍枨髸r,豆包快速識別用戶意圖,推理并拆解內(nèi)容,再進行多步驟分析和推理,并調(diào)度搜索,呈現(xiàn)總結(jié)后的結(jié)果。同時,豆包還能將搜索到的文本信息與視頻內(nèi)容相結(jié)合,為用戶提供更加豐富和直觀的體驗。此外,字節(jié)還投入了大量資源為豆包引流。根據(jù)第一財經(jīng)雜志官方百家號援引廣告情報分析平臺AppGrowing統(tǒng)計,豆包智能助手2024年4月、5月的投放金額接近1800萬元,等到2024年6月上旬,投放金額飆升至1.24億元。2024年6月開啟大規(guī)模買量投流后,豆包月活躍用戶(MAU)迅速超過競爭對手。與此同時,字節(jié)還限制了豆包的競對產(chǎn)品在抖音平臺的廣告投放。行業(yè)研究·信息服務行業(yè)36我們認為,總結(jié)來講,豆包的功能發(fā)展全面,并且多端覆蓋,使用門檻又低,日常場景夠用,再疊加字節(jié)強大的廣告投放和流量效應,豆包的關(guān)注度持續(xù)提升也就是情理之中的事情了。而豆包也遠不是字節(jié)在AI應用唯一的布局。根據(jù)第一財經(jīng)雜志官方百家號,字節(jié)目前還在正常運營的AI應用大約20款,其中絕大部分是在2024年以后發(fā)布的。行業(yè)研究·信息服務行業(yè)37研發(fā)團隊產(chǎn)品研發(fā)團隊AnyDoor(海外)應用應用視頻剪輯視頻剪輯TikTok抖音AI分身(KOL內(nèi)測)TikTokCozeCoze(海外)模型分享社區(qū)硬件硬件字節(jié)的AI應用不僅在數(shù)量上突出,在市場認可度上也擁有領(lǐng)先地位。硅谷知名投資機構(gòu)a16z,其每6個月會深入挖掘數(shù)據(jù),分別評選出50款領(lǐng)先的生成式AIWeb應用和50款領(lǐng)先的生成式AI移動應用,豆包在2024年8月份的最新榜單中同時出現(xiàn)在了AIWeb應用和AI移動應用兩個榜單中。此外,字節(jié)跳動旗下還有4個應用上榜。在生成式AIWeb應用榜單,除豆包外,AI智能體開發(fā)平臺Coze(海外版的“扣子”)、教育類AI應用Gauth上榜。行業(yè)研究·信息服務行業(yè)38在生成式AIApp應用榜單,除豆包外,豆包海外版Cici、圖片編輯類的AI應用Hypic上榜。行業(yè)研究·信息服務行業(yè)39根據(jù)新浪財經(jīng),NeurIPS2024大會上,前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人IlyaSutskever發(fā)表演講時表示,預訓練作為AI模型開發(fā)的第一階段即將結(jié)束。在此,我們不評價Ilya言論正確與否,我們認為,從海內(nèi)外AI大模型發(fā)展速度來看,客觀上,AI技術(shù)逐漸從陡峭進入到平緩區(qū)間,AI商業(yè)化落地已經(jīng)成為事實上AI發(fā)展的下一階段。我們認為,過去幾個月來,字節(jié)通過成熟的產(chǎn)品技術(shù),親民的產(chǎn)品定位,龐大的流量投入打造了豆包這一目前國內(nèi)用戶量最大的AI應用,這使得字節(jié)已經(jīng)走出了一條AI應用發(fā)展的成功道路,獲得了領(lǐng)先于其他競爭對手的獨特的AI應用落地經(jīng)驗。考慮到字節(jié)強大的資本體量和對AI商業(yè)化的高度重視,字節(jié)目前20余款AI應用也許只是個開始,字節(jié)已經(jīng)成為了事實上的中國AI商業(yè)化旗手,正在AI發(fā)展的道路上行以致遠。建議關(guān)注:金山辦公、新致軟件、漢得信息、合合信息、萬興科技、虹軟科技、新國都、當虹科技、同花順、福昕軟件、泛微網(wǎng)絡(luò)、致遠互聯(lián)、三六零、商湯-W、科大訊飛、邁富時、鼎捷數(shù)智、賽意信息、中國軟件國際、??低暋⒋笕A股份、潤澤科技、浪潮信息。風險提示:AI技術(shù)的發(fā)展不及預期,AI商業(yè)落地不及預期,市場競爭加劇的風險。行業(yè)研究·信息服務行業(yè)40APPENDIX1SummaryInvestmentHighlights:Doubao’spursuitofa‘strongermodel’continues.In2023,DoubaofoundationmodellaunchedinternallyatByteDance,usedinover50businessunits.ByMay2024,ByteDanceofficiallyreleasedtheDoubaomodelfamily,achievingsignificantadvancementsinlanguage,multimodalunderstanding,andcodegeneration.ByDecember2024,Doubao’scapabilitiesmatchedGPT-4o,rankingfirstinFlagEval’sdialoguemodellist.Doubao’srapidupgradesandperformanceimprovementshavebecomeacornerstoneofByteDanceAI,drivenbyrelentlesstechnicalinvestment,expandingapplicationboundariesandlayingafoundationforfuturegrowth.Themodel’sleadingedgeisexpectedtogrow.‘Lowerprices’and‘easierimplementation’makeDoubaoaccessibleacrossindustries.InMay2024,Doubao’smainmodelpricedatRMB0.0008perthousandtokens,99.3%cheaperthanindustrystandards.Thefamilymaintainedlowpricing,withvisualunderstandingatRMB0.003perthousandtokens,85%belowaverage,processing284imagesforRMB1.ToolslikeCozeplatformsupportAIapplicationdevelopment,withover1millionactivedevelopers.ByDecember2024,dailytokencallsexceeded4trillion,growing33timesin7months,especiallyinemergingsectorslikeautomotiveandsmartdevices.ByteDanceAI’sgoalsof‘strongermodels’,‘lowerprices’,and‘easierimplementation’aredrivingrapidindustryadoption,heraldinganAIapplicationboom.BeyondDoubao,ByteDance’sAIcommercialstrategyisadvancing.DoubaoapplaunchedinAugust2023,reaching59.98millionMAUbyNovember2024,leadingdomesticallyandrankingsecondgloballyafterChatGPT.Doubao’scomprehensivefeatures,lowusagethreshold,andByteDance’sadvertisingpowerdrivemassivetraffic.ByteDanceoperatesaround20AIapplications,with6listedina16z’stop100generativeAIapps.AItechnologyisstabilizing,andcommercializationisthenextphase.DoubaoprovidesByteDancewithuniquesuccessinAIapplicationdeployment.WithstrongcapitalandfocusonAIcommercialization,ByteDanceisaleaderinChina’sAImarket,poisedforlong-termsuccess.Recomme

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論