AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告課件

上傳人：文*** IP屬地：廣東上傳時(shí)間：2024-08-25 格式：PPTX 頁數(shù)：26 大小：1.71MB 積分：80 舉報(bào) 版權(quán)申訴

AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告課件_第2頁

AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告課件_第3頁

AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告課件_第4頁

AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告課件_第5頁

已閱讀5頁，還剩21頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告目

錄CONTENTS01 AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)概述02 AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)研究03 AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商案例04 AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)面對(duì)的挑戰(zhàn)與機(jī)遇201 AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)概述3AI產(chǎn)業(yè)整體進(jìn)展全球AI產(chǎn)品技術(shù)進(jìn)展多模態(tài)、長(zhǎng)文本、大模型小型化成為熱點(diǎn)研究方向在過去幾年里，大眾已見識(shí)到GPT、BERT等大語言模型在自然語言理解和生成方面的卓越能力。相比單一模態(tài)的大模型，多模態(tài)大模型能夠提供更自然的人機(jī)交互方式，具備更全面和準(zhǔn)確的認(rèn)知能力，并在不同情境下表現(xiàn)出更高的魯棒性，從而賦能更豐富和全面的AI應(yīng)用。因此，多模態(tài)技術(shù)已成為諸多大模型廠商的研發(fā)重點(diǎn)。此外，長(zhǎng)文本處理能力的提升，使大模型在理解和生成復(fù)雜文檔方面表現(xiàn)更佳，能夠更好地支持多主題和多步驟的推理任務(wù)；通過知識(shí)蒸餾、模型剪枝和混合精度訓(xùn)練等技術(shù)，大模型得以小型化，減少了計(jì)算資源需求，提高了推理效率，使大模型在資源受限設(shè)備上高效運(yùn)行，提升了響應(yīng)速度和用戶體驗(yàn)，保護(hù)了用戶的數(shù)據(jù)隱私。聚焦國(guó)內(nèi)AI商業(yè)化市場(chǎng)，大模型商業(yè)化進(jìn)程加速，API市場(chǎng)競(jìng)爭(zhēng)激烈，價(jià)格戰(zhàn)頻現(xiàn)，但同時(shí)也反映出供應(yīng)商間能力同質(zhì)化的問題，亟需破局；另一方面，央國(guó)企憑借較好的數(shù)字化基礎(chǔ)、豐富的數(shù)據(jù)資源及業(yè)務(wù)場(chǎng)景、相對(duì)充足的科技投入預(yù)算，成為現(xiàn)階段國(guó)內(nèi)大模型項(xiàng)目建設(shè)的主力軍，推動(dòng)了大模型在中國(guó)AI產(chǎn)業(yè)的商業(yè)化落地。概述：多模態(tài)大模型能夠同時(shí)處理和理解包括文本、音頻、圖像和視頻在內(nèi)的多種數(shù)據(jù)類型，這使得它們能夠提供更自然的人機(jī)交互方式，具備更全面和準(zhǔn)確的認(rèn)知能力，并多模態(tài) 且在不同情境下表現(xiàn)出更高的魯棒性，從而賦能更豐富和全面的AI應(yīng)用案例：2024年5月，OpenAI推出GPT-4o，可對(duì)音頻、視頻和文本進(jìn)行實(shí)時(shí)推理；2024年5月，

Google演示了多模態(tài)AI助手Astra概述：長(zhǎng)文本可支持模型理解和生成更復(fù)雜的文檔、報(bào)告、小說等內(nèi)容，能夠更有效地進(jìn)行知識(shí)管理和信息檢索，提升了模型對(duì)于上下文理解的連貫性，進(jìn)而更好地實(shí)現(xiàn)多主題、多步驟的復(fù)雜推理任務(wù)長(zhǎng)文本

案例：2024年3月，月之暗面宣布旗下大模型產(chǎn)品Kimi開啟200萬字無損上下文內(nèi)測(cè)，其后阿里、百度等大模型廠商均宣布相關(guān)大模型產(chǎn)品的長(zhǎng)文本能力升級(jí)規(guī)劃；2024年4月，Google、Meta等機(jī)構(gòu)的研究人員先后提出Infini-attention、Megalodon等無限長(zhǎng)文本方法大模型小型化概述：通過知識(shí)蒸餾、模型剪枝、混合精度訓(xùn)練等方法，“大模型小型化”相關(guān)技術(shù)可減少模型參數(shù)并降低計(jì)算資源需求，提高推理效率，使大模型可在端邊等資源受限的設(shè)備上高效運(yùn)行，降低能耗，提升了響應(yīng)速度和用戶體驗(yàn)，還增強(qiáng)了數(shù)據(jù)隱私保護(hù)，未來可能催生更多的創(chuàng)新型智能終端案例：2024年5月，微軟表示W(wǎng)indows將附帶40多個(gè)端側(cè)AI模型，包括可用于搜索、實(shí)時(shí)翻譯、圖像生成和處理等任務(wù)的小語言模型Phi-Silica；2024年6月，蘋果推出Apple

Intelligence個(gè)人智能系統(tǒng)，內(nèi)置3B端側(cè)模型，可支持摘要、改寫、問答等功能價(jià)格戰(zhàn)的積極意義擴(kuò)大客戶量及使用頻次，促使大模型技術(shù)在國(guó)內(nèi)更快普及，加速創(chuàng)新型應(yīng)用的誕生；促進(jìn)供應(yīng)商不斷優(yōu)化模型及計(jì)算架構(gòu)，降低模型推理成本；競(jìng)爭(zhēng)加速產(chǎn)業(yè)分層，較少社會(huì)整體資源消耗中國(guó)AI商業(yè)化落地進(jìn)展API調(diào)用市場(chǎng)卷起價(jià)格戰(zhàn)為爭(zhēng)奪大模型客戶流量及背后云資源市場(chǎng)，24年上半年云廠商、大模型廠商等相繼調(diào)整API產(chǎn)品定價(jià)，低價(jià)甚至免費(fèi)供應(yīng)價(jià)格戰(zhàn)的另一面為大模型產(chǎn)品技術(shù)壁壘的薄弱盡管大模型相關(guān)產(chǎn)品技術(shù)仍在迭代，但國(guó)內(nèi)大模型尤其以API方式提供標(biāo)準(zhǔn)化大模型服務(wù)的各供應(yīng)商的產(chǎn)品能力尚未形成較大代際差異；供應(yīng)商需加速技術(shù)及產(chǎn)品差異化建設(shè)，獲取足夠的利潤(rùn)，產(chǎn)業(yè)才能健康、可持續(xù)的發(fā)展2024年上半年中國(guó)大模型相關(guān)項(xiàng)目中標(biāo)統(tǒng)計(jì)據(jù)智能超參數(shù)統(tǒng)計(jì)，2024年1-6月中國(guó)大模型相關(guān)項(xiàng)目中標(biāo)數(shù)量達(dá)237個(gè)，前5個(gè)月披露的項(xiàng)目金額合計(jì)已過2023年；行業(yè)分布上，電信（47個(gè)）、能源（42個(gè)）位居1-6月的項(xiàng)目數(shù)量頭兩名，其次為教育、金融、政務(wù)等行業(yè)，各行業(yè)中的央國(guó)企均在積極推動(dòng)大模型項(xiàng)目建設(shè)4央國(guó)企引領(lǐng)大模型項(xiàng)目建設(shè)央國(guó)企對(duì)大模型的建設(shè)投入較多，與其有較好的數(shù)字化基礎(chǔ)、豐富的數(shù)據(jù)資源及業(yè)務(wù)場(chǎng)景、相對(duì)充足的科技投入預(yù)算相關(guān)數(shù)據(jù)、算法、算力是構(gòu)建AI的三大要素算法數(shù)據(jù)算力構(gòu)建AI系統(tǒng)的三大核心要素：數(shù)據(jù)、算法、算力算法

是處理信息、提取特征、進(jìn)行預(yù)測(cè)的邏輯框架深度學(xué)習(xí)的興起，CNN、Transformer等模型的迭代，極大地推動(dòng)了圖像識(shí)別、語義理解、文本生成等AI任務(wù)的進(jìn)步算力

支持算法處理龐大和復(fù)雜的數(shù)據(jù)集GPU、TPU等AI芯片的發(fā)展，使得研究人員能夠探索更深、更寬的網(wǎng)絡(luò)結(jié)構(gòu)，訓(xùn)練更強(qiáng)大的模型，并加速模型的推理速度。硬件的進(jìn)步直接影響到AI模型的訓(xùn)練效率及規(guī)?；瘧?yīng)用的可行性，從而不斷拓展AI的邊界數(shù)據(jù)

是模型學(xué)習(xí)和適應(yīng)不同任務(wù)的基石高質(zhì)量的數(shù)據(jù)能夠幫助模型更好地理解現(xiàn)實(shí)世界，并做出更精準(zhǔn)的預(yù)測(cè)；反之，即使是最先進(jìn)的算法，也無法從劣質(zhì)的數(shù)據(jù)中獲得有效的洞察AI高質(zhì)量數(shù)據(jù)推動(dòng)AI系統(tǒng)的發(fā)展進(jìn)步ImageNet數(shù)據(jù)集的成功，以及大模型的Scaling

Law的發(fā)現(xiàn)，都證明著高質(zhì)量數(shù)據(jù)對(duì)于AI發(fā)展的巨大推動(dòng)ImageNet見證CV算法在大規(guī)模數(shù)據(jù)集上的性能提升2009年6月，李飛飛團(tuán)隊(duì)完成ImageNet初始版本，共有1500萬張圖片，涵蓋了

2.2萬個(gè)不同類別，這些圖片篩選自近10億張候選圖片，并由來自167個(gè)國(guó)家的4.8萬多名全球貢獻(xiàn)者進(jìn)行了標(biāo)注2012年，由Alex

Krizhevsky、Ilya

Sutskever和Geoffrey

Hinton共同開發(fā)的AlexNet在挑戰(zhàn)賽上以超過第二名10個(gè)百分點(diǎn)的成績(jī)?cè)趭Z冠，深度學(xué)習(xí)迎來學(xué)術(shù)探索與工業(yè)應(yīng)用的熱潮2017年是挑戰(zhàn)賽的最后一年，物體分類冠軍的準(zhǔn)確率在7年時(shí)間里從71.8％上升到97.3％，超越了人類的物體分類水平5Scaling

Law進(jìn)一步揭示數(shù)據(jù)對(duì)于提升模型性能的關(guān)鍵作用OpenAI研究團(tuán)隊(duì)于2020年發(fā)表的論文《Scaling

laws

for

neural

languagemodels》中，系統(tǒng)地探討了語言模型性能與模型大小、數(shù)據(jù)集大小和計(jì)算資源之間的關(guān)系。研究發(fā)現(xiàn)，模型的性能（如損失函數(shù)值）與這些因素之間存在穩(wěn)定的冪律關(guān)系，即模型的性能會(huì)隨著數(shù)據(jù)量、模型規(guī)模和計(jì)算量的增加而提升現(xiàn)階段，諸多大模型的研發(fā)仍在遵循Scaling

Law的發(fā)展方向①

今年2月，由ServiceNow、Hugging

Face

和

NVIDIA聯(lián)合發(fā)布的用于代碼生成的StarCoder2，其數(shù)據(jù)集規(guī)模相比v1大7倍，實(shí)現(xiàn)了更準(zhǔn)確的上下文感知預(yù)測(cè)②

今年4月，Meta推出Llama3，其訓(xùn)練數(shù)據(jù)集超過15T

token（是Llama2的7倍），可支持8K的上下文長(zhǎng)度（是Llama2的2倍），在MMLU、GPQA、HumanEval等多項(xiàng)基準(zhǔn)上成績(jī)優(yōu)異數(shù)據(jù)、算法、算力的協(xié)同促使現(xiàn)代AI技術(shù)實(shí)現(xiàn)了從理論到應(yīng)用的飛躍在人工智能領(lǐng)域，數(shù)據(jù)、算法和算力是構(gòu)建AI系統(tǒng)的三大核心要素，三者的協(xié)同使現(xiàn)代AI技術(shù)實(shí)現(xiàn)了從理論到應(yīng)用的飛躍。數(shù)據(jù)是AI的基礎(chǔ)，大量高質(zhì)量的數(shù)據(jù)不僅能夠提高現(xiàn)有模型的準(zhǔn)確率，還能促進(jìn)模型的優(yōu)化和創(chuàng)新。以ImageNet數(shù)據(jù)集為例，該數(shù)據(jù)集及相關(guān)挑戰(zhàn)賽推動(dòng)了計(jì)算機(jī)視覺算法的快速發(fā)展，2017年是挑戰(zhàn)賽的最后一年，物體分類冠軍的準(zhǔn)確率在7年時(shí)間里從71.8%上升到97.3%。近年來，Transformer等預(yù)訓(xùn)練大模型在語言理解及生成等領(lǐng)域表現(xiàn)出色，大模型背后的Scaling

Law（規(guī)模定律）進(jìn)一步揭示了模型性能與數(shù)據(jù)量、算力之間的關(guān)系，強(qiáng)化了數(shù)據(jù)在提升AI表現(xiàn)中的關(guān)鍵作用。AI基礎(chǔ)數(shù)據(jù)服務(wù)是AI產(chǎn)業(yè)發(fā)展的關(guān)鍵支撐加速高質(zhì)量數(shù)據(jù)的獲取與標(biāo)注，推動(dòng)AI算法的創(chuàng)新與持續(xù)優(yōu)化根據(jù)AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商LXT對(duì)322家有AI項(xiàng)目經(jīng)驗(yàn)的美國(guó)企業(yè)的調(diào)研，訓(xùn)練數(shù)據(jù)的資金投入占這些企業(yè)的AI整體建設(shè)投入的15%，61%的企業(yè)認(rèn)為未來2到5年對(duì)數(shù)據(jù)的需求量將會(huì)增加，62%的企業(yè)認(rèn)為數(shù)據(jù)質(zhì)量比數(shù)據(jù)量更為重要。LXT的調(diào)研結(jié)果揭示了企業(yè)在AI建設(shè)過程中對(duì)高質(zhì)量數(shù)據(jù)的迫切需求。鑒于AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商在高效提供高質(zhì)量數(shù)據(jù)集方面的專業(yè)能力，它們已成為AI研發(fā)企業(yè)的重要合作伙伴，AI基礎(chǔ)數(shù)據(jù)服務(wù)已是推動(dòng)AI產(chǎn)業(yè)發(fā)展的關(guān)鍵支撐。AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商對(duì)AI算法研發(fā)企業(yè)的幫助企業(yè)人工智能建設(shè)的預(yù)算分配情況AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商提供的標(biāo)準(zhǔn)數(shù)據(jù)集使企業(yè)能夠迅速開展模型訓(xùn)練，而定制化數(shù)據(jù)集則助力企業(yè)針對(duì)特定應(yīng)用場(chǎng)景優(yōu)化算法性能不僅縮短了AI研發(fā)周期，還顯著提升了AI應(yīng)用的性能和效果，激發(fā)了企業(yè)在AI領(lǐng)域的創(chuàng)新潛力推動(dòng)算法的創(chuàng)新與持續(xù)優(yōu)化加速數(shù)據(jù)獲取與標(biāo)注AI算法的訓(xùn)練對(duì)數(shù)據(jù)的需求量巨大，且對(duì)數(shù)據(jù)的質(zhì)量和精確度有著嚴(yán)格的要求AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商提供的專業(yè)產(chǎn)品與服務(wù)能夠助力AI研發(fā)企業(yè)迅速獲得所需的高質(zhì)量標(biāo)注數(shù)據(jù)確保數(shù)據(jù)的高標(biāo)準(zhǔn)質(zhì)量數(shù)據(jù)質(zhì)量對(duì)AI算法的性能有直接影響AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商依托專業(yè)的標(biāo)注團(tuán)隊(duì)和行業(yè)領(lǐng)先的標(biāo)注工具，確保了數(shù)據(jù)的高標(biāo)準(zhǔn)質(zhì)量，為算法的精度和可靠性奠定了堅(jiān)實(shí)的基礎(chǔ)，幫助企業(yè)打造高性能的AI方案17%15%12%11%11%10%10%9%5%AI戰(zhàn)略訓(xùn)練數(shù)據(jù)硬件設(shè)備合規(guī)管理軟件產(chǎn)品開發(fā)人才招聘數(shù)據(jù)分析其他61%36%增長(zhǎng)保持現(xiàn)狀減少62.0%38%數(shù)據(jù)質(zhì)量更重要數(shù)據(jù)量更重要來源：LXT-The

Path

AlMaturity

20246企業(yè)未來2~5年的訓(xùn)練數(shù)據(jù)需求情況3%數(shù)據(jù)量與數(shù)據(jù)質(zhì)量的重要性比較AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商及主要產(chǎn)品服務(wù)介紹標(biāo)準(zhǔn)數(shù)據(jù)集、定制數(shù)據(jù)集、配套產(chǎn)品工具服務(wù)等三大產(chǎn)品服務(wù)AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商是專注于為各行業(yè)的AI算法訓(xùn)練與調(diào)優(yōu)提供基礎(chǔ)數(shù)據(jù)產(chǎn)品服務(wù)的公司。這些公司通過提供標(biāo)準(zhǔn)數(shù)據(jù)集、定制數(shù)據(jù)集和配套產(chǎn)品工具服務(wù)，支持互聯(lián)網(wǎng)、大模型、智能駕駛等各領(lǐng)域的AI技術(shù)發(fā)展。數(shù)據(jù)集按內(nèi)容格式可分為文本、圖像、視頻、語音等類型，核心生產(chǎn)流程主要包括方案設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)檢等五個(gè)關(guān)鍵環(huán)節(jié)。標(biāo)準(zhǔn)數(shù)據(jù)集是由數(shù)據(jù)服務(wù)廠商研發(fā)并可多次銷售的數(shù)據(jù)集；定制數(shù)據(jù)集是依據(jù)客戶需求制作特定數(shù)據(jù)集，數(shù)據(jù)的知識(shí)產(chǎn)權(quán)歸客戶所有；配套產(chǎn)品工具服務(wù)包括標(biāo)注工具、實(shí)訓(xùn)平臺(tái)及AI模型評(píng)測(cè)等軟硬件工具服務(wù)，用于滿足高效標(biāo)注數(shù)據(jù)、培訓(xùn)數(shù)據(jù)標(biāo)注、評(píng)估AI能力效果等不同層次的客戶需求，輔助和延展數(shù)據(jù)服務(wù)廠商的相關(guān)業(yè)務(wù)。AI數(shù)據(jù)數(shù)據(jù)服務(wù)廠商的主要產(chǎn)品服務(wù)配套產(chǎn)品工具服務(wù)包括標(biāo)注工具、實(shí)訓(xùn)平臺(tái)及AI模型評(píng)測(cè)等軟硬件工具服務(wù)，輔助和延展數(shù)據(jù)服務(wù)廠商的相關(guān)業(yè)務(wù)標(biāo)準(zhǔn)數(shù)據(jù)集由數(shù)據(jù)服務(wù)廠商研發(fā)并可多次銷售的數(shù)據(jù)集定制數(shù)據(jù)集依據(jù)客戶需求制作特定數(shù)據(jù)集，數(shù)據(jù)的知識(shí)產(chǎn)權(quán)歸客戶所有根據(jù)設(shè)計(jì)好的數(shù)據(jù)體系標(biāo)準(zhǔn)，使用各類硬件設(shè)備、數(shù)據(jù)采集系統(tǒng)或網(wǎng)絡(luò)爬蟲等工具，獲取滿足需求的原始數(shù)據(jù)源對(duì)采集到的原始數(shù)據(jù)進(jìn)行處理，去除或補(bǔ)全缺失數(shù)據(jù)，修改或刪除格式錯(cuò)誤、內(nèi)容錯(cuò)誤和邏輯錯(cuò)誤的數(shù)據(jù)，去除無用或無效的數(shù)據(jù)借助語言語音預(yù)識(shí)別、圖像邊界檢測(cè)等自動(dòng)化或半自動(dòng)化工具，通過人機(jī)協(xié)作高效完成數(shù)據(jù)標(biāo)注基于自動(dòng)化質(zhì)檢及多標(biāo)注員交叉驗(yàn)證，針對(duì)標(biāo)注數(shù)據(jù)進(jìn)行一致性檢查、完整性檢查、準(zhǔn)確性檢查、重復(fù)性檢查等，糾錯(cuò)并反饋檢測(cè)報(bào)告，是確保數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)數(shù)據(jù)集的核心生產(chǎn)流程客戶需求溝通，設(shè)計(jì)匹配客戶算法模型需求的數(shù)據(jù)采集、清洗、標(biāo)注及質(zhì)檢的數(shù)據(jù)服務(wù)流程及方式方法方案設(shè)計(jì)數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)質(zhì)檢數(shù)據(jù)標(biāo)注78典型服務(wù)場(chǎng)景——通用大模型（1/2）數(shù)據(jù)量更大、維度更加多元，標(biāo)注方式及質(zhì)量評(píng)判標(biāo)準(zhǔn)也更為復(fù)雜多樣算法模型從理論到實(shí)踐的應(yīng)用過程依賴于大量的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)越多、越完整、質(zhì)量越高，模型推理的結(jié)果就越可靠。在本報(bào)告的討論中，傳統(tǒng)AI泛指Transformer架構(gòu)出現(xiàn)之前的AI架構(gòu)，參數(shù)量通常相對(duì)較小，大模型架構(gòu)則以Transformer為代表。作為應(yīng)用大模型架構(gòu)的代表，ChatGPT在2022年11月上線以來，掀起了AI乃至社會(huì)經(jīng)濟(jì)各領(lǐng)域?qū)Υ竽Ｐ偷难杏懪c應(yīng)用的熱潮。與傳統(tǒng)AI相似，大模型依然需要大量?jī)?yōu)質(zhì)數(shù)據(jù)，但其所需數(shù)據(jù)量更大，數(shù)據(jù)維度更加多元，標(biāo)注方式及質(zhì)量評(píng)判標(biāo)準(zhǔn)也更為復(fù)雜多樣。對(duì)比傳統(tǒng)AI模型，大模型對(duì)數(shù)據(jù)集的需求差異大模型傳統(tǒng)模型傳統(tǒng)AI模型由于參數(shù)量和復(fù)雜度的限制，能夠吸收利用的數(shù)據(jù)量相對(duì)有限，過多的數(shù)據(jù)不僅無法有效利用，反而可能導(dǎo)致過擬合等問題AI

以計(jì)算機(jī)視覺的經(jīng)典模型ResNet為例，其在2015年的ImageNet視覺競(jìng)賽中以3.6%的錯(cuò)誤率奪得第一名，而其所用的ImageNet數(shù)據(jù)集有近150萬張圖像，總大小約150GB數(shù)據(jù)需求量更大大模型通常需要更大量的數(shù)據(jù)才能訓(xùn)練出良好的性能，大模型原始訓(xùn)練數(shù)據(jù)的大小一般為TB至數(shù)百TB，但其訓(xùn)練首先需將文本等原始數(shù)據(jù)token化今年4月開源的Llama3的訓(xùn)練數(shù)據(jù)集超過15T

token，是Llama2的7倍數(shù)據(jù)維度更加多元大模型的數(shù)據(jù)來源非常豐富，涵蓋了文本、圖片、音頻和視頻等多種形式，含海量知識(shí)信息，涉及各類專業(yè)領(lǐng)域和多種語言?；诙鄻踊哪軌蜻m應(yīng)更廣泛的任務(wù)和場(chǎng)景ChatGPT、Claude、Llama

和

Mistral

等大模型的訓(xùn)練數(shù)據(jù)包括文學(xué)作品、百科全書、新聞、社交媒體、學(xué)術(shù)文獻(xiàn)等多種知識(shí)信息，且往往覆蓋了圖像、視頻和音頻等多模態(tài)數(shù)據(jù)傳統(tǒng)AI模型通常需要針對(duì)目標(biāo)任務(wù)場(chǎng)景的領(lǐng)域數(shù)據(jù)CNN主要處理圖像數(shù)據(jù)，通常基于OCR、人臉識(shí)別、智能駕駛等特定任務(wù)場(chǎng)景的圖像數(shù)據(jù)進(jìn)行訓(xùn)練和優(yōu)化；而RNN和LSTM則一般處理文本和時(shí)間序列數(shù)據(jù)標(biāo)注維度更豐富對(duì)噪聲數(shù)據(jù)的利用度更高評(píng)判標(biāo)準(zhǔn)更加復(fù)雜傳統(tǒng)AI模型的標(biāo)注維度通常比較單一圖像分類只需標(biāo)注圖片的類別，文本分類只需標(biāo)注文本的主題等的信息，如新聞的標(biāo)注除了包括主題之外，往往需包括時(shí)間、地點(diǎn)、人物等其他標(biāo)簽數(shù)據(jù)，大模型具備較強(qiáng)的通用能力和遷移能力，為了訓(xùn)練大模型理解長(zhǎng)序列數(shù)據(jù)的能力，還需要對(duì)文本進(jìn)行更復(fù)雜的標(biāo)注，例如對(duì)長(zhǎng)篇小說進(jìn)行按篇章結(jié)構(gòu)或一定字?jǐn)?shù)間隔的標(biāo)注，標(biāo)注每個(gè)板塊的人物、事件、摘要等信息大模型能夠在一定程度上從包含噪聲和偏差的數(shù)據(jù)中學(xué)習(xí)為了更好的模型性能，仍然需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行清洗和篩選，以獲得更佳的模型效果傳統(tǒng)AI模型對(duì)數(shù)據(jù)質(zhì)量非常敏感，數(shù)據(jù)中的噪聲和偏差可能會(huì)顯著降低模型性能傳統(tǒng)AI模型的數(shù)據(jù)標(biāo)注需要仔細(xì)審核，確保高準(zhǔn)確度標(biāo)注方式及評(píng)判標(biāo)準(zhǔn)更加復(fù)雜大模型的標(biāo)注需要考慮更加多維 ?

大模型的標(biāo)注有一定主觀性，如長(zhǎng)文本摘要、圖片內(nèi)容的理解、不同文風(fēng)的改寫、對(duì)同一問題的多個(gè)回答的打分等，評(píng)判標(biāo)準(zhǔn)更復(fù)雜，對(duì)標(biāo)注者的邏輯能力、知識(shí)體系的要求更高隨著算法策略的調(diào)整或研發(fā)側(cè)對(duì)數(shù)據(jù)工程理解的加深，數(shù)據(jù)標(biāo)注方式及具體導(dǎo)向可能在項(xiàng)目進(jìn)展中多次調(diào)整傳統(tǒng)AI模型的數(shù)據(jù)標(biāo)注一般有標(biāo)準(zhǔn)答案，如圖像類別、像素邊界、語音文本等通常有單一答案，評(píng)判標(biāo)準(zhǔn)更客觀9來源：根據(jù)公開資料、企業(yè)調(diào)研，結(jié)合統(tǒng)計(jì)模型核算。數(shù)據(jù)類型說明：公開數(shù)據(jù)為無需借助爬蟲工具，可直接下載利用的數(shù)據(jù)，如來自高校、社區(qū)的免費(fèi)共享數(shù)據(jù)；大模型應(yīng)用及客戶合作數(shù)據(jù)，指用戶在大模型C端應(yīng)用中反饋的數(shù)據(jù)，以及大模型在B端行業(yè)拓展中企業(yè)客戶提供的數(shù)據(jù)；外采數(shù)據(jù)包括原料數(shù)據(jù)以及數(shù)據(jù)服務(wù)公司提供的標(biāo)準(zhǔn)數(shù)據(jù)集、定制數(shù)據(jù)集等。其他說明：調(diào)研企業(yè)研發(fā)的大模型均為側(cè)重語言能力的多模態(tài)大模型；主要以數(shù)據(jù)token化前所需存儲(chǔ)空間為口徑做占比計(jì)算；因調(diào)研樣本的局限性，本比例可能與行業(yè)整體情況存在偏差。

典型服務(wù)場(chǎng)景——通用大模型（2/2）為提升通用能力，大模型訓(xùn)練數(shù)據(jù)的投入將逐步向圖像、視頻等多模態(tài)數(shù)據(jù)傾斜，且需要更多的采購(gòu)數(shù)據(jù)支持縱觀業(yè)界開源及閉源大模型的能力特性，結(jié)合對(duì)大模型研發(fā)企業(yè)的調(diào)研，雖然當(dāng)下主流大模型應(yīng)用仍相對(duì)側(cè)重文本輸入、文本輸出的能力，但對(duì)圖像、視頻、語音等多模態(tài)數(shù)據(jù)的使用已越來越普遍，預(yù)計(jì)大模型訓(xùn)練數(shù)據(jù)中多模態(tài)數(shù)據(jù)的占比將在未來數(shù)年持續(xù)提升。根據(jù)對(duì)部分通用大模型及綜合型AI廠商的調(diào)研，目前大模型的訓(xùn)練數(shù)據(jù)主要來源于公開數(shù)據(jù)、網(wǎng)絡(luò)爬蟲數(shù)據(jù)等可公開獲取的數(shù)據(jù)，其次是采購(gòu)數(shù)據(jù)。相比大模型初創(chuàng)企業(yè)，綜合型AI廠商憑借現(xiàn)有的互聯(lián)網(wǎng)應(yīng)用和AI業(yè)務(wù)積累，具備獨(dú)特的數(shù)據(jù)優(yōu)勢(shì)。在模型的通用能力建設(shè)方面，公開數(shù)據(jù)和爬蟲數(shù)據(jù)已被廣泛利用，未來這兩類數(shù)據(jù)在整體上的提升空間相對(duì)有限，Epoch

AI等機(jī)構(gòu)的研究人員于2024年6月更新的論文中表示，大語言模型將在大約2026至2032年之間耗盡所有公開的文本數(shù)據(jù)。預(yù)計(jì)，大模型研發(fā)廠商將通過更多的采購(gòu)數(shù)據(jù)來提升模型的通用能力；而在垂直場(chǎng)景優(yōu)化及行業(yè)客戶的拓展中，公開數(shù)據(jù)和爬蟲數(shù)據(jù)仍有較大的獲取提升空間，大模型研發(fā)廠商也將更多地利用客戶側(cè)的合作數(shù)據(jù)，增強(qiáng)模型解決行業(yè)特定領(lǐng)域或企業(yè)特定問題的能力。22.6%22.5%17.5%2023年大模型的訓(xùn)練數(shù)據(jù)來源構(gòu)成10.8%26.6%公開數(shù)據(jù)網(wǎng)絡(luò)爬蟲數(shù)據(jù)采購(gòu)數(shù)據(jù)大模型應(yīng)用及客戶合作數(shù)據(jù)企業(yè)自有數(shù)據(jù)來源：根據(jù)公開資料、企業(yè)調(diào)研，結(jié)合統(tǒng)計(jì)模型核算。其他說明：調(diào)研企業(yè)研發(fā)的大模型均為側(cè)重語言能力的多模態(tài)大模型；以大模型研發(fā)企業(yè)在2023年對(duì)各類型數(shù)據(jù)的資金投入做占比計(jì)算；因調(diào)研樣本的局限性，本比例可能與行業(yè)整體情況存在偏差。

55.0%36.0%2023年大模型的各類型訓(xùn)練數(shù)據(jù)投入構(gòu)成9.0%文本數(shù)據(jù)圖片及視頻數(shù)據(jù)語音等其他數(shù)據(jù)10典型服務(wù)場(chǎng)景——大模型評(píng)測(cè)公開評(píng)測(cè)基準(zhǔn)與商業(yè)化評(píng)測(cè)服務(wù)共建大模型評(píng)測(cè)生態(tài)隨著大模型技術(shù)的快速迭代及其在眾多領(lǐng)域的廣泛應(yīng)用，相關(guān)評(píng)測(cè)需求同步增長(zhǎng)。對(duì)于模型研發(fā)企業(yè)，評(píng)測(cè)是發(fā)現(xiàn)模型在功能、性能、安全性和可靠性等方面優(yōu)劣勢(shì)的關(guān)鍵步驟，并可與其他企業(yè)的模型橫向?qū)Ρ?，進(jìn)而針對(duì)性地優(yōu)化模型，提高其表現(xiàn)和穩(wěn)定性；對(duì)模型應(yīng)用企業(yè)而言，評(píng)測(cè)是選型和項(xiàng)目驗(yàn)收的重要工具，通過專業(yè)評(píng)測(cè)服務(wù)，企業(yè)能夠評(píng)估模型的實(shí)際應(yīng)用適用性，確保所選模型滿足需求，并保障定制類模型項(xiàng)目的交付質(zhì)量。相較傳統(tǒng)AI，大模型的應(yīng)用空間更廣，評(píng)測(cè)本身也更加復(fù)雜和多樣化，市場(chǎng)對(duì)專業(yè)評(píng)測(cè)服務(wù)的需求潛力巨大。公開評(píng)測(cè)基準(zhǔn)和商業(yè)化評(píng)測(cè)服務(wù)的發(fā)展，將為大模型評(píng)測(cè)提供重要支撐，促進(jìn)技術(shù)與產(chǎn)業(yè)的健康發(fā)展。公開基準(zhǔn)為大模型評(píng)測(cè)提供重要參考通過科學(xué)、客觀、多場(chǎng)景的評(píng)測(cè)任務(wù)和指標(biāo)設(shè)計(jì)，公開基準(zhǔn)為學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用提供評(píng)估大模型能力的重要參考類別基準(zhǔn)名稱發(fā)布機(jī)構(gòu)/發(fā)布年份評(píng)測(cè)內(nèi)容通用文本MMLUUC伯克利、哥大等/202015908個(gè)問題，覆蓋基礎(chǔ)數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等57個(gè)領(lǐng)域GPQA紐約大學(xué)、Cohere、Anthropic等/2023448個(gè)多項(xiàng)選擇題，由生物、物理、化學(xué)等領(lǐng)域的專家編寫MathUC伯克利等/202112500個(gè)高中數(shù)學(xué)競(jìng)賽問題，覆蓋代數(shù)、幾何、概率論等學(xué)科HumanEvalOpenAI/2021164個(gè)手寫的編程問題，每個(gè)編程問題都由函數(shù)簽名、文檔字符串、函數(shù)體和幾個(gè)單元測(cè)試構(gòu)成其他典型通用文本類評(píng)測(cè)基準(zhǔn)：MGSM、DROP、BBH等通用中文SuperClueAI評(píng)測(cè)基準(zhǔn)社區(qū)Clue/20232194道多輪簡(jiǎn)答題，覆蓋理科與文科兩大能力，包括計(jì)算、邏輯推理、代碼、知識(shí)百科等十大任務(wù)其他典型通用中文類評(píng)測(cè)基準(zhǔn)：OpenCompass、CMMLU、C-EVAL等翻譯WMT23國(guó)際機(jī)器翻譯大會(huì)/2023通用翻譯、術(shù)語、手語、生物醫(yī)學(xué)、文學(xué)等不同領(lǐng)域的翻譯任務(wù)語音FlEURSMeta、Google等/2022包含102種語言的n路并行語音數(shù)據(jù)集，每種語言約12小時(shí)的語音監(jiān)督數(shù)據(jù)語音翻譯CoVoST2Meta/2020共計(jì)2900小時(shí)的語音，包含從21種語言翻譯成英語，以及從英語翻譯成15種語言的語料多模態(tài)MMMUIn.ai、滑鐵盧大學(xué)等/2023從大學(xué)考試、教科書中收集的

1.15萬個(gè)多模態(tài)問題，包括圖表、圖示、地圖、樂譜、化學(xué)結(jié)構(gòu)等30種高度異構(gòu)的圖像類型MathVista加州大學(xué)洛杉磯分校等/2023由6141個(gè)任務(wù)組成，源自

個(gè)涉及數(shù)學(xué)的現(xiàn)有多模態(tài)數(shù)據(jù)集和

個(gè)新創(chuàng)建的數(shù)據(jù)集EgoShemaUC伯克利等/2023由超過250小時(shí)的的人類自然活動(dòng)的視頻和超過5000個(gè)多項(xiàng)選擇題構(gòu)成，基準(zhǔn)要求模型根據(jù)三分鐘長(zhǎng)的視頻剪輯從5個(gè)選項(xiàng)中選出正確答案其他典型多模態(tài)評(píng)測(cè)基準(zhǔn)：M3Exam、AI2D、ChartQA、DocVQA、ActivityNet等數(shù)據(jù)集體系平臺(tái)高質(zhì)量的數(shù)據(jù)集是進(jìn)行有效評(píng)測(cè)的基礎(chǔ)，在公開評(píng)測(cè)基準(zhǔn)的基礎(chǔ)上，商業(yè)化評(píng)測(cè)服務(wù)可結(jié)合私有或定制數(shù)據(jù)集，為客戶提供符合實(shí)際場(chǎng)景需求的評(píng)測(cè)數(shù)據(jù)集和指標(biāo)商業(yè)化評(píng)測(cè)服務(wù)提供自動(dòng)化、智能化的平臺(tái)，支持?jǐn)?shù)據(jù)管理和更新，為客戶構(gòu)建高效、規(guī)范且可演進(jìn)的評(píng)測(cè)體系，生成詳細(xì)報(bào)告，助力技術(shù)迭代及應(yīng)用選型，從供需兩側(cè)加速大模型產(chǎn)業(yè)的發(fā)展商業(yè)化評(píng)測(cè)為客戶提供體系化服務(wù)AI基礎(chǔ)數(shù)據(jù)服務(wù)公司及評(píng)測(cè)平臺(tái)公司可通過商業(yè)化評(píng)測(cè)，為客戶提供體系化解決方案，推動(dòng)大模型在實(shí)際應(yīng)用中的落地和發(fā)展11來源：綜合網(wǎng)絡(luò)公開資料，研究院整理及繪制。來源：綜合華泰證券、九章智駕等公開資料，研究院整理及繪制

典型服務(wù)場(chǎng)景——智能駕駛AI基礎(chǔ)數(shù)據(jù)服務(wù)與AI算法研發(fā)相互促進(jìn)，共同推動(dòng)著自動(dòng)駕駛的實(shí)現(xiàn)在大模型和端到端技術(shù)的加持下，智能駕駛的自動(dòng)化程度不斷提升，相關(guān)功能已成為部分消費(fèi)者購(gòu)車時(shí)的重要考慮因素。除個(gè)別廠商專注于純視覺路線外，當(dāng)下高級(jí)別的智能駕駛系統(tǒng)中，攝像頭和激光雷達(dá)是兩大核心傳感器。攝像頭主要捕捉二維圖像，具有高分辨率和豐富的色彩細(xì)節(jié)；激光雷達(dá)則通過發(fā)射和接收激光脈沖生成高精度的三維點(diǎn)云數(shù)據(jù)，能夠精確測(cè)量物體的距離、尺寸和相對(duì)位置，受光照等環(huán)境條件影響較小。攝像頭和激光雷達(dá)等各類傳感器各具優(yōu)勢(shì)，互為補(bǔ)充，數(shù)據(jù)標(biāo)注需對(duì)來自不同傳感器的數(shù)據(jù)標(biāo)簽對(duì)齊和交叉驗(yàn)證工作。AI基礎(chǔ)數(shù)據(jù)服務(wù)是支撐智能駕駛、大模型等AI算法研發(fā)的基石，而AI算法也大幅提升了智駕研發(fā)領(lǐng)域數(shù)據(jù)標(biāo)注的效率和效果，為數(shù)據(jù)服務(wù)行業(yè)的發(fā)展注入了新的活力。數(shù)據(jù)與AI彼此支撐、相互促進(jìn)，共同推動(dòng)著自動(dòng)駕駛的實(shí)現(xiàn)。智駕系統(tǒng)核心傳感器的數(shù)據(jù)標(biāo)注工作對(duì)比分析自動(dòng)化標(biāo)注在智駕研發(fā)場(chǎng)景中的應(yīng)用案例2021年特斯拉人工標(biāo)注團(tuán)隊(duì)約1000人，其后通過自動(dòng)化標(biāo)注系統(tǒng)提高特了團(tuán)隊(duì)效率，2022年該團(tuán)隊(duì)裁員200余人斯 ?

特斯拉采用“多重軌跡重建”技術(shù)自動(dòng)標(biāo)注車輛行駛軌跡，在集群中運(yùn)拉行12小時(shí)即可完成10000次行駛軌跡標(biāo)注，相當(dāng)于節(jié)省了500萬小時(shí)的人工標(biāo)注時(shí)間。理 ?

2023年之前理想汽車每年需通過人工完成約1000萬幀的圖片標(biāo)注，每想張成本6~8元，一年耗資近億元汽 ?

此后，理想汽車基于大模型進(jìn)行自動(dòng)化標(biāo)注，算法可在三個(gè)小時(shí)內(nèi)完成車過去人工一年的工作，效率是人工的1000倍ScaleAIScale

AI為通用、Nuro、豐田、法雷奧等諸多智駕研發(fā)企業(yè)提供了自動(dòng)化標(biāo)注的工具平臺(tái)或相關(guān)產(chǎn)品服務(wù)借助Scale

AI的調(diào)試訓(xùn)練數(shù)據(jù)集的可視化工具平臺(tái)Nucleus，無人車等機(jī)器人研發(fā)企業(yè)Nuro可有效維護(hù)管理超5億張圖像數(shù)據(jù)集。Nucleus的Object

Autotag功能可支持Nuro選擇某一類別的未標(biāo)注圖像，并自動(dòng)找出一組相似圖像，大幅提升罕見場(chǎng)景的數(shù)據(jù)的準(zhǔn)備、標(biāo)注及管理效率小鵬汽車XNet的訓(xùn)練基于50~100萬個(gè)短視頻，其中動(dòng)態(tài)目標(biāo)的數(shù)量可能達(dá)到數(shù)億甚至十億量級(jí)，如果以人工標(biāo)注的方式，需要1000人的團(tuán)隊(duì)耗時(shí)2年完成標(biāo)注小鵬汽車的全自動(dòng)標(biāo)注系統(tǒng)僅需16.7天即完成上述工作，且標(biāo)注質(zhì)量更高，信息更全面，包括3D位置、尺寸、速度、軌跡等信息架構(gòu)攝像頭激光雷達(dá)標(biāo)注對(duì)象二維圖像中的汽車、行人、交通標(biāo)志、車道線等物體需考慮光照條件和天氣影響3D點(diǎn)云數(shù)據(jù)，需標(biāo)注物體的邊界、相對(duì)位置等相對(duì)不受光照條件影響標(biāo)注復(fù)雜性需綜合物體的顏色、紋理和形狀等進(jìn)行區(qū)分標(biāo)注的主觀性或不確定性相對(duì)更大需理解三維空間關(guān)系精確的距離測(cè)量標(biāo)注結(jié)果的一致性更高標(biāo)注量攝像頭的數(shù)據(jù)及采集到的圖像數(shù)量相對(duì)更多每張圖像的標(biāo)注工作量相對(duì)更小每幀點(diǎn)云的數(shù)據(jù)量很大，點(diǎn)云數(shù)據(jù)處理和標(biāo)注的工作量相對(duì)更大標(biāo)注成本圖像標(biāo)注相對(duì)簡(jiǎn)單，且相關(guān)自動(dòng)化工具相對(duì)成熟，單張標(biāo)注成本更低點(diǎn)云數(shù)據(jù)復(fù)雜，單張標(biāo)注成本相對(duì)更高集成與融合在高級(jí)別的自動(dòng)駕駛系統(tǒng)研發(fā)中，大多廠商通常會(huì)融合攝像頭、激光雷達(dá)等多種傳感器的數(shù)據(jù)，為系統(tǒng)提供更全面的信息。這意味著標(biāo)注策略需考慮數(shù)據(jù)融合，做好來自不同傳感器的數(shù)據(jù)標(biāo)簽對(duì)齊和交叉驗(yàn)證工作1202 AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)現(xiàn)狀中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)圖譜中游云服務(wù)廠商數(shù)據(jù)服務(wù)專業(yè)廠商上游多源數(shù)據(jù)人力資源服務(wù)IT基礎(chǔ)設(shè)施下游通用大模型及綜合型AI廠商智能駕駛AI+安防AI+工業(yè)AI+教育AIoT…文本、圖片、視頻、音頻等原料數(shù)據(jù)版權(quán)所有者個(gè)人企業(yè)政府…數(shù)據(jù)標(biāo)注垂類BPOIT類BPO垂直行業(yè)/領(lǐng)域的大模型及AI廠商影像創(chuàng)作搜索及文本創(chuàng)作代碼助手多源數(shù)據(jù)、人力服務(wù)、IT設(shè)施

→

數(shù)據(jù)服務(wù)

→AI算法研發(fā)廠商AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)的中游即數(shù)據(jù)標(biāo)注等數(shù)據(jù)服務(wù)的供應(yīng)商，包括專業(yè)廠商及云廠商兩類，其中后者以支持內(nèi)部算法研發(fā)及云業(yè)務(wù)客戶需求為主。上游提供原料數(shù)據(jù)、人力資源支持及IT基礎(chǔ)設(shè)施，其中人力資源服務(wù)供應(yīng)商主要包括垂直做數(shù)據(jù)標(biāo)注的廠商和綜合IT類廠商兩類，目前業(yè)界通常采用遠(yuǎn)程線上服務(wù)即云BPO的模式進(jìn)行人力支持。下游為數(shù)據(jù)服務(wù)的需求方，包括大模型、智能駕駛等各行業(yè)各領(lǐng)域投入AI算法研發(fā)的廠商。2024年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)圖譜13中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模374558759913017016.0%22.0%28.0%30.0%32.0%32.0%30.0%202220232027e2028e2024e 2025e市場(chǎng)規(guī)模（億元）2026e增速（%）2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模45億元，未來5年復(fù)合增長(zhǎng)率30.4%基于對(duì)數(shù)據(jù)服務(wù)專業(yè)廠商、云廠商、大模型研發(fā)廠商、智能駕駛研發(fā)廠商等中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的供需兩側(cè)企業(yè)調(diào)研，結(jié)合艾瑞對(duì)中國(guó)人工智能市場(chǎng)整體及AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的發(fā)展判斷，推算2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為45億元。在需求側(cè)，隨著AI算法研發(fā)從面向特定任務(wù)領(lǐng)域的小模型向具備更強(qiáng)通用泛化能力的大模型過渡，數(shù)據(jù)服務(wù)需求企業(yè)將產(chǎn)生大量高質(zhì)量、多模態(tài)的數(shù)據(jù)需求。同時(shí)，隨著大模型在通用及垂直場(chǎng)景中的應(yīng)用拓展和智能駕駛等AI技術(shù)的規(guī)模化商業(yè)落地，良好的商業(yè)回報(bào)將進(jìn)一步推動(dòng)需求側(cè)加大對(duì)基礎(chǔ)數(shù)據(jù)的投入。在供給側(cè)，隨著數(shù)據(jù)要素等相關(guān)支持政策的持續(xù)深化，服務(wù)商將加快數(shù)據(jù)源的獲取及數(shù)據(jù)集的制作。數(shù)據(jù)工程技術(shù)、數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、標(biāo)注方法等日益成熟，人才生態(tài)及服務(wù)軟件平臺(tái)的自動(dòng)化、流程化也在不斷完善，供給側(cè)的供應(yīng)能力和服務(wù)質(zhì)量得以加強(qiáng)。綜合供需兩側(cè)的情況，預(yù)計(jì)到2028年，中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模將達(dá)170億元，未來五年的復(fù)合增長(zhǎng)率為30.4%。2022-2028年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模CAGR=30.4%1415AI基礎(chǔ)數(shù)據(jù)服務(wù)商的市場(chǎng)結(jié)構(gòu)分析（1/2）自建團(tuán)隊(duì)與品牌數(shù)據(jù)服務(wù)商主導(dǎo)市場(chǎng)，中小服務(wù)商的市場(chǎng)份額大幅下滑延續(xù)在2020年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)研究中的供給方劃分方式，本報(bào)告將供給方分為需求方自建團(tuán)隊(duì)、品牌數(shù)據(jù)服務(wù)商、中小數(shù)據(jù)服務(wù)三類。其中，有AI基礎(chǔ)數(shù)據(jù)對(duì)外服務(wù)的云廠商最為特殊，因其所屬集團(tuán)的內(nèi)部AI算法研發(fā)所需的數(shù)據(jù)服務(wù)，可能由云服務(wù)業(yè)務(wù)線、算法研發(fā)業(yè)務(wù)線的內(nèi)部標(biāo)注團(tuán)隊(duì)，以及外部的品牌和中小數(shù)據(jù)服務(wù)商等四種團(tuán)隊(duì)承接。在對(duì)供給方的市場(chǎng)份額統(tǒng)計(jì)中，云服務(wù)業(yè)務(wù)線的對(duì)內(nèi)支持計(jì)入需求方自建團(tuán)隊(duì)的市場(chǎng)；因云服務(wù)廠商具備較大的市場(chǎng)影響力、相對(duì)完善的服務(wù)軟件平臺(tái)，將云業(yè)務(wù)線對(duì)外部廠商的數(shù)據(jù)服務(wù)計(jì)入品牌數(shù)據(jù)服務(wù)商的市場(chǎng)。相比4年的市場(chǎng)份額情況，中小數(shù)據(jù)服務(wù)商的整體市場(chǎng)份額下滑約41%，需求方自建團(tuán)隊(duì)上升36%，品牌數(shù)據(jù)服務(wù)商上升5%：傳統(tǒng)AI數(shù)據(jù)標(biāo)注市場(chǎng)競(jìng)爭(zhēng)激烈，而大模型、智能駕駛等新興項(xiàng)目體量較大需要較強(qiáng)的綜合服務(wù)能力，疊加疫情影響，較多中小數(shù)據(jù)服務(wù)商已退出市場(chǎng)；在大模型、智能駕駛等新興AI算法及對(duì)應(yīng)標(biāo)注方式快速迭代時(shí)期，為追求更高的開發(fā)效率、保障信息安全，較多需求方通過自建團(tuán)隊(duì)滿足數(shù)據(jù)服務(wù)需求；未來隨著品牌數(shù)據(jù)服務(wù)商的數(shù)據(jù)版權(quán)的豐富、專業(yè)能力的提升、標(biāo)注方法的成熟，品牌數(shù)據(jù)服務(wù)商將承接更多的數(shù)據(jù)服務(wù)需求。59.0%35.3%2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)供給方的市場(chǎng)份額5.7%需求方自建團(tuán)隊(duì) 品牌數(shù)據(jù)服務(wù)商來源：根據(jù)公開資料、企業(yè)訪談，結(jié)合統(tǒng)計(jì)模型核算。中小數(shù)據(jù)服務(wù)商一般廠商的數(shù)據(jù)服務(wù)需求AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)的供需合作鏈條云服務(wù)廠商所屬集團(tuán)的內(nèi)部AI數(shù)據(jù)服務(wù)需求需求方內(nèi)部標(biāo)注團(tuán)隊(duì)中小數(shù)據(jù)服務(wù)廠商品牌數(shù)據(jù)服務(wù)專業(yè)廠商云服務(wù)廠商AI基礎(chǔ)數(shù)據(jù)服務(wù)業(yè)務(wù)線計(jì)入需求方自建團(tuán)隊(duì)市場(chǎng)計(jì)入品牌數(shù)據(jù)服務(wù)商市場(chǎng)計(jì)入中小數(shù)據(jù)服務(wù)商市場(chǎng)

AI基礎(chǔ)數(shù)據(jù)服務(wù)商的市場(chǎng)結(jié)構(gòu)分析（2/2）78.0%CR4 其他廠商來源：根據(jù)公開資料、企業(yè)訪談，結(jié)合統(tǒng)計(jì)模型核算；CR4為國(guó)內(nèi)營(yíng)收位居前四的企業(yè)的相關(guān)營(yíng)收在中國(guó)市場(chǎng)的份額總和；圖中所展示的公司logo順序及大小并無實(shí)際意義。2023年CR4為22.0%，行業(yè)集中度相比2019年顯著提升據(jù)調(diào)研統(tǒng)計(jì)，2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)的CR4（前四大企業(yè)的市場(chǎng)份額）為22.0%，市場(chǎng)仍較為分散。相比2019年14.3%的CR4，中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)在2023年的集中度顯著提升。市場(chǎng)份額位居前四的企業(yè)包括以海天瑞聲、數(shù)據(jù)堂為代表的數(shù)據(jù)服務(wù)專業(yè)廠商以及以百度智能云為代表的云服務(wù)廠商。在傳統(tǒng)AI標(biāo)注市場(chǎng)的激烈競(jìng)爭(zhēng)中，百度智能云、數(shù)據(jù)堂等AI基礎(chǔ)數(shù)據(jù)服務(wù)企業(yè)敏銳的捕捉到了大模型標(biāo)注的需求變遷，憑借強(qiáng)大的資源整合及項(xiàng)目管理能力、豐富的行業(yè)經(jīng)驗(yàn)和專業(yè)理解，快速響應(yīng)市場(chǎng)需求的變化，及時(shí)投入大模型相關(guān)產(chǎn)品和服務(wù)的研發(fā)，從而在AI基礎(chǔ)數(shù)據(jù)服務(wù)的整體競(jìng)爭(zhēng)中贏得了更高的市場(chǎng)份額，也成為了大模型標(biāo)注領(lǐng)域的頭部廠商。展望未來，隨著大模型等AI技術(shù)的發(fā)展，數(shù)據(jù)服務(wù)的需求日益龐大且復(fù)雜，這對(duì)服務(wù)企業(yè)的綜合能力提出了更高的要求。沒有自動(dòng)化軟件平臺(tái)或平臺(tái)能力較弱、資源整合能力有限的廠商將面臨生存空間不斷被擠壓的困境；高質(zhì)量數(shù)據(jù)版權(quán)豐富、運(yùn)營(yíng)管理能力強(qiáng)大、行業(yè)理解深刻的頭部數(shù)據(jù)服務(wù)廠商有望持續(xù)提升市場(chǎng)份額。2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)CR4及代表廠商22.0%數(shù)據(jù)服務(wù)專業(yè)廠商代表企業(yè)云服務(wù)廠商代表企業(yè)16廠商競(jìng)爭(zhēng)要素與未來發(fā)展策略AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商競(jìng)爭(zhēng)要素與未來發(fā)展策略17自動(dòng)化平臺(tái)、深刻的行業(yè)理解、對(duì)技術(shù)與數(shù)據(jù)的前瞻性布局，將幫助優(yōu)秀企業(yè)贏得市場(chǎng)領(lǐng)先在行業(yè)集中度不斷提升的過程中，基于自動(dòng)化平臺(tái)不斷強(qiáng)化項(xiàng)目運(yùn)營(yíng)及資源整合能力、深刻理解行業(yè)需求，積極應(yīng)用前沿算法、積累高質(zhì)量數(shù)據(jù)集版權(quán)的AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商，將在激烈競(jìng)爭(zhēng)的市場(chǎng)中脫穎而出，贏得市場(chǎng)領(lǐng)先地位。AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商的競(jìng)爭(zhēng)要素與未來發(fā)展策略基于自動(dòng)化數(shù)據(jù)服務(wù)平臺(tái)的項(xiàng)目運(yùn)營(yíng)與資源整合能力自動(dòng)化與智能化平臺(tái)：一個(gè)高度自動(dòng)化、智能化的服務(wù)平臺(tái)能夠高效地處理數(shù)據(jù)預(yù)處理、清洗、標(biāo)注等各個(gè)環(huán)節(jié)資源整合能力：強(qiáng)大的資源整合能力使企業(yè)能夠快速召集滿足客戶需求的數(shù)據(jù)服務(wù)人員，確保按時(shí)按質(zhì)交付項(xiàng)目精細(xì)化管理：通過精細(xì)化管理標(biāo)注工程師和標(biāo)準(zhǔn)質(zhì)檢員等項(xiàng)目人員，企業(yè)可以確保團(tuán)隊(duì)內(nèi)的高效協(xié)作人力資源支持：隨著平臺(tái)功能的增強(qiáng)，更多個(gè)體可以直接通過平臺(tái)為數(shù)據(jù)服務(wù)廠商提供人力資源支持，提升行業(yè)運(yùn)轉(zhuǎn)效率，擴(kuò)大從業(yè)人員規(guī)模深刻的行業(yè)理解與前瞻性布局簡(jiǎn)化復(fù)雜需求：大模型的標(biāo)注工作復(fù)雜多樣，供應(yīng)商必須具備將復(fù)雜需求簡(jiǎn)化為具體標(biāo)注任務(wù)的能力前瞻性布局：企業(yè)需具備前瞻性布局的能力，積極投入有前景的數(shù)據(jù)集開發(fā)，并應(yīng)用前沿AI算法對(duì)平臺(tái)進(jìn)行自動(dòng)化改造，使企業(yè)在技術(shù)變革中保持領(lǐng)先原料數(shù)據(jù)的版權(quán)積累定制數(shù)據(jù)集業(yè)務(wù)的局限性：定制數(shù)據(jù)集因其個(gè)性化需求和難以重復(fù)售賣的特點(diǎn)，難以支撐數(shù)據(jù)服務(wù)企業(yè)的規(guī)?；鲩L(zhǎng)標(biāo)準(zhǔn)數(shù)據(jù)集的優(yōu)勢(shì)：基于高質(zhì)量原料數(shù)據(jù)制作的標(biāo)準(zhǔn)數(shù)據(jù)集則不同，這些數(shù)據(jù)集可以面向多個(gè)客戶重復(fù)銷售，市場(chǎng)需求廣泛且客戶接受度高，有助于企業(yè)實(shí)現(xiàn)規(guī)模效應(yīng)，取得更高的利潤(rùn)水平1803 AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商案例海天瑞聲深耕行業(yè)近20年，向全行業(yè)提供多語言、跨領(lǐng)域、跨模態(tài)的人工智能數(shù)據(jù)及相關(guān)數(shù)據(jù)服務(wù)北京海天瑞聲科技股份有限公司（以下簡(jiǎn)稱海天瑞聲）自2005年成立以來，公司始終致力于為AI產(chǎn)業(yè)鏈上的各類機(jī)構(gòu)提供算法模型開發(fā)訓(xùn)練所需的專業(yè)數(shù)據(jù)集。經(jīng)過多年發(fā)展，公司已成為人工智能基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域具有較強(qiáng)國(guó)際競(jìng)爭(zhēng)力的國(guó)內(nèi)頭部企業(yè)，并實(shí)現(xiàn)了標(biāo)準(zhǔn)化產(chǎn)品、定制化服務(wù)、相關(guān)應(yīng)用服務(wù)全覆蓋。公司所提供的訓(xùn)練數(shù)據(jù)涵蓋智能語音(語音識(shí)別、語音合成等)、計(jì)算機(jī)視覺、白然語言等多個(gè)核心領(lǐng)域，全面服務(wù)于人機(jī)交互、智能家居、智能駕駛、智慧金融、智能安防等多種創(chuàng)新應(yīng)用場(chǎng)景。來源：綜合企業(yè)財(cái)報(bào)、官網(wǎng)等公開信息，研究院整理及繪制。2.382.631.7023.3%-1.8%2.33-11.5%2.0627.3%-35.3%2019 2020 2021營(yíng)業(yè)收入（億元）2022 2023同比增減（%）海天瑞聲產(chǎn)品服務(wù)及技術(shù)布局自然語言處理公司通過設(shè)計(jì)自然語言處理的訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)、采集、加工、質(zhì)檢；或者對(duì)客戶提供的自然語言文本執(zhí)行加工、質(zhì)檢工作，最終形成客戶所需的自然語言訓(xùn)練數(shù)據(jù)集智能語音公司通過設(shè)計(jì)、采集、加工、質(zhì)檢等智能語音訓(xùn)練數(shù)據(jù)集生產(chǎn)環(huán)節(jié)；或者針對(duì)客戶提供的原料音頻文件執(zhí)行加工、質(zhì)檢工作，最終形成客戶所需的智能語音訓(xùn)練數(shù)據(jù)集計(jì)算機(jī)視覺公司通過設(shè)計(jì)計(jì)算機(jī)視覺的訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)、采集、加工、質(zhì)檢；或者對(duì)客戶提供的圖像、視頻文件執(zhí)行加工、質(zhì)檢工作，最終形成客戶所需的計(jì)算機(jī)視覺訓(xùn)練數(shù)據(jù)集訓(xùn)練數(shù)據(jù)相關(guān)的應(yīng)用服務(wù)公司基于自身生產(chǎn)的訓(xùn)練數(shù)據(jù)提供算法模型相關(guān)的訓(xùn)練服務(wù)，運(yùn)用訓(xùn)練數(shù)據(jù)研發(fā)能力助力下游客戶完成其算法模型的語言拓展、特定算法模塊拓展、垂直應(yīng)用領(lǐng)域拓展等，為客戶定制針對(duì)特定應(yīng)用場(chǎng)景的專屬算法模型，提高AI技術(shù)應(yīng)用效果海天瑞聲客戶場(chǎng)景及 2019-2023年海天瑞聲的營(yíng)收情況客戶結(jié)構(gòu)客戶場(chǎng)景個(gè)人助手語音輸入內(nèi)容生成智能家居機(jī)器人語音導(dǎo)航智能客服智能播報(bào)語音翻譯移動(dòng)社交虛擬人智能駕駛智慧醫(yī)療智慧教育智慧交通智慧城市智慧金融機(jī)器翻譯智能問答信息提取情感分析OCR識(shí)別核心技術(shù)布局通過持續(xù)的研發(fā)投入積累形成了12項(xiàng)核心技術(shù)，覆蓋基礎(chǔ)研究、平臺(tái)工具、訓(xùn)練數(shù)據(jù)生產(chǎn)三個(gè)層次，應(yīng)用于訓(xùn)練數(shù)據(jù)生產(chǎn)的設(shè)計(jì)、采集、加工、質(zhì)檢全流程12項(xiàng)核心技術(shù)中，語音語言學(xué)基礎(chǔ)研究、多語種多模態(tài)訓(xùn)練數(shù)據(jù)設(shè)計(jì)技術(shù)、數(shù)據(jù)同步技術(shù)、大數(shù)據(jù)驅(qū)動(dòng)的高效數(shù)據(jù)處理技術(shù)、分布式高性能自動(dòng)校驗(yàn)技術(shù)等5項(xiàng)具備較高技術(shù)壁壘客戶結(jié)構(gòu)分析Top

5：2023年，海天瑞聲Top

5客戶銷售額合計(jì)占比33.41%境內(nèi)/境外：2023年，公司境內(nèi)地區(qū)客戶收入占比64.7%，境內(nèi)收入額同比-25.2%；境外收入額同比-48.2%營(yíng)收19公司2023年?duì)I收有較大下滑，主要原因包括境外客戶階段性裁員、業(yè)務(wù)調(diào)整和預(yù)算釋放放緩，導(dǎo)致境外收入大變動(dòng)分析

幅下滑；國(guó)內(nèi)客戶對(duì)研發(fā)投入持謹(jǐn)慎態(tài)度，預(yù)算和需求釋放減緩，加上行業(yè)競(jìng)爭(zhēng)加劇，導(dǎo)致境內(nèi)收入下滑數(shù)據(jù)堂憑借高質(zhì)量數(shù)據(jù)服務(wù)，數(shù)據(jù)堂已幫助全球上千家企業(yè)提升AI模型性能數(shù)據(jù)堂（北京）科技股份有限公司（以下簡(jiǎn)稱數(shù)據(jù)堂）成立于2010年，是一家面向支撐人工智能產(chǎn)業(yè)發(fā)展，專業(yè)從事人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的企業(yè)。經(jīng)過十余年積累，數(shù)據(jù)堂形成了數(shù)據(jù)多模態(tài)采集、自動(dòng)處理、質(zhì)量評(píng)測(cè)、安全計(jì)算的全鏈條核心技術(shù)體系及服務(wù)平臺(tái)。數(shù)據(jù)堂專注于為國(guó)內(nèi)外人工智能技術(shù)和應(yīng)用客戶提供一站式基礎(chǔ)數(shù)據(jù)資源服務(wù)、基礎(chǔ)數(shù)據(jù)生產(chǎn)服務(wù)以及基礎(chǔ)數(shù)據(jù)處理解決方案服務(wù)，主要覆蓋大模型、智能語音、自動(dòng)駕駛、生物認(rèn)證、智能安防、智能家居、智能娛樂、智慧城市、智能制造、智能醫(yī)療等領(lǐng)域。來源：綜合企業(yè)財(cái)報(bào)、官網(wǎng)等公開信息，研究院整理及繪制。0.650.791.171.700.8%21.3%45.1%39.0%2019 2020 2021營(yíng)業(yè)收入（億元）2022 2023同比增減（%）2019-2023年數(shù)據(jù)堂的營(yíng)收情況48.8% 2.36數(shù)據(jù)堂產(chǎn)品服務(wù)及技術(shù)布局數(shù)據(jù)堂的客戶場(chǎng)景及客戶結(jié)構(gòu)數(shù)據(jù)服務(wù)資源服務(wù)人工智能傳統(tǒng)模型及大模型學(xué)習(xí)、訓(xùn)練及評(píng)測(cè)生產(chǎn)服務(wù)數(shù)據(jù)采集、標(biāo)注、處理、校對(duì)、質(zhì)檢等SaaS服務(wù)方案服務(wù)私有化數(shù)據(jù)工廠、人工智能技術(shù)能力評(píng)測(cè)、智能數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)客戶場(chǎng)景數(shù)據(jù)資產(chǎn)數(shù)據(jù)平臺(tái)自動(dòng)駕駛數(shù)據(jù)庫(kù)智能語音數(shù)據(jù)庫(kù)生物認(rèn)證數(shù)據(jù)庫(kù)智能安防數(shù)據(jù)庫(kù)遙感影像數(shù)據(jù)庫(kù)智能家居數(shù)據(jù)庫(kù)智能制造數(shù)據(jù)庫(kù)智慧城市數(shù)據(jù)庫(kù)智能數(shù)據(jù)工廠百套自動(dòng)標(biāo)注處理工具自動(dòng)駕駛智能語音生物認(rèn)證智能安防智能家居智能娛樂智慧城市智能醫(yī)療智能制造…重點(diǎn)研發(fā)項(xiàng)目數(shù)加加平臺(tái)：旨在為項(xiàng)目提供自助化、自動(dòng)化的高效處理流程的柔性生產(chǎn)系統(tǒng)。最大限度地提升供應(yīng)商項(xiàng)目執(zhí)行的效率和質(zhì)量，并通過數(shù)智化和自動(dòng)化的方式實(shí)現(xiàn)更好的業(yè)務(wù)運(yùn)營(yíng)和管理效果數(shù)加價(jià)Pro：專為客戶打造的一套數(shù)據(jù)標(biāo)注生產(chǎn)線系統(tǒng)，旨在提供快速搭建數(shù)據(jù)標(biāo)注生產(chǎn)線的解決方案客戶結(jié)構(gòu)分析Top5：2023年，數(shù)據(jù)堂Top

5客戶銷售額合計(jì)占比39.08%境內(nèi)/境外：2023年，數(shù)據(jù)堂境內(nèi)地區(qū)客戶收入占比73.1%，境內(nèi)收入額同比提升55.7%；境外收入額同比增長(zhǎng)7.61%營(yíng)收20數(shù)據(jù)堂近幾年收入大幅增長(zhǎng)，主要原因是全球人工智能產(chǎn)業(yè)規(guī)?？焖僭鲩L(zhǎng)，AI技術(shù)的發(fā)展和迭代，導(dǎo)致對(duì)人工變動(dòng)分析

智能數(shù)據(jù)產(chǎn)品及解決方案的需求快速增長(zhǎng)，國(guó)內(nèi)收入的增長(zhǎng)同時(shí)受益于國(guó)家層面對(duì)數(shù)據(jù)生產(chǎn)要素發(fā)展的重視活樹科技業(yè)務(wù)布局及項(xiàng)目積累16個(gè)國(guó)家22個(gè)交付中心53個(gè)語種數(shù)據(jù)3,000+個(gè)項(xiàng)目經(jīng)驗(yàn)LLM項(xiàng)目落地全球16個(gè)國(guó)家專注于多語言數(shù)據(jù)服務(wù)，為AI公司和科研機(jī)構(gòu)提供高質(zhì)量數(shù)據(jù)解決方案活樹科技（Lifewood）成立于2004年，是一家面向全球的多語言數(shù)據(jù)服務(wù)企業(yè)。活樹科技專注于文本、圖像、音頻和視頻數(shù)據(jù)的采集和標(biāo)注，提供50+種語言的數(shù)據(jù)服務(wù)，助力AI算法的訓(xùn)練和優(yōu)化。憑借二十年的行業(yè)經(jīng)驗(yàn)，活樹科技為AI公司、互聯(lián)網(wǎng)公司及科研機(jī)構(gòu)提供高質(zhì)量、大規(guī)模、結(jié)構(gòu)化的訓(xùn)練數(shù)據(jù)?；顦淇萍嫉臄?shù)據(jù)解決方案覆蓋個(gè)人助手、語音輸入、智能客服、智慧醫(yī)療、智慧教育、智慧交通、智慧城市、智慧金融、智能問答、信息提取、情感分析、OCR識(shí)別等多種應(yīng)用場(chǎng)景。活樹科技致力于推動(dòng)AI技術(shù)的實(shí)踐應(yīng)用及商業(yè)化落地，賦能AI技術(shù)與實(shí)體經(jīng)濟(jì)深度融合?；顦淇萍既蛉肆Y源布局--16國(guó)22交付中心活樹科技數(shù)據(jù)解決方案全球資源助力企業(yè)出海美國(guó)貝寧孟加拉國(guó)泰國(guó)菲律賓芬蘭英國(guó)德國(guó)塞爾維亞阿聯(lián)酋馬來西亞新加坡印度尼西亞日本中國(guó)越南南非垂直大模型數(shù)據(jù)服務(wù)(智能駕駛/智能虛擬助手等場(chǎng)景)A類傳統(tǒng)數(shù)據(jù)服務(wù)B類通用大模型數(shù)據(jù)服務(wù)C類提供50+語種的全面數(shù)據(jù)服務(wù)，包含數(shù)據(jù)收集、準(zhǔn)備、清理、標(biāo)記、注釋、檢查和格式化服務(wù)客戶類型：AI企業(yè)、互聯(lián)網(wǎng)企業(yè)、ICT企業(yè)、直播平臺(tái)企業(yè)等來源：綜合官網(wǎng)等公開信息，研究院整理及繪制。21創(chuàng)建和優(yōu)化LLM數(shù)據(jù)集，包括預(yù)訓(xùn)練、微調(diào)、RLHF和偏見處理，確保模型公正客戶類型：互聯(lián)網(wǎng)、AI企業(yè)及初創(chuàng)企業(yè)、科研機(jī)構(gòu)等提供針對(duì)垂直行業(yè)的現(xiàn)成數(shù)據(jù)集，專注于自動(dòng)駕駛、智能虛擬助手等領(lǐng)域。客戶類型：主機(jī)廠、自動(dòng)駕駛Tier

1、互聯(lián)網(wǎng)企業(yè)等AppenAI生命周期數(shù)據(jù)的創(chuàng)新和實(shí)踐者Appen成立于1996年，公司總部位于澳大利亞，公司通過在美國(guó)、中國(guó)等國(guó)家的九個(gè)辦事處和營(yíng)業(yè)部為全球客戶提供可靠的圖像、文本、語音、音頻、視頻等AI訓(xùn)練數(shù)據(jù)服務(wù)，擁有業(yè)內(nèi)先進(jìn)的人工智能輔助數(shù)據(jù)標(biāo)注平臺(tái)、自研的大模型開發(fā)平臺(tái)及全球100多萬名技能嫻熟的眾包資源，支持290+種語言和方言。澳鵬Appen數(shù)據(jù)解決方案已助力全球15,000+個(gè)AI項(xiàng)目的研發(fā)及商業(yè)化。LLM智能開發(fā)平臺(tái)MatrixGo數(shù)據(jù)標(biāo)注平臺(tái)數(shù)據(jù)集數(shù)據(jù)服務(wù)Appen產(chǎn)品服務(wù)及技術(shù)布局核心技術(shù)布局Appen力求通過技術(shù)和創(chuàng)新方案簡(jiǎn)化和自動(dòng)化流程，從而能夠大規(guī)模交付AI訓(xùn)練數(shù)據(jù)Appen的工程、隱私和網(wǎng)絡(luò)安全團(tuán)隊(duì)致力于確保數(shù)據(jù)可用性目標(biāo)的實(shí)現(xiàn)，并確保數(shù)據(jù)的保護(hù)和安全2023年投資0.35億用于技術(shù)和系統(tǒng)建設(shè)，包括對(duì)ADAP的增強(qiáng)，以支持LLM產(chǎn)品，并更好地支持眾包和客戶客戶場(chǎng)景成品數(shù)據(jù)集：澳鵬提供700+個(gè)成品數(shù)據(jù)集，其中包括五萬余小時(shí)ASR語音數(shù)據(jù)，一百六十萬余張圖片，81億token、千萬詞條的大語言模型相關(guān)的文本數(shù)據(jù)集數(shù)據(jù)集應(yīng)用場(chǎng)景：安全駕駛/自動(dòng)駕駛、互聯(lián)網(wǎng)虛擬人/智能客服、智慧金融、智能家居、智能終端、智能安防數(shù)據(jù)采集：擁有全球范圍290+語言資源及100萬眾包團(tuán)隊(duì)，澳鵬提供全面的數(shù)據(jù)定制采集服務(wù)，為您的AI部署提供高質(zhì)量的數(shù)據(jù)支持?jǐn)?shù)據(jù)標(biāo)注：為客戶提供多應(yīng)用場(chǎng)景和行業(yè)的定制數(shù)據(jù)標(biāo)注服務(wù)，為客戶的AI應(yīng)用提供全面數(shù)據(jù)AI科技公司正在通過MatrixGo平臺(tái)強(qiáng)大的標(biāo)注工具，大幅提升非結(jié)構(gòu)化數(shù)據(jù)處理能力，賦能全球創(chuàng)新性的AI項(xiàng)目部署澳鵬大模型智能開發(fā)平臺(tái)集大模型數(shù)據(jù)準(zhǔn)備、訓(xùn)練、推理、部署應(yīng)用于一體，提供數(shù)據(jù)生產(chǎn)、數(shù)據(jù)管理、模型管理以及計(jì)算資源管理等全棧管理產(chǎn)品，助力企業(yè)輕松擁抱大模型Appen的客戶場(chǎng)景及客戶結(jié)構(gòu)智能科技智慧醫(yī)療智能金融智能駕駛新零售客戶結(jié)構(gòu)分析Top5：2023年，Appen

Top

5客戶銷售額合計(jì)占比74.8%地區(qū)分布：2023年，公司澳大利亞客戶收入占比0.6%；美國(guó)客戶收入占比80.5%，收入同比下滑35.3%；其他國(guó)家地區(qū)收入占比19.4%，收入同比增長(zhǎng)6.6%數(shù)據(jù)，鑄就非凡差異模型大模型數(shù)據(jù)集多模態(tài)標(biāo)注工具智能大模型開發(fā)平臺(tái)數(shù)據(jù)用戶來源：綜合企業(yè)財(cái)報(bào)、官網(wǎng)等公開信息，研究院整理及繪制。22Scale

AI典型客戶及行業(yè)應(yīng)用案例智能駕駛：Scale

AI的自動(dòng)駕駛數(shù)據(jù)引擎推動(dòng)了L4級(jí)自動(dòng)駕駛的突破國(guó)防：Scale

AI的公共部門數(shù)據(jù)引擎推動(dòng)了美國(guó)國(guó)防部的許多重大AI項(xiàng)目OpenAI：Scale

AI與OpenAI在GPT-2上合作進(jìn)行了首批RLHF實(shí)驗(yàn)，并將這些技術(shù)擴(kuò)展到InstructGPT等更多模型上結(jié)合了機(jī)器學(xué)習(xí)驅(qū)動(dòng)的預(yù)標(biāo)注和多層次人工審核的數(shù)據(jù)引擎，可將原始數(shù)據(jù)高效的轉(zhuǎn)換為高質(zhì)量的訓(xùn)練數(shù)據(jù)；數(shù)據(jù)核心技術(shù) 引擎可智能管理和優(yōu)化數(shù)據(jù)集，識(shí)別高價(jià)值數(shù)據(jù)進(jìn)行標(biāo)注，布局最大化標(biāo)注投資回報(bào)率；數(shù)據(jù)測(cè)試、模型評(píng)估和比較等工具，幫助客戶充分利用數(shù)據(jù)資產(chǎn)生成式AI、基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）ScaleDonovan服務(wù)于國(guó)家安全的人工智能數(shù)字參謀Scale數(shù)據(jù)引擎收集、整理、標(biāo)注數(shù)據(jù)生成式AI數(shù)據(jù)引擎：快速創(chuàng)建經(jīng)過審核的由領(lǐng)域?qū)＜揖幹频亩ㄖ聘哔|(zhì)量數(shù)據(jù)集，以訓(xùn)練世界上最先進(jìn)的模型測(cè)試與評(píng)估：持續(xù)測(cè)試和評(píng)估大型語言模型，識(shí)別風(fēng)險(xiǎn)，認(rèn)證AI應(yīng)用的安全性公共部門數(shù)據(jù)引擎：為國(guó)防、情報(bào)、民間機(jī)構(gòu)的AI提供數(shù)據(jù)支持智駕數(shù)據(jù)引擎：支持L2-

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔