




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)分析研究報(bào)告目
錄CONTENTS01 AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)概述02 AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)研究03 AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商案例04 AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)面對(duì)的挑戰(zhàn)與機(jī)遇201 AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)概述3AI產(chǎn)業(yè)整體進(jìn)展全球AI產(chǎn)品技術(shù)進(jìn)展多模態(tài)、長(zhǎng)文本、大模型小型化成為熱點(diǎn)研究方向在過去幾年里,大眾已見識(shí)到GPT、BERT等大語言模型在自然語言理解和生成方面的卓越能力。相比單一模態(tài)的大模型,多模態(tài)大模型能夠提供更自然的人機(jī)交互方式,具備更全面和準(zhǔn)確的認(rèn)知能力,并在不同情境下表現(xiàn)出更高的魯棒性,從而賦能更豐富和全面的AI應(yīng)用。因此,多模態(tài)技術(shù)已成為諸多大模型廠商的研發(fā)重點(diǎn)。此外,長(zhǎng)文本處理能力的提升,使大模型在理解和生成復(fù)雜文檔方面表現(xiàn)更佳,能夠更好地支持多主題和多步驟的推理任務(wù);通過知識(shí)蒸餾、模型剪枝和混合精度訓(xùn)練等技術(shù),大模型得以小型化,減少了計(jì)算資源需求,提高了推理效率,使大模型在資源受限設(shè)備上高效運(yùn)行,提升了響應(yīng)速度和用戶體驗(yàn),保護(hù)了用戶的數(shù)據(jù)隱私。聚焦國(guó)內(nèi)AI商業(yè)化市場(chǎng),大模型商業(yè)化進(jìn)程加速,API市場(chǎng)競(jìng)爭(zhēng)激烈,價(jià)格戰(zhàn)頻現(xiàn),但同時(shí)也反映出供應(yīng)商間能力同質(zhì)化的問題,亟需破局;另一方面,央國(guó)企憑借較好的數(shù)字化基礎(chǔ)、豐富的數(shù)據(jù)資源及業(yè)務(wù)場(chǎng)景、相對(duì)充足的科技投入預(yù)算,成為現(xiàn)階段國(guó)內(nèi)大模型項(xiàng)目建設(shè)的主力軍,推動(dòng)了大模型在中國(guó)AI產(chǎn)業(yè)的商業(yè)化落地。概述:多模態(tài)大模型能夠同時(shí)處理和理解包括文本、音頻、圖像和視頻在內(nèi)的多種數(shù)據(jù)類型,這使得它們能夠提供更自然的人機(jī)交互方式,具備更全面和準(zhǔn)確的認(rèn)知能力,并多模態(tài) 且在不同情境下表現(xiàn)出更高的魯棒性,從而賦能更豐富和全面的AI應(yīng)用案例:2024年5月,OpenAI推出GPT-4o,可對(duì)音頻、視頻和文本進(jìn)行實(shí)時(shí)推理;2024年5月,
Google演示了多模態(tài)AI助手Astra概述:長(zhǎng)文本可支持模型理解和生成更復(fù)雜的文檔、報(bào)告、小說等內(nèi)容,能夠更有效地進(jìn)行知識(shí)管理和信息檢索,提升了模型對(duì)于上下文理解的連貫性,進(jìn)而更好地實(shí)現(xiàn)多主題、多步驟的復(fù)雜推理任務(wù)長(zhǎng)文本
?
案例:2024年3月,月之暗面宣布旗下大模型產(chǎn)品Kimi開啟200萬字無損上下文內(nèi)測(cè),其后阿里、百度等大模型廠商均宣布相關(guān)大模型產(chǎn)品的長(zhǎng)文本能力升級(jí)規(guī)劃;2024年4月,Google、Meta等機(jī)構(gòu)的研究人員先后提出Infini-attention、Megalodon等無限長(zhǎng)文本方法大模型小型化概述:通過知識(shí)蒸餾、模型剪枝、混合精度訓(xùn)練等方法,“大模型小型化”相關(guān)技術(shù)可減少模型參數(shù)并降低計(jì)算資源需求,提高推理效率,使大模型可在端邊等資源受限的設(shè)備上高效運(yùn)行,降低能耗,提升了響應(yīng)速度和用戶體驗(yàn),還增強(qiáng)了數(shù)據(jù)隱私保護(hù),未來可能催生更多的創(chuàng)新型智能終端案例:2024年5月,微軟表示W(wǎng)indows將附帶40多個(gè)端側(cè)AI模型,包括可用于搜索、實(shí)時(shí)翻譯、圖像生成和處理等任務(wù)的小語言模型Phi-Silica;2024年6月,蘋果推出Apple
Intelligence個(gè)人智能系統(tǒng),內(nèi)置3B端側(cè)模型,可支持摘要、改寫、問答等功能價(jià)格戰(zhàn)的積極意義擴(kuò)大客戶量及使用頻次,促使大模型技術(shù)在國(guó)內(nèi)更快普及,加速創(chuàng)新型應(yīng)用的誕生;促進(jìn)供應(yīng)商不斷優(yōu)化模型及計(jì)算架構(gòu),降低模型推理成本;競(jìng)爭(zhēng)加速產(chǎn)業(yè)分層,較少社會(huì)整體資源消耗中國(guó)AI商業(yè)化落地進(jìn)展API調(diào)用市場(chǎng)卷起價(jià)格戰(zhàn)為爭(zhēng)奪大模型客戶流量及背后云資源市場(chǎng),24年上半年云廠商、大模型廠商等相繼調(diào)整API產(chǎn)品定價(jià),低價(jià)甚至免費(fèi)供應(yīng)價(jià)格戰(zhàn)的另一面為大模型產(chǎn)品技術(shù)壁壘的薄弱盡管大模型相關(guān)產(chǎn)品技術(shù)仍在迭代,但國(guó)內(nèi)大模型尤其以API方式提供標(biāo)準(zhǔn)化大模型服務(wù)的各供應(yīng)商的產(chǎn)品能力尚未形成較大代際差異;供應(yīng)商需加速技術(shù)及產(chǎn)品差異化建設(shè),獲取足夠的利潤(rùn),產(chǎn)業(yè)才能健康、可持續(xù)的發(fā)展2024年上半年中國(guó)大模型相關(guān)項(xiàng)目中標(biāo)統(tǒng)計(jì)據(jù)智能超參數(shù)統(tǒng)計(jì),2024年1-6月中國(guó)大模型相關(guān)項(xiàng)目中標(biāo)數(shù)量達(dá)237個(gè),前5個(gè)月披露的項(xiàng)目金額合計(jì)已過2023年;行業(yè)分布上,電信(47個(gè))、能源(42個(gè))位居1-6月的項(xiàng)目數(shù)量頭兩名,其次為教育、金融、政務(wù)等行業(yè),各行業(yè)中的央國(guó)企均在積極推動(dòng)大模型項(xiàng)目建設(shè)4央國(guó)企引領(lǐng)大模型項(xiàng)目建設(shè)央國(guó)企對(duì)大模型的建設(shè)投入較多,與其有較好的數(shù)字化基礎(chǔ)、豐富的數(shù)據(jù)資源及業(yè)務(wù)場(chǎng)景、相對(duì)充足的科技投入預(yù)算相關(guān)數(shù)據(jù)、算法、算力是構(gòu)建AI的三大要素算法數(shù)據(jù)算力構(gòu)建AI系統(tǒng)的三大核心要素:數(shù)據(jù)、算法、算力算法
是處理信息、提取特征、進(jìn)行預(yù)測(cè)的邏輯框架深度學(xué)習(xí)的興起,CNN、Transformer等模型的迭代,極大地推動(dòng)了圖像識(shí)別、語義理解、文本生成等AI任務(wù)的進(jìn)步算力
支持算法處理龐大和復(fù)雜的數(shù)據(jù)集GPU、TPU等AI芯片的發(fā)展,使得研究人員能夠探索更深、更寬的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練更強(qiáng)大的模型,并加速模型的推理速度。硬件的進(jìn)步直接影響到AI模型的訓(xùn)練效率及規(guī)?;瘧?yīng)用的可行性,從而不斷拓展AI的邊界數(shù)據(jù)
是模型學(xué)習(xí)和適應(yīng)不同任務(wù)的基石高質(zhì)量的數(shù)據(jù)能夠幫助模型更好地理解現(xiàn)實(shí)世界,并做出更精準(zhǔn)的預(yù)測(cè);反之,即使是最先進(jìn)的算法,也無法從劣質(zhì)的數(shù)據(jù)中獲得有效的洞察AI高質(zhì)量數(shù)據(jù)推動(dòng)AI系統(tǒng)的發(fā)展進(jìn)步ImageNet數(shù)據(jù)集的成功,以及大模型的Scaling
Law的發(fā)現(xiàn),都證明著高質(zhì)量數(shù)據(jù)對(duì)于AI發(fā)展的巨大推動(dòng)ImageNet見證CV算法在大規(guī)模數(shù)據(jù)集上的性能提升2009年6月,李飛飛團(tuán)隊(duì)完成ImageNet初始版本,共有1500萬張圖片,涵蓋了
2.2萬個(gè)不同類別,這些圖片篩選自近10億張候選圖片,并由來自167個(gè)國(guó)家的4.8萬多名全球貢獻(xiàn)者進(jìn)行了標(biāo)注2012年,由Alex
Krizhevsky、Ilya
Sutskever和Geoffrey
Hinton共同開發(fā)的AlexNet在挑戰(zhàn)賽上以超過第二名10個(gè)百分點(diǎn)的成績(jī)?cè)趭Z冠,深度學(xué)習(xí)迎來學(xué)術(shù)探索與工業(yè)應(yīng)用的熱潮2017年是挑戰(zhàn)賽的最后一年,物體分類冠軍的準(zhǔn)確率在7年時(shí)間里從71.8%上升到97.3%,超越了人類的物體分類水平5Scaling
Law進(jìn)一步揭示數(shù)據(jù)對(duì)于提升模型性能的關(guān)鍵作用OpenAI研究團(tuán)隊(duì)于2020年發(fā)表的論文《Scaling
laws
for
neural
languagemodels》中,系統(tǒng)地探討了語言模型性能與模型大小、數(shù)據(jù)集大小和計(jì)算資源之間的關(guān)系。研究發(fā)現(xiàn),模型的性能(如損失函數(shù)值)與這些因素之間存在穩(wěn)定的冪律關(guān)系,即模型的性能會(huì)隨著數(shù)據(jù)量、模型規(guī)模和計(jì)算量的增加而提升現(xiàn)階段,諸多大模型的研發(fā)仍在遵循Scaling
Law的發(fā)展方向①
今年2月,由ServiceNow、Hugging
Face
和
NVIDIA聯(lián)合發(fā)布的用于代碼生成的StarCoder2,其數(shù)據(jù)集規(guī)模相比v1大7倍,實(shí)現(xiàn)了更準(zhǔn)確的上下文感知預(yù)測(cè)②
今年4月,Meta推出Llama3,其訓(xùn)練數(shù)據(jù)集超過15T
token(是Llama2的7倍),可支持8K的上下文長(zhǎng)度(是Llama2的2倍),在MMLU、GPQA、HumanEval等多項(xiàng)基準(zhǔn)上成績(jī)優(yōu)異數(shù)據(jù)、算法、算力的協(xié)同促使現(xiàn)代AI技術(shù)實(shí)現(xiàn)了從理論到應(yīng)用的飛躍在人工智能領(lǐng)域,數(shù)據(jù)、算法和算力是構(gòu)建AI系統(tǒng)的三大核心要素,三者的協(xié)同使現(xiàn)代AI技術(shù)實(shí)現(xiàn)了從理論到應(yīng)用的飛躍。數(shù)據(jù)是AI的基礎(chǔ),大量高質(zhì)量的數(shù)據(jù)不僅能夠提高現(xiàn)有模型的準(zhǔn)確率,還能促進(jìn)模型的優(yōu)化和創(chuàng)新。以ImageNet數(shù)據(jù)集為例,該數(shù)據(jù)集及相關(guān)挑戰(zhàn)賽推動(dòng)了計(jì)算機(jī)視覺算法的快速發(fā)展,2017年是挑戰(zhàn)賽的最后一年,物體分類冠軍的準(zhǔn)確率在7年時(shí)間里從71.8%上升到97.3%。近年來,Transformer等預(yù)訓(xùn)練大模型在語言理解及生成等領(lǐng)域表現(xiàn)出色,大模型背后的Scaling
Law(規(guī)模定律)進(jìn)一步揭示了模型性能與數(shù)據(jù)量、算力之間的關(guān)系,強(qiáng)化了數(shù)據(jù)在提升AI表現(xiàn)中的關(guān)鍵作用。AI基礎(chǔ)數(shù)據(jù)服務(wù)是AI產(chǎn)業(yè)發(fā)展的關(guān)鍵支撐加速高質(zhì)量數(shù)據(jù)的獲取與標(biāo)注,推動(dòng)AI算法的創(chuàng)新與持續(xù)優(yōu)化根據(jù)AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商LXT對(duì)322家有AI項(xiàng)目經(jīng)驗(yàn)的美國(guó)企業(yè)的調(diào)研,訓(xùn)練數(shù)據(jù)的資金投入占這些企業(yè)的AI整體建設(shè)投入的15%,61%的企業(yè)認(rèn)為未來2到5年對(duì)數(shù)據(jù)的需求量將會(huì)增加,62%的企業(yè)認(rèn)為數(shù)據(jù)質(zhì)量比數(shù)據(jù)量更為重要。LXT的調(diào)研結(jié)果揭示了企業(yè)在AI建設(shè)過程中對(duì)高質(zhì)量數(shù)據(jù)的迫切需求。鑒于AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商在高效提供高質(zhì)量數(shù)據(jù)集方面的專業(yè)能力,它們已成為AI研發(fā)企業(yè)的重要合作伙伴,AI基礎(chǔ)數(shù)據(jù)服務(wù)已是推動(dòng)AI產(chǎn)業(yè)發(fā)展的關(guān)鍵支撐。AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商對(duì)AI算法研發(fā)企業(yè)的幫助 企業(yè)人工智能建設(shè)的預(yù)算分配情況AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商提供的標(biāo)準(zhǔn)數(shù)據(jù)集使企業(yè)能夠迅速開展模型訓(xùn)練,而定制化數(shù)據(jù)集則助力企業(yè)針對(duì)特定應(yīng)用場(chǎng)景優(yōu)化算法性能不僅縮短了AI研發(fā)周期,還顯著提升了AI應(yīng)用的性能和效果,激發(fā)了企業(yè)在AI領(lǐng)域的創(chuàng)新潛力推動(dòng)算法的創(chuàng)新與持續(xù)優(yōu)化加速數(shù)據(jù)獲取與標(biāo)注AI算法的訓(xùn)練對(duì)數(shù)據(jù)的需求量巨大,且對(duì)數(shù)據(jù)的質(zhì)量和精確度有著嚴(yán)格的要求AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商提供的專業(yè)產(chǎn)品與服務(wù)能夠助力AI研發(fā)企業(yè)迅速獲得所需的高質(zhì)量標(biāo)注數(shù)據(jù)確保數(shù)據(jù)的高標(biāo)準(zhǔn)質(zhì)量數(shù)據(jù)質(zhì)量對(duì)AI算法的性能有直接影響AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商依托專業(yè)的標(biāo)注團(tuán)隊(duì)和行業(yè)領(lǐng)先的標(biāo)注工具,確保了數(shù)據(jù)的高標(biāo)準(zhǔn)質(zhì)量,為算法的精度和可靠性奠定了堅(jiān)實(shí)的基礎(chǔ),幫助企業(yè)打造高性能的AI方案17%15%12%11%11%10%10%9%5%AI戰(zhàn)略訓(xùn)練數(shù)據(jù)硬件設(shè)備合規(guī)管理軟件產(chǎn)品開發(fā)人才招聘數(shù)據(jù)分析其他61%36%增長(zhǎng)保持現(xiàn)狀減少62.0%38%數(shù)據(jù)質(zhì)量更重要數(shù)據(jù)量更重要來源:LXT-The
Path
to
AlMaturity
20246企業(yè)未來2~5年的訓(xùn)練數(shù)據(jù)需求情況3%數(shù)據(jù)量與數(shù)據(jù)質(zhì)量的重要性比較AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商及主要產(chǎn)品服務(wù)介紹標(biāo)準(zhǔn)數(shù)據(jù)集、定制數(shù)據(jù)集、配套產(chǎn)品工具服務(wù)等三大產(chǎn)品服務(wù)AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商是專注于為各行業(yè)的AI算法訓(xùn)練與調(diào)優(yōu)提供基礎(chǔ)數(shù)據(jù)產(chǎn)品服務(wù)的公司。這些公司通過提供標(biāo)準(zhǔn)數(shù)據(jù)集、定制數(shù)據(jù)集和配套產(chǎn)品工具服務(wù),支持互聯(lián)網(wǎng)、大模型、智能駕駛等各領(lǐng)域的AI技術(shù)發(fā)展。數(shù)據(jù)集按內(nèi)容格式可分為文本、圖像、視頻、語音等類型,核心生產(chǎn)流程主要包括方案設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)檢等五個(gè)關(guān)鍵環(huán)節(jié)。標(biāo)準(zhǔn)數(shù)據(jù)集是由數(shù)據(jù)服務(wù)廠商研發(fā)并可多次銷售的數(shù)據(jù)集;定制數(shù)據(jù)集是依據(jù)客戶需求制作特定數(shù)據(jù)集,數(shù)據(jù)的知識(shí)產(chǎn)權(quán)歸客戶所有;配套產(chǎn)品工具服務(wù)包括標(biāo)注工具、實(shí)訓(xùn)平臺(tái)及AI模型評(píng)測(cè)等軟硬件工具服務(wù),用于滿足高效標(biāo)注數(shù)據(jù)、培訓(xùn)數(shù)據(jù)標(biāo)注、評(píng)估AI能力效果等不同層次的客戶需求,輔助和延展數(shù)據(jù)服務(wù)廠商的相關(guān)業(yè)務(wù)。AI數(shù)據(jù)數(shù)據(jù)服務(wù)廠商的主要產(chǎn)品服務(wù)配套產(chǎn)品工具服務(wù)包括標(biāo)注工具、實(shí)訓(xùn)平臺(tái)及AI模型評(píng)測(cè)等軟硬件工具服務(wù),輔助和延展數(shù)據(jù)服務(wù)廠商的相關(guān)業(yè)務(wù)標(biāo)準(zhǔn)數(shù)據(jù)集由數(shù)據(jù)服務(wù)廠商研發(fā)并可多次銷售的數(shù)據(jù)集定制數(shù)據(jù)集依據(jù)客戶需求制作特定數(shù)據(jù)集,數(shù)據(jù)的知識(shí)產(chǎn)權(quán)歸客戶所有根據(jù)設(shè)計(jì)好的數(shù)據(jù)體系標(biāo)準(zhǔn),使用各類硬件設(shè)備、數(shù)據(jù)采集系統(tǒng)或網(wǎng)絡(luò)爬蟲等工具,獲取滿足需求的原始數(shù)據(jù)源對(duì)采集到的原始數(shù)據(jù)進(jìn)行處理,去除或補(bǔ)全缺失數(shù)據(jù),修改或刪除格式錯(cuò)誤、內(nèi)容錯(cuò)誤和邏輯錯(cuò)誤的數(shù)據(jù),去除無用或無效的數(shù)據(jù)借助語言語音預(yù)識(shí)別、圖像邊界檢測(cè)等自動(dòng)化或半自動(dòng)化工具,通過人機(jī)協(xié)作高效完成數(shù)據(jù)標(biāo)注基于自動(dòng)化質(zhì)檢及多標(biāo)注員交叉驗(yàn)證,針對(duì)標(biāo)注數(shù)據(jù)進(jìn)行一致性檢查、完整性檢查、準(zhǔn)確性檢查、重復(fù)性檢查等,糾錯(cuò)并反饋檢測(cè)報(bào)告,是確保數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)數(shù)據(jù)集的核心生產(chǎn)流程客戶需求溝通,設(shè)計(jì)匹配客戶算法模型需求的數(shù)據(jù)采集、清洗、標(biāo)注及質(zhì)檢的數(shù)據(jù)服務(wù)流程及方式方法方案設(shè)計(jì)數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)質(zhì)檢數(shù)據(jù)標(biāo)注78典型服務(wù)場(chǎng)景——通用大模型(1/2)數(shù)據(jù)量更大、維度更加多元,標(biāo)注方式及質(zhì)量評(píng)判標(biāo)準(zhǔn)也更為復(fù)雜多樣算法模型從理論到實(shí)踐的應(yīng)用過程依賴于大量的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)越多、越完整、質(zhì)量越高,模型推理的結(jié)果就越可靠。在本報(bào)告的討論中,傳統(tǒng)AI泛指Transformer架構(gòu)出現(xiàn)之前的AI架構(gòu),參數(shù)量通常相對(duì)較小,大模型架構(gòu)則以Transformer為代表。作為應(yīng)用大模型架構(gòu)的代表,ChatGPT在2022年11月上線以來,掀起了AI乃至社會(huì)經(jīng)濟(jì)各領(lǐng)域?qū)Υ竽P偷难杏懪c應(yīng)用的熱潮。與傳統(tǒng)AI相似,大模型依然需要大量?jī)?yōu)質(zhì)數(shù)據(jù),但其所需數(shù)據(jù)量更大,數(shù)據(jù)維度更加多元,標(biāo)注方式及質(zhì)量評(píng)判標(biāo)準(zhǔn)也更為復(fù)雜多樣。對(duì)比傳統(tǒng)AI模型,大模型對(duì)數(shù)據(jù)集的需求差異大模型傳統(tǒng)模型傳統(tǒng)AI模型由于參數(shù)量和復(fù)雜度的限制,能夠吸收利用的數(shù)據(jù)量相對(duì)有限,過多的數(shù)據(jù)不僅無法有效利用,反而可能導(dǎo)致過擬合等問題AI
?
以計(jì)算機(jī)視覺的經(jīng)典模型ResNet為例,其在2015年的ImageNet視覺競(jìng)賽中以3.6%的錯(cuò)誤率奪得第一名,而其所用的ImageNet數(shù)據(jù)集有近150萬張圖像,總大小約150GB數(shù)據(jù)需求量更大大模型通常需要更大量的數(shù)據(jù)才能訓(xùn)練出良好的性能,大模型原始訓(xùn)練數(shù)據(jù)的大小一般為TB至數(shù)百TB,但其訓(xùn)練首先需將文本等原始數(shù)據(jù)token化今年4月開源的Llama3的訓(xùn)練數(shù)據(jù)集超過15T
token,是Llama2的7倍數(shù)據(jù)維度更加多元大模型的數(shù)據(jù)來源非常豐富,涵蓋了文本、圖片、音頻和視頻等多種形式,含海量知識(shí)信息,涉及各類專業(yè)領(lǐng)域和多種語言?;诙鄻踊哪軌蜻m應(yīng)更廣泛的任務(wù)和場(chǎng)景ChatGPT、Claude、Llama
和
Mistral
等大模型的訓(xùn)練數(shù)據(jù)包括文學(xué)作品、百科全書、新聞、社交媒體、學(xué)術(shù)文獻(xiàn)等多種知識(shí)信息,且往往覆蓋了圖像、視頻和音頻等多模態(tài)數(shù)據(jù)傳統(tǒng)AI模型通常需要針對(duì)目標(biāo)任務(wù)場(chǎng)景的領(lǐng)域數(shù)據(jù)CNN主要處理圖像數(shù)據(jù),通常基于OCR、人臉識(shí)別、智能駕駛等特定任務(wù)場(chǎng)景的圖像數(shù)據(jù)進(jìn)行訓(xùn)練和優(yōu)化;而RNN和LSTM則一般處理文本和時(shí)間序列數(shù)據(jù)標(biāo)注維度更豐富對(duì)噪聲數(shù)據(jù)的利用度更高評(píng)判標(biāo)準(zhǔn)更加復(fù)雜傳統(tǒng)AI模型的標(biāo)注維度通常比較單一圖像分類只需標(biāo)注圖片的類別,文本分類只需標(biāo)注文本的主題等的信息,如新聞的標(biāo)注除了包括主題之外,往往需包括時(shí)間、地點(diǎn)、人物等其他標(biāo)簽數(shù)據(jù),大模型具備較強(qiáng)的通用能力和遷移能力,為了訓(xùn)練大模型理解長(zhǎng)序列數(shù)據(jù)的能力,還需要對(duì)文本進(jìn)行更復(fù)雜的標(biāo)注,例如對(duì)長(zhǎng)篇小說進(jìn)行按篇章結(jié)構(gòu)或一定字?jǐn)?shù)間隔的標(biāo)注,標(biāo)注每個(gè)板塊的人物、事件、摘要等信息大模型能夠在一定程度上從包含噪聲和偏差的數(shù)據(jù)中學(xué)習(xí)為了更好的模型性能,仍然需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行清洗和篩選,以獲得更佳的模型效果傳統(tǒng)AI模型對(duì)數(shù)據(jù)質(zhì)量非常敏感,數(shù)據(jù)中的噪聲和偏差可能會(huì)顯著降低模型性能傳統(tǒng)AI模型的數(shù)據(jù)標(biāo)注需要仔細(xì)審核,確保高準(zhǔn)確度標(biāo)注方式及評(píng)判標(biāo)準(zhǔn)更加復(fù)雜大模型的標(biāo)注需要考慮更加多維 ?
大模型的標(biāo)注有一定主觀性,如長(zhǎng)文本摘要、圖片內(nèi)容的理解、不同文風(fēng)的改寫、對(duì)同一問題的多個(gè)回答的打分等,評(píng)判標(biāo)準(zhǔn)更復(fù)雜,對(duì)標(biāo)注者的邏輯能力、知識(shí)體系的要求更高隨著算法策略的調(diào)整或研發(fā)側(cè)對(duì)數(shù)據(jù)工程理解的加深,數(shù)據(jù)標(biāo)注方式及具體導(dǎo)向可能在項(xiàng)目進(jìn)展中多次調(diào)整傳統(tǒng)AI模型的數(shù)據(jù)標(biāo)注一般有標(biāo)準(zhǔn)答案,如圖像類別、像素邊界、語音文本等通常有單一答案,評(píng)判標(biāo)準(zhǔn)更客觀9來源:根據(jù)公開資料、企業(yè)調(diào)研,結(jié)合統(tǒng)計(jì)模型核算。數(shù)據(jù)類型說明:公開數(shù)據(jù)為無需借助爬蟲工具,可直接下載利用的數(shù)據(jù),如來自高校、社區(qū)的免費(fèi)共享數(shù)據(jù);大模型應(yīng)用及客戶合作數(shù)據(jù),指用戶在大模型C端應(yīng)用中反饋的數(shù)據(jù),以及大模型在B端行業(yè)拓展中企業(yè)客戶提供的數(shù)據(jù);外采數(shù)據(jù)包括原料數(shù)據(jù)以及數(shù)據(jù)服務(wù)公司提供的標(biāo)準(zhǔn)數(shù)據(jù)集、定制數(shù)據(jù)集等。其他說明:調(diào)研企業(yè)研發(fā)的大模型均為側(cè)重語言能力的多模態(tài)大模型;主要以數(shù)據(jù)token化前所需存儲(chǔ)空間為口徑做占比計(jì)算;因調(diào)研樣本的局限性,本比例可能與行業(yè)整體情況存在偏差。
典型服務(wù)場(chǎng)景——通用大模型(2/2)為提升通用能力,大模型訓(xùn)練數(shù)據(jù)的投入將逐步向圖像、視頻等多模態(tài)數(shù)據(jù)傾斜,且需要更多的采購(gòu)數(shù)據(jù)支持縱觀業(yè)界開源及閉源大模型的能力特性,結(jié)合對(duì)大模型研發(fā)企業(yè)的調(diào)研,雖然當(dāng)下主流大模型應(yīng)用仍相對(duì)側(cè)重文本輸入、文本輸出的能力,但對(duì)圖像、視頻、語音等多模態(tài)數(shù)據(jù)的使用已越來越普遍,預(yù)計(jì)大模型訓(xùn)練數(shù)據(jù)中多模態(tài)數(shù)據(jù)的占比將在未來數(shù)年持續(xù)提升。根據(jù)對(duì)部分通用大模型及綜合型AI廠商的調(diào)研,目前大模型的訓(xùn)練數(shù)據(jù)主要來源于公開數(shù)據(jù)、網(wǎng)絡(luò)爬蟲數(shù)據(jù)等可公開獲取的數(shù)據(jù),其次是采購(gòu)數(shù)據(jù)。相比大模型初創(chuàng)企業(yè),綜合型AI廠商憑借現(xiàn)有的互聯(lián)網(wǎng)應(yīng)用和AI業(yè)務(wù)積累,具備獨(dú)特的數(shù)據(jù)優(yōu)勢(shì)。在模型的通用能力建設(shè)方面,公開數(shù)據(jù)和爬蟲數(shù)據(jù)已被廣泛利用,未來這兩類數(shù)據(jù)在整體上的提升空間相對(duì)有限,Epoch
AI等機(jī)構(gòu)的研究人員于2024年6月更新的論文中表示,大語言模型將在大約2026至2032年之間耗盡所有公開的文本數(shù)據(jù)。預(yù)計(jì),大模型研發(fā)廠商將通過更多的采購(gòu)數(shù)據(jù)來提升模型的通用能力;而在垂直場(chǎng)景優(yōu)化及行業(yè)客戶的拓展中,公開數(shù)據(jù)和爬蟲數(shù)據(jù)仍有較大的獲取提升空間,大模型研發(fā)廠商也將更多地利用客戶側(cè)的合作數(shù)據(jù),增強(qiáng)模型解決行業(yè)特定領(lǐng)域或企業(yè)特定問題的能力。22.6%22.5%17.5%2023年大模型的訓(xùn)練數(shù)據(jù)來源構(gòu)成10.8%26.6%公開數(shù)據(jù)網(wǎng)絡(luò)爬蟲數(shù)據(jù)采購(gòu)數(shù)據(jù)大模型應(yīng)用及客戶合作數(shù)據(jù)企業(yè)自有數(shù)據(jù)來源:根據(jù)公開資料、企業(yè)調(diào)研,結(jié)合統(tǒng)計(jì)模型核算。其他說明:調(diào)研企業(yè)研發(fā)的大模型均為側(cè)重語言能力的多模態(tài)大模型;以大模型研發(fā)企業(yè)在2023年對(duì)各類型數(shù)據(jù)的資金投入做占比計(jì)算;因調(diào)研樣本的局限性,本比例可能與行業(yè)整體情況存在偏差。
55.0%36.0%2023年大模型的各類型訓(xùn)練數(shù)據(jù)投入構(gòu)成9.0%文本數(shù)據(jù)圖片及視頻數(shù)據(jù)語音等其他數(shù)據(jù)10典型服務(wù)場(chǎng)景——大模型評(píng)測(cè)公開評(píng)測(cè)基準(zhǔn)與商業(yè)化評(píng)測(cè)服務(wù)共建大模型評(píng)測(cè)生態(tài)隨著大模型技術(shù)的快速迭代及其在眾多領(lǐng)域的廣泛應(yīng)用,相關(guān)評(píng)測(cè)需求同步增長(zhǎng)。對(duì)于模型研發(fā)企業(yè),評(píng)測(cè)是發(fā)現(xiàn)模型在功能、性能、安全性和可靠性等方面優(yōu)劣勢(shì)的關(guān)鍵步驟,并可與其他企業(yè)的模型橫向?qū)Ρ?,進(jìn)而針對(duì)性地優(yōu)化模型,提高其表現(xiàn)和穩(wěn)定性;對(duì)模型應(yīng)用企業(yè)而言,評(píng)測(cè)是選型和項(xiàng)目驗(yàn)收的重要工具,通過專業(yè)評(píng)測(cè)服務(wù),企業(yè)能夠評(píng)估模型的實(shí)際應(yīng)用適用性,確保所選模型滿足需求,并保障定制類模型項(xiàng)目的交付質(zhì)量。相較傳統(tǒng)AI,大模型的應(yīng)用空間更廣,評(píng)測(cè)本身也更加復(fù)雜和多樣化,市場(chǎng)對(duì)專業(yè)評(píng)測(cè)服務(wù)的需求潛力巨大。公開評(píng)測(cè)基準(zhǔn)和商業(yè)化評(píng)測(cè)服務(wù)的發(fā)展,將為大模型評(píng)測(cè)提供重要支撐,促進(jìn)技術(shù)與產(chǎn)業(yè)的健康發(fā)展。公開基準(zhǔn)為大模型評(píng)測(cè)提供重要參考通過科學(xué)、客觀、多場(chǎng)景的評(píng)測(cè)任務(wù)和指標(biāo)設(shè)計(jì),公開基準(zhǔn)為學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用提供評(píng)估大模型能力的重要參考類別基準(zhǔn)名稱發(fā)布機(jī)構(gòu)/發(fā)布年份評(píng)測(cè)內(nèi)容通用文本MMLUUC伯克利、哥大等/202015908個(gè)問題,覆蓋基礎(chǔ)數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等57個(gè)領(lǐng)域GPQA紐約大學(xué)、Cohere、Anthropic等/2023448個(gè)多項(xiàng)選擇題,由生物、物理、化學(xué)等領(lǐng)域的專家編寫MathUC伯克利等/202112500個(gè)高中數(shù)學(xué)競(jìng)賽問題,覆蓋代數(shù)、幾何、概率論等學(xué)科HumanEvalOpenAI/2021164個(gè)手寫的編程問題,每個(gè)編程問題都由函數(shù)簽名、文檔字符串、函數(shù)體和幾個(gè)單元測(cè)試構(gòu)成其他典型通用文本類評(píng)測(cè)基準(zhǔn):MGSM、DROP、BBH等通用中文SuperClueAI評(píng)測(cè)基準(zhǔn)社區(qū)Clue/20232194道多輪簡(jiǎn)答題,覆蓋理科與文科兩大能力,包括計(jì)算、邏輯推理、代碼、知識(shí)百科等十大任務(wù)其他典型通用中文類評(píng)測(cè)基準(zhǔn):OpenCompass、CMMLU、C-EVAL等翻譯WMT23國(guó)際機(jī)器翻譯大會(huì)/2023通用翻譯、術(shù)語、手語、生物醫(yī)學(xué)、文學(xué)等不同領(lǐng)域的翻譯任務(wù)語音FlEURSMeta、Google等/2022包含102種語言的n路并行語音數(shù)據(jù)集,每種語言約12小時(shí)的語音監(jiān)督數(shù)據(jù)語音翻譯CoVoST2Meta/2020共計(jì)2900小時(shí)的語音,包含從21種語言翻譯成英語,以及從英語翻譯成15種語言的語料多模態(tài)MMMUIn.ai、滑鐵盧大學(xué)等/2023從大學(xué)考試、教科書中收集的
1.15萬個(gè)多模態(tài)問題,包括圖表、圖示、地圖、樂譜、化學(xué)結(jié)構(gòu)等30種高度異構(gòu)的圖像類型MathVista加州大學(xué)洛杉磯分校等/2023由6141個(gè)任務(wù)組成,源自
28
個(gè)涉及數(shù)學(xué)的現(xiàn)有多模態(tài)數(shù)據(jù)集和
3
個(gè)新創(chuàng)建的數(shù)據(jù)集EgoShemaUC伯克利等/2023由超過250小時(shí)的的人類自然活動(dòng)的視頻和超過5000個(gè)多項(xiàng)選擇題構(gòu)成,基準(zhǔn)要求模型根據(jù)三分鐘長(zhǎng)的視頻剪輯從5個(gè)選項(xiàng)中選出正確答案其他典型多模態(tài)評(píng)測(cè)基準(zhǔn):M3Exam、AI2D、ChartQA、DocVQA、ActivityNet等數(shù)據(jù)集體系平臺(tái)高質(zhì)量的數(shù)據(jù)集是進(jìn)行有效評(píng)測(cè)的基礎(chǔ),在公開評(píng)測(cè)基準(zhǔn)的基礎(chǔ)上,商業(yè)化評(píng)測(cè)服務(wù)可結(jié)合私有或定制數(shù)據(jù)集,為客戶提供符合實(shí)際場(chǎng)景需求的評(píng)測(cè)數(shù)據(jù)集和指標(biāo)商業(yè)化評(píng)測(cè)服務(wù)提供自動(dòng)化、智能化的平臺(tái),支持?jǐn)?shù)據(jù)管理和更新,為客戶構(gòu)建高效、規(guī)范且可演進(jìn)的評(píng)測(cè)體系,生成詳細(xì)報(bào)告,助力技術(shù)迭代及應(yīng)用選型,從供需兩側(cè)加速大模型產(chǎn)業(yè)的發(fā)展商業(yè)化評(píng)測(cè)為客戶提供體系化服務(wù)AI基礎(chǔ)數(shù)據(jù)服務(wù)公司及評(píng)測(cè)平臺(tái)公司可通過商業(yè)化評(píng)測(cè),為客戶提供體系化解決方案,推動(dòng)大模型在實(shí)際應(yīng)用中的落地和發(fā)展11來源:綜合網(wǎng)絡(luò)公開資料,研究院整理及繪制。來源:綜合華泰證券、九章智駕等公開資料,研究院整理及繪制
典型服務(wù)場(chǎng)景——智能駕駛AI基礎(chǔ)數(shù)據(jù)服務(wù)與AI算法研發(fā)相互促進(jìn),共同推動(dòng)著自動(dòng)駕駛的實(shí)現(xiàn)在大模型和端到端技術(shù)的加持下,智能駕駛的自動(dòng)化程度不斷提升,相關(guān)功能已成為部分消費(fèi)者購(gòu)車時(shí)的重要考慮因素。除個(gè)別廠商專注于純視覺路線外,當(dāng)下高級(jí)別的智能駕駛系統(tǒng)中,攝像頭和激光雷達(dá)是兩大核心傳感器。攝像頭主要捕捉二維圖像,具有高分辨率和豐富的色彩細(xì)節(jié);激光雷達(dá)則通過發(fā)射和接收激光脈沖生成高精度的三維點(diǎn)云數(shù)據(jù),能夠精確測(cè)量物體的距離、尺寸和相對(duì)位置,受光照等環(huán)境條件影響較小。攝像頭和激光雷達(dá)等各類傳感器各具優(yōu)勢(shì),互為補(bǔ)充,數(shù)據(jù)標(biāo)注需對(duì)來自不同傳感器的數(shù)據(jù)標(biāo)簽對(duì)齊和交叉驗(yàn)證工作。AI基礎(chǔ)數(shù)據(jù)服務(wù)是支撐智能駕駛、大模型等AI算法研發(fā)的基石,而AI算法也大幅提升了智駕研發(fā)領(lǐng)域數(shù)據(jù)標(biāo)注的效率和效果,為數(shù)據(jù)服務(wù)行業(yè)的發(fā)展注入了新的活力。數(shù)據(jù)與AI彼此支撐、相互促進(jìn),共同推動(dòng)著自動(dòng)駕駛的實(shí)現(xiàn)。智駕系統(tǒng)核心傳感器的數(shù)據(jù)標(biāo)注工作對(duì)比分析自動(dòng)化標(biāo)注在智駕研發(fā)場(chǎng)景中的應(yīng)用案例2021年特斯拉人工標(biāo)注團(tuán)隊(duì)約1000人,其后通過自動(dòng)化標(biāo)注系統(tǒng)提高特 了團(tuán)隊(duì)效率,2022年該團(tuán)隊(duì)裁員200余人斯 ?
特斯拉采用“多重軌跡重建”技術(shù)自動(dòng)標(biāo)注車輛行駛軌跡,在集群中運(yùn)拉 行12小時(shí)即可完成10000次行駛軌跡標(biāo)注,相當(dāng)于節(jié)省了500萬小時(shí)的人工標(biāo)注時(shí)間。理 ?
2023年之前理想汽車每年需通過人工完成約1000萬幀的圖片標(biāo)注,每想 張成本6~8元,一年耗資近億元汽 ?
此后,理想汽車基于大模型進(jìn)行自動(dòng)化標(biāo)注,算法可在三個(gè)小時(shí)內(nèi)完成車 過去人工一年的工作,效率是人工的1000倍ScaleAIScale
AI為通用、Nuro、豐田、法雷奧等諸多智駕研發(fā)企業(yè)提供了自動(dòng)化標(biāo)注的工具平臺(tái)或相關(guān)產(chǎn)品服務(wù)借助Scale
AI的調(diào)試訓(xùn)練數(shù)據(jù)集的可視化工具平臺(tái)Nucleus,無人車等機(jī)器人研發(fā)企業(yè)Nuro可有效維護(hù)管理超5億張圖像數(shù)據(jù)集。Nucleus的Object
Autotag功能可支持Nuro選擇某一類別的未標(biāo)注圖像,并自動(dòng)找出一組相似圖像,大幅提升罕見場(chǎng)景的數(shù)據(jù)的準(zhǔn)備、標(biāo)注及管理效率小鵬汽車XNet的訓(xùn)練基于50~100萬個(gè)短視頻,其中動(dòng)態(tài)目標(biāo)的數(shù)量可能達(dá)到數(shù)億甚至十億量級(jí),如果以人工標(biāo)注的方式,需要1000人的團(tuán)隊(duì)耗時(shí)2年完成標(biāo)注小鵬汽車的全自動(dòng)標(biāo)注系統(tǒng)僅需16.7天即完成上述工作,且標(biāo)注質(zhì)量更高,信息更全面,包括3D位置、尺寸、速度、軌跡等信息架構(gòu)攝像頭激光雷達(dá)標(biāo)注對(duì)象二維圖像中的汽車、行人、交通標(biāo)志、車道線等物體需考慮光照條件和天氣影響3D點(diǎn)云數(shù)據(jù),需標(biāo)注物體的邊界、相對(duì)位置等相對(duì)不受光照條件影響標(biāo)注復(fù)雜性需綜合物體的顏色、紋理和形狀等進(jìn)行區(qū)分標(biāo)注的主觀性或不確定性相對(duì)更大需理解三維空間關(guān)系精確的距離測(cè)量標(biāo)注結(jié)果的一致性更高標(biāo)注量攝像頭的數(shù)據(jù)及采集到的圖像數(shù)量相對(duì)更多每張圖像的標(biāo)注工作量相對(duì)更小每幀點(diǎn)云的數(shù)據(jù)量很大,點(diǎn)云數(shù)據(jù)處理和標(biāo)注的工作量相對(duì)更大標(biāo)注成本圖像標(biāo)注相對(duì)簡(jiǎn)單,且相關(guān)自動(dòng)化工具相對(duì)成熟,單張標(biāo)注成本更低點(diǎn)云數(shù)據(jù)復(fù)雜,單張標(biāo)注成本相對(duì)更高集成與融合在高級(jí)別的自動(dòng)駕駛系統(tǒng)研發(fā)中,大多廠商通常會(huì)融合攝像頭、激光雷達(dá)等多種傳感器的數(shù)據(jù),為系統(tǒng)提供更全面的信息。這意味著標(biāo)注策略需考慮數(shù)據(jù)融合,做好來自不同傳感器的數(shù)據(jù)標(biāo)簽對(duì)齊和交叉驗(yàn)證工作1202 AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)現(xiàn)狀中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)圖譜中游云服務(wù)廠商數(shù)據(jù)服務(wù)專業(yè)廠商上游多源數(shù)據(jù)人力資源服務(wù)IT基礎(chǔ)設(shè)施下游通用大模型及綜合型AI廠商智能駕駛AI+安防AI+工業(yè)AI+教育AIoT…文本、圖片、視頻、音頻等原料數(shù)據(jù)版權(quán)所有者個(gè)人企業(yè)政府…數(shù)據(jù)標(biāo)注垂類BPOIT類BPO垂直行業(yè)/領(lǐng)域的大模型及AI廠商影像創(chuàng)作 搜索及文本創(chuàng)作代碼助手多源數(shù)據(jù)、人力服務(wù)、IT設(shè)施
→
數(shù)據(jù)服務(wù)
→AI算法研發(fā)廠商AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)的中游即數(shù)據(jù)標(biāo)注等數(shù)據(jù)服務(wù)的供應(yīng)商,包括專業(yè)廠商及云廠商兩類,其中后者以支持內(nèi)部算法研發(fā)及云業(yè)務(wù)客戶需求為主。上游提供原料數(shù)據(jù)、人力資源支持及IT基礎(chǔ)設(shè)施,其中人力資源服務(wù)供應(yīng)商主要包括垂直做數(shù)據(jù)標(biāo)注的廠商和綜合IT類廠商兩類,目前業(yè)界通常采用遠(yuǎn)程線上服務(wù)即云BPO的模式進(jìn)行人力支持。下游為數(shù)據(jù)服務(wù)的需求方,包括大模型、智能駕駛等各行業(yè)各領(lǐng)域投入AI算法研發(fā)的廠商。2024年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)圖譜13中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模374558759913017016.0%22.0%28.0%30.0%32.0%32.0%30.0%202220232027e2028e2024e 2025e市場(chǎng)規(guī)模(億元)2026e增速(%)2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模45億元,未來5年復(fù)合增長(zhǎng)率30.4%基于對(duì)數(shù)據(jù)服務(wù)專業(yè)廠商、云廠商、大模型研發(fā)廠商、智能駕駛研發(fā)廠商等中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的供需兩側(cè)企業(yè)調(diào)研,結(jié)合艾瑞對(duì)中國(guó)人工智能市場(chǎng)整體及AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的發(fā)展判斷,推算2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為45億元。在需求側(cè),隨著AI算法研發(fā)從面向特定任務(wù)領(lǐng)域的小模型向具備更強(qiáng)通用泛化能力的大模型過渡,數(shù)據(jù)服務(wù)需求企業(yè)將產(chǎn)生大量高質(zhì)量、多模態(tài)的數(shù)據(jù)需求。同時(shí),隨著大模型在通用及垂直場(chǎng)景中的應(yīng)用拓展和智能駕駛等AI技術(shù)的規(guī)模化商業(yè)落地,良好的商業(yè)回報(bào)將進(jìn)一步推動(dòng)需求側(cè)加大對(duì)基礎(chǔ)數(shù)據(jù)的投入。在供給側(cè),隨著數(shù)據(jù)要素等相關(guān)支持政策的持續(xù)深化,服務(wù)商將加快數(shù)據(jù)源的獲取及數(shù)據(jù)集的制作。數(shù)據(jù)工程技術(shù)、數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、標(biāo)注方法等日益成熟,人才生態(tài)及服務(wù)軟件平臺(tái)的自動(dòng)化、流程化也在不斷完善,供給側(cè)的供應(yīng)能力和服務(wù)質(zhì)量得以加強(qiáng)。綜合供需兩側(cè)的情況,預(yù)計(jì)到2028年,中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模將達(dá)170億元,未來五年的復(fù)合增長(zhǎng)率為30.4%。2022-2028年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模CAGR=30.4%1415AI基礎(chǔ)數(shù)據(jù)服務(wù)商的市場(chǎng)結(jié)構(gòu)分析(1/2)自建團(tuán)隊(duì)與品牌數(shù)據(jù)服務(wù)商主導(dǎo)市場(chǎng),中小服務(wù)商的市場(chǎng)份額大幅下滑延續(xù)在2020年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)研究中的供給方劃分方式,本報(bào)告將供給方分為需求方自建團(tuán)隊(duì)、品牌數(shù)據(jù)服務(wù)商、中小數(shù)據(jù)服務(wù)三類。其中,有AI基礎(chǔ)數(shù)據(jù)對(duì)外服務(wù)的云廠商最為特殊,因其所屬集團(tuán)的內(nèi)部AI算法研發(fā)所需的數(shù)據(jù)服務(wù),可能由云服務(wù)業(yè)務(wù)線、算法研發(fā)業(yè)務(wù)線的內(nèi)部標(biāo)注團(tuán)隊(duì),以及外部的品牌和中小數(shù)據(jù)服務(wù)商等四種團(tuán)隊(duì)承接。在對(duì)供給方的市場(chǎng)份額統(tǒng)計(jì)中,云服務(wù)業(yè)務(wù)線的對(duì)內(nèi)支持計(jì)入需求方自建團(tuán)隊(duì)的市場(chǎng);因云服務(wù)廠商具備較大的市場(chǎng)影響力、相對(duì)完善的服務(wù)軟件平臺(tái),將云業(yè)務(wù)線對(duì)外部廠商的數(shù)據(jù)服務(wù)計(jì)入品牌數(shù)據(jù)服務(wù)商的市場(chǎng)。相比4年的市場(chǎng)份額情況,中小數(shù)據(jù)服務(wù)商的整體市場(chǎng)份額下滑約41%,需求方自建團(tuán)隊(duì)上升36%,品牌數(shù)據(jù)服務(wù)商上升5%:傳統(tǒng)AI數(shù)據(jù)標(biāo)注市場(chǎng)競(jìng)爭(zhēng)激烈,而大模型、智能駕駛等新興項(xiàng)目體量較大需要較強(qiáng)的綜合服務(wù)能力,疊加疫情影響,較多中小數(shù)據(jù)服務(wù)商已退出市場(chǎng);在大模型、智能駕駛等新興AI算法及對(duì)應(yīng)標(biāo)注方式快速迭代時(shí)期,為追求更高的開發(fā)效率、保障信息安全,較多需求方通過自建團(tuán)隊(duì)滿足數(shù)據(jù)服務(wù)需求;未來隨著品牌數(shù)據(jù)服務(wù)商的數(shù)據(jù)版權(quán)的豐富、專業(yè)能力的提升、標(biāo)注方法的成熟,品牌數(shù)據(jù)服務(wù)商將承接更多的數(shù)據(jù)服務(wù)需求。59.0%35.3%2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)供給方的市場(chǎng)份額5.7%需求方自建團(tuán)隊(duì) 品牌數(shù)據(jù)服務(wù)商來源:根據(jù)公開資料、企業(yè)訪談,結(jié)合統(tǒng)計(jì)模型核算。中小數(shù)據(jù)服務(wù)商一般廠商的數(shù)據(jù)服務(wù)需求AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)的供需合作鏈條云服務(wù)廠商所屬集團(tuán)的內(nèi)部AI數(shù)據(jù)服務(wù)需求需求方內(nèi)部標(biāo)注團(tuán)隊(duì)中小數(shù)據(jù)服務(wù)廠商品牌數(shù)據(jù)服務(wù)專業(yè)廠商云服務(wù)廠商AI基礎(chǔ)數(shù)據(jù)服務(wù)業(yè)務(wù)線計(jì)入需求方自建團(tuán)隊(duì)市場(chǎng)計(jì)入品牌數(shù)據(jù)服務(wù)商市場(chǎng)計(jì)入中小數(shù)據(jù)服務(wù)商市場(chǎng)
AI基礎(chǔ)數(shù)據(jù)服務(wù)商的市場(chǎng)結(jié)構(gòu)分析(2/2)78.0%CR4 其他廠商來源:根據(jù)公開資料、企業(yè)訪談,結(jié)合統(tǒng)計(jì)模型核算;CR4為國(guó)內(nèi)營(yíng)收位居前四的企業(yè)的相關(guān)營(yíng)收在中國(guó)市場(chǎng)的份額總和;圖中所展示的公司logo順序及大小并無實(shí)際意義。2023年CR4為22.0%,行業(yè)集中度相比2019年顯著提升據(jù)調(diào)研統(tǒng)計(jì),2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)的CR4(前四大企業(yè)的市場(chǎng)份額)為22.0%,市場(chǎng)仍較為分散。相比2019年14.3%的CR4,中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)在2023年的集中度顯著提升。市場(chǎng)份額位居前四的企業(yè)包括以海天瑞聲、數(shù)據(jù)堂為代表的數(shù)據(jù)服務(wù)專業(yè)廠商以及以百度智能云為代表的云服務(wù)廠商。在傳統(tǒng)AI標(biāo)注市場(chǎng)的激烈競(jìng)爭(zhēng)中,百度智能云、數(shù)據(jù)堂等AI基礎(chǔ)數(shù)據(jù)服務(wù)企業(yè)敏銳的捕捉到了大模型標(biāo)注的需求變遷,憑借強(qiáng)大的資源整合及項(xiàng)目管理能力、豐富的行業(yè)經(jīng)驗(yàn)和專業(yè)理解,快速響應(yīng)市場(chǎng)需求的變化,及時(shí)投入大模型相關(guān)產(chǎn)品和服務(wù)的研發(fā),從而在AI基礎(chǔ)數(shù)據(jù)服務(wù)的整體競(jìng)爭(zhēng)中贏得了更高的市場(chǎng)份額,也成為了大模型標(biāo)注領(lǐng)域的頭部廠商。展望未來,隨著大模型等AI技術(shù)的發(fā)展,數(shù)據(jù)服務(wù)的需求日益龐大且復(fù)雜,這對(duì)服務(wù)企業(yè)的綜合能力提出了更高的要求。沒有自動(dòng)化軟件平臺(tái)或平臺(tái)能力較弱、資源整合能力有限的廠商將面臨生存空間不斷被擠壓的困境;高質(zhì)量數(shù)據(jù)版權(quán)豐富、運(yùn)營(yíng)管理能力強(qiáng)大、行業(yè)理解深刻的頭部數(shù)據(jù)服務(wù)廠商有望持續(xù)提升市場(chǎng)份額。2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)CR4及代表廠商22.0%數(shù)據(jù)服務(wù)專業(yè)廠商代表企業(yè)云服務(wù)廠商代表企業(yè)16廠商競(jìng)爭(zhēng)要素與未來發(fā)展策略AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商競(jìng)爭(zhēng)要素與未來發(fā)展策略17自動(dòng)化平臺(tái)、深刻的行業(yè)理解、對(duì)技術(shù)與數(shù)據(jù)的前瞻性布局,將幫助優(yōu)秀企業(yè)贏得市場(chǎng)領(lǐng)先在行業(yè)集中度不斷提升的過程中,基于自動(dòng)化平臺(tái)不斷強(qiáng)化項(xiàng)目運(yùn)營(yíng)及資源整合能力、深刻理解行業(yè)需求,積極應(yīng)用前沿算法、積累高質(zhì)量數(shù)據(jù)集版權(quán)的AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商,將在激烈競(jìng)爭(zhēng)的市場(chǎng)中脫穎而出,贏得市場(chǎng)領(lǐng)先地位。AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商的競(jìng)爭(zhēng)要素與未來發(fā)展策略基于自動(dòng)化數(shù)據(jù)服務(wù)平臺(tái)的項(xiàng)目運(yùn)營(yíng)與資源整合能力自動(dòng)化與智能化平臺(tái):一個(gè)高度自動(dòng)化、智能化的服務(wù)平臺(tái)能夠高效地處理數(shù)據(jù)預(yù)處理、清洗、標(biāo)注等各個(gè)環(huán)節(jié)資源整合能力:強(qiáng)大的資源整合能力使企業(yè)能夠快速召集滿足客戶需求的數(shù)據(jù)服務(wù)人員,確保按時(shí)按質(zhì)交付項(xiàng)目精細(xì)化管理:通過精細(xì)化管理標(biāo)注工程師和標(biāo)準(zhǔn)質(zhì)檢員等項(xiàng)目人員,企業(yè)可以確保團(tuán)隊(duì)內(nèi)的高效協(xié)作人力資源支持:隨著平臺(tái)功能的增強(qiáng),更多個(gè)體可以直接通過平臺(tái)為數(shù)據(jù)服務(wù)廠商提供人力資源支持,提升行業(yè)運(yùn)轉(zhuǎn)效率,擴(kuò)大從業(yè)人員規(guī)模深刻的行業(yè)理解與前瞻性布局簡(jiǎn)化復(fù)雜需求:大模型的標(biāo)注工作復(fù)雜多樣,供應(yīng)商必須具備將復(fù)雜需求簡(jiǎn)化為具體標(biāo)注任務(wù)的能力前瞻性布局:企業(yè)需具備前瞻性布局的能力,積極投入有前景的數(shù)據(jù)集開發(fā),并應(yīng)用前沿AI算法對(duì)平臺(tái)進(jìn)行自動(dòng)化改造,使企業(yè)在技術(shù)變革中保持領(lǐng)先原料數(shù)據(jù)的版權(quán)積累定制數(shù)據(jù)集業(yè)務(wù)的局限性:定制數(shù)據(jù)集因其個(gè)性化需求和難以重復(fù)售賣的特點(diǎn),難以支撐數(shù)據(jù)服務(wù)企業(yè)的規(guī)?;鲩L(zhǎng)標(biāo)準(zhǔn)數(shù)據(jù)集的優(yōu)勢(shì):基于高質(zhì)量原料數(shù)據(jù)制作的標(biāo)準(zhǔn)數(shù)據(jù)集則不同,這些數(shù)據(jù)集可以面向多個(gè)客戶重復(fù)銷售,市場(chǎng)需求廣泛且客戶接受度高,有助于企業(yè)實(shí)現(xiàn)規(guī)模效應(yīng),取得更高的利潤(rùn)水平1803 AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商案例海天瑞聲深耕行業(yè)近20年,向全行業(yè)提供多語言、跨領(lǐng)域、跨模態(tài)的人工智能數(shù)據(jù)及相關(guān)數(shù)據(jù)服務(wù)北京海天瑞聲科技股份有限公司(以下簡(jiǎn)稱海天瑞聲)自2005年成立以來,公司始終致力于為AI產(chǎn)業(yè)鏈上的各類機(jī)構(gòu)提供算法模型開發(fā)訓(xùn)練所需的專業(yè)數(shù)據(jù)集。經(jīng)過多年發(fā)展,公司已成為人工智能基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域具有較強(qiáng)國(guó)際競(jìng)爭(zhēng)力的國(guó)內(nèi)頭部企業(yè),并實(shí)現(xiàn)了標(biāo)準(zhǔn)化產(chǎn)品、定制化服務(wù)、相關(guān)應(yīng)用服務(wù)全覆蓋。公司所提供的訓(xùn)練數(shù)據(jù)涵蓋智能語音(語音識(shí)別、語音合成等)、計(jì)算機(jī)視覺、白然語言等多個(gè)核心領(lǐng)域,全面服務(wù)于人機(jī)交互、智能家居、智能駕駛、智慧金融、智能安防等多種創(chuàng)新應(yīng)用場(chǎng)景。來源:綜合企業(yè)財(cái)報(bào)、官網(wǎng)等公開信息,研究院整理及繪制。2.382.631.7023.3%-1.8%2.33-11.5%2.0627.3%-35.3%2019 2020 2021營(yíng)業(yè)收入(億元)2022 2023同比增減(%)海天瑞聲產(chǎn)品服務(wù)及技術(shù)布局自然語言處理公司通過設(shè)計(jì)自然語言處理的訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)、采集、加工、質(zhì)檢;或者對(duì)客戶提供的自然語言文本執(zhí)行加工、質(zhì)檢工作,最終形成客戶所需的自然語言訓(xùn)練數(shù)據(jù)集智能語音公司通過設(shè)計(jì)、采集、加工、質(zhì)檢等智能語音訓(xùn)練數(shù)據(jù)集生產(chǎn)環(huán)節(jié);或者針對(duì)客戶提供的原料音頻文件執(zhí)行加工、質(zhì)檢工作,最終形成客戶所需的智能語音訓(xùn)練數(shù)據(jù)集計(jì)算機(jī)視覺公司通過設(shè)計(jì)計(jì)算機(jī)視覺的訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)、采集、加工、質(zhì)檢;或者對(duì)客戶提供的圖像、視頻文件執(zhí)行加工、質(zhì)檢工作,最終形成客戶所需的計(jì)算機(jī)視覺訓(xùn)練數(shù)據(jù)集訓(xùn)練數(shù)據(jù)相關(guān)的應(yīng)用服務(wù)公司基于自身生產(chǎn)的訓(xùn)練數(shù)據(jù)提供算法模型相關(guān)的訓(xùn)練服務(wù),運(yùn)用訓(xùn)練數(shù)據(jù)研發(fā)能力助力下游客戶完成其算法模型的語言拓展、特定算法模塊拓展、垂直應(yīng)用領(lǐng)域拓展等,為客戶定制針對(duì)特定應(yīng)用場(chǎng)景的專屬算法模型,提高AI技術(shù)應(yīng)用效果海天瑞聲客戶場(chǎng)景及 2019-2023年海天瑞聲的營(yíng)收情況客戶結(jié)構(gòu)客戶場(chǎng)景個(gè)人助手語音輸入內(nèi)容生成智能家居機(jī)器人語音導(dǎo)航智能客服智能播報(bào)語音翻譯移動(dòng)社交虛擬人智能駕駛智慧醫(yī)療智慧教育智慧交通智慧城市智慧金融機(jī)器翻譯智能問答信息提取情感分析OCR識(shí)別核心技術(shù)布局通過持續(xù)的研發(fā)投入積累形成了12項(xiàng)核心技術(shù),覆蓋基礎(chǔ)研究、平臺(tái)工具、訓(xùn)練數(shù)據(jù)生產(chǎn)三個(gè)層次,應(yīng)用于訓(xùn)練數(shù)據(jù)生產(chǎn)的設(shè)計(jì)、采集、加工、質(zhì)檢全流程12項(xiàng)核心技術(shù)中,語音語言學(xué)基礎(chǔ)研究、多語種多模態(tài)訓(xùn)練數(shù)據(jù)設(shè)計(jì)技術(shù)、數(shù)據(jù)同步技術(shù)、大數(shù)據(jù)驅(qū)動(dòng)的高效數(shù)據(jù)處理技術(shù)、分布式高性能自動(dòng)校驗(yàn)技術(shù)等5項(xiàng)具備較高技術(shù)壁壘客戶結(jié)構(gòu)分析Top
5:2023年,海天瑞聲Top
5客戶銷售額合計(jì)占比33.41%境內(nèi)/境外:2023年,公司境內(nèi)地區(qū)客戶收入占比64.7%,境內(nèi)收入額同比-25.2%;境外收入額同比-48.2%營(yíng)收19公司2023年?duì)I收有較大下滑,主要原因包括境外客戶階段性裁員、業(yè)務(wù)調(diào)整和預(yù)算釋放放緩,導(dǎo)致境外收入大變動(dòng)分析
幅下滑;國(guó)內(nèi)客戶對(duì)研發(fā)投入持謹(jǐn)慎態(tài)度,預(yù)算和需求釋放減緩,加上行業(yè)競(jìng)爭(zhēng)加劇,導(dǎo)致境內(nèi)收入下滑數(shù)據(jù)堂憑借高質(zhì)量數(shù)據(jù)服務(wù),數(shù)據(jù)堂已幫助全球上千家企業(yè)提升AI模型性能數(shù)據(jù)堂(北京)科技股份有限公司(以下簡(jiǎn)稱數(shù)據(jù)堂)成立于2010年,是一家面向支撐人工智能產(chǎn)業(yè)發(fā)展,專業(yè)從事人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的企業(yè)。經(jīng)過十余年積累,數(shù)據(jù)堂形成了數(shù)據(jù)多模態(tài)采集、自動(dòng)處理、質(zhì)量評(píng)測(cè)、安全計(jì)算的全鏈條核心技術(shù)體系及服務(wù)平臺(tái)。數(shù)據(jù)堂專注于為國(guó)內(nèi)外人工智能技術(shù)和應(yīng)用客戶提供一站式基礎(chǔ)數(shù)據(jù)資源服務(wù)、基礎(chǔ)數(shù)據(jù)生產(chǎn)服務(wù)以及基礎(chǔ)數(shù)據(jù)處理解決方案服務(wù),主要覆蓋大模型、智能語音、自動(dòng)駕駛、生物認(rèn)證、智能安防、智能家居、智能娛樂、智慧城市、智能制造、智能醫(yī)療等領(lǐng)域。來源:綜合企業(yè)財(cái)報(bào)、官網(wǎng)等公開信息,研究院整理及繪制。0.650.791.171.700.8%21.3%45.1%39.0%2019 2020 2021營(yíng)業(yè)收入(億元)2022 2023同比增減(%)2019-2023年數(shù)據(jù)堂的營(yíng)收情況48.8% 2.36數(shù)據(jù)堂產(chǎn)品服務(wù)及技術(shù)布局 數(shù)據(jù)堂的客戶場(chǎng)景及客戶結(jié)構(gòu)數(shù)據(jù)服務(wù)資源服務(wù)人工智能傳統(tǒng)模型及大模型學(xué)習(xí)、訓(xùn)練及評(píng)測(cè)生產(chǎn)服務(wù)數(shù)據(jù)采集、標(biāo)注、處理、校對(duì)、質(zhì)檢等SaaS服務(wù)方案服務(wù)私有化數(shù)據(jù)工廠、人工智能技術(shù)能力評(píng)測(cè)、智能數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)客戶場(chǎng)景數(shù)據(jù)資產(chǎn)數(shù)據(jù)平臺(tái)自動(dòng)駕駛數(shù)據(jù)庫(kù)智能語音數(shù)據(jù)庫(kù)生物認(rèn)證數(shù)據(jù)庫(kù)智能安防數(shù)據(jù)庫(kù)遙感影像數(shù)據(jù)庫(kù)智能家居數(shù)據(jù)庫(kù)智能制造數(shù)據(jù)庫(kù)智慧城市數(shù)據(jù)庫(kù)智能數(shù)據(jù)工廠百套自動(dòng)標(biāo)注處理工具自動(dòng)駕駛智能語音生物認(rèn)證智能安防智能家居智能娛樂智慧城市智能醫(yī)療智能制造…重點(diǎn)研發(fā)項(xiàng)目數(shù)加加平臺(tái):旨在為項(xiàng)目提供自助化、自動(dòng)化的高效處理流程的柔性生產(chǎn)系統(tǒng)。最大限度地提升供應(yīng)商項(xiàng)目執(zhí)行的效率和質(zhì)量,并通過數(shù)智化和自動(dòng)化的方式實(shí)現(xiàn)更好的業(yè)務(wù)運(yùn)營(yíng)和管理效果數(shù)加價(jià)Pro:專為客戶打造的一套數(shù)據(jù)標(biāo)注生產(chǎn)線系統(tǒng),旨在提供快速搭建數(shù)據(jù)標(biāo)注生產(chǎn)線的解決方案客戶結(jié)構(gòu)分析Top5:2023年,數(shù)據(jù)堂Top
5客戶銷售額合計(jì)占比39.08%境內(nèi)/境外:2023年,數(shù)據(jù)堂境內(nèi)地區(qū)客戶收入占比73.1%,境內(nèi)收入額同比提升55.7%;境外收入額同比增長(zhǎng)7.61%營(yíng)收20數(shù)據(jù)堂近幾年收入大幅增長(zhǎng),主要原因是全球人工智能產(chǎn)業(yè)規(guī)??焖僭鲩L(zhǎng),AI技術(shù)的發(fā)展和迭代,導(dǎo)致對(duì)人工變動(dòng)分析
智能數(shù)據(jù)產(chǎn)品及解決方案的需求快速增長(zhǎng),國(guó)內(nèi)收入的增長(zhǎng)同時(shí)受益于國(guó)家層面對(duì)數(shù)據(jù)生產(chǎn)要素發(fā)展的重視活樹科技業(yè)務(wù)布局及項(xiàng)目積累16個(gè)國(guó)家22個(gè)交付中心53個(gè)語種數(shù)據(jù)3,000+個(gè)項(xiàng)目經(jīng)驗(yàn)LLM項(xiàng)目落地全球16個(gè)國(guó)家專注于多語言數(shù)據(jù)服務(wù),為AI公司和科研機(jī)構(gòu)提供高質(zhì)量數(shù)據(jù)解決方案活樹科技(Lifewood)成立于2004年,是一家面向全球的多語言數(shù)據(jù)服務(wù)企業(yè)。活樹科技專注于文本、圖像、音頻和視頻數(shù)據(jù)的采集和標(biāo)注,提供50+種語言的數(shù)據(jù)服務(wù),助力AI算法的訓(xùn)練和優(yōu)化。憑借二十年的行業(yè)經(jīng)驗(yàn),活樹科技為AI公司、互聯(lián)網(wǎng)公司及科研機(jī)構(gòu)提供高質(zhì)量、大規(guī)模、結(jié)構(gòu)化的訓(xùn)練數(shù)據(jù)?;顦淇萍嫉臄?shù)據(jù)解決方案覆蓋個(gè)人助手、語音輸入、智能客服、智慧醫(yī)療、智慧教育、智慧交通、智慧城市、智慧金融、智能問答、信息提取、情感分析、OCR識(shí)別等多種應(yīng)用場(chǎng)景。活樹科技致力于推動(dòng)AI技術(shù)的實(shí)踐應(yīng)用及商業(yè)化落地,賦能AI技術(shù)與實(shí)體經(jīng)濟(jì)深度融合?;顦淇萍既蛉肆Y源布局--16國(guó)22交付中心 活樹科技數(shù)據(jù)解決方案全球資源助力企業(yè)出海美國(guó)貝寧孟加拉國(guó)泰國(guó)菲律賓芬蘭英國(guó)德國(guó)塞爾維亞阿聯(lián)酋馬來西亞 新加坡印度尼西亞日本中國(guó)越南南非垂直大模型數(shù)據(jù)服務(wù)(智能駕駛/智能虛擬助手等場(chǎng)景)A類傳統(tǒng)數(shù)據(jù)服務(wù)B類通用大模型數(shù)據(jù)服務(wù)C類提供50+語種的全面數(shù)據(jù)服務(wù),包含數(shù)據(jù)收集、準(zhǔn)備、清理、標(biāo)記、注釋、檢查和格式化服務(wù)客戶類型:AI企業(yè)、互聯(lián)網(wǎng)企業(yè)、ICT企業(yè)、直播平臺(tái)企業(yè)等來源:綜合官網(wǎng)等公開信息,研究院整理及繪制。21創(chuàng)建和優(yōu)化LLM數(shù)據(jù)集,包括預(yù)訓(xùn)練、微調(diào)、RLHF和偏見處理,確保模型公正客戶類型:互聯(lián)網(wǎng)、AI企業(yè)及初創(chuàng)企業(yè)、科研機(jī)構(gòu)等提供針對(duì)垂直行業(yè)的現(xiàn)成數(shù)據(jù)集,專注于自動(dòng)駕駛、智能虛擬助手等領(lǐng)域。客戶類型:主機(jī)廠、自動(dòng)駕駛Tier
1、互聯(lián)網(wǎng)企業(yè)等AppenAI生命周期數(shù)據(jù)的創(chuàng)新和實(shí)踐者Appen成立于1996年,公司總部位于澳大利亞,公司通過在美國(guó)、中國(guó)等國(guó)家的九個(gè)辦事處和營(yíng)業(yè)部為全球客戶提供可靠的圖像、文本、語音、音頻、視頻等AI訓(xùn)練數(shù)據(jù)服務(wù),擁有業(yè)內(nèi)先進(jìn)的人工智能輔助數(shù)據(jù)標(biāo)注平臺(tái)、自研的大模型開發(fā)平臺(tái)及全球100多萬名技能嫻熟的眾包資源,支持290+種語言和方言。澳鵬Appen數(shù)據(jù)解決方案已助力全球15,000+個(gè)AI項(xiàng)目的研發(fā)及商業(yè)化。LLM智能開發(fā)平臺(tái)MatrixGo數(shù)據(jù)標(biāo)注平臺(tái)數(shù)據(jù)集數(shù)據(jù)服務(wù)Appen產(chǎn)品服務(wù)及技術(shù)布局核心技術(shù)布局Appen力求通過技術(shù)和創(chuàng)新方案簡(jiǎn)化和自動(dòng)化流程,從而能夠大規(guī)模交付AI訓(xùn)練數(shù)據(jù)Appen的工程、隱私和網(wǎng)絡(luò)安全團(tuán)隊(duì)致力于確保數(shù)據(jù)可用性目標(biāo)的實(shí)現(xiàn),并確保數(shù)據(jù)的保護(hù)和安全2023年投資0.35億用于技術(shù)和系統(tǒng)建設(shè),包括對(duì)ADAP的增強(qiáng),以支持LLM產(chǎn)品,并更好地支持眾包和客戶客戶場(chǎng)景成品數(shù)據(jù)集:澳鵬提供700+個(gè)成品數(shù)據(jù)集,其中包括五萬余小時(shí)ASR語音數(shù)據(jù),一百六十萬余張圖片,81億token、千萬詞條的大語言模型相關(guān)的文本數(shù)據(jù)集數(shù)據(jù)集應(yīng)用場(chǎng)景:安全駕駛/自動(dòng)駕駛、互聯(lián)網(wǎng)虛擬人/智能客服、智慧金融、智能家居、智能終端、智能安防數(shù)據(jù)采集:擁有全球范圍290+語言資源及100萬眾包團(tuán)隊(duì),澳鵬提供全面的數(shù)據(jù)定制采集服務(wù),為您的AI部署提供高質(zhì)量的數(shù)據(jù)支持?jǐn)?shù)據(jù)標(biāo)注:為客戶提供多應(yīng)用場(chǎng)景和行業(yè)的定制數(shù)據(jù)標(biāo)注服務(wù),為客戶的AI應(yīng)用提供全面數(shù)據(jù)AI科技公司正在通過MatrixGo平臺(tái)強(qiáng)大的標(biāo)注工具,大幅提升非結(jié)構(gòu)化數(shù)據(jù)處理能力,賦能全球創(chuàng)新性的AI項(xiàng)目部署澳鵬大模型智能開發(fā)平臺(tái)集大模型數(shù)據(jù)準(zhǔn)備、訓(xùn)練、推理、部署應(yīng)用于一體,提供數(shù)據(jù)生產(chǎn)、數(shù)據(jù)管理、模型管理以及計(jì)算資源管理等全棧管理產(chǎn)品,助力企業(yè)輕松擁抱大模型Appen的客戶場(chǎng)景及客戶結(jié)構(gòu)智能科技智慧醫(yī)療智能金融智能駕駛新零售客戶結(jié)構(gòu)分析Top5:2023年,Appen
Top
5客戶銷售額合計(jì)占比74.8%地區(qū)分布:2023年,公司澳大利亞客戶收入占比0.6%;美國(guó)客戶收入占比80.5%,收入同比下滑35.3%;其他國(guó)家地區(qū)收入占比19.4%,收入同比增長(zhǎng)6.6%數(shù)據(jù),鑄就非凡差異模型大模型數(shù)據(jù)集多模態(tài)標(biāo)注工具智能大模型開發(fā)平臺(tái)數(shù)據(jù)用戶來源:綜合企業(yè)財(cái)報(bào)、官網(wǎng)等公開信息,研究院整理及繪制。22Scale
AI典型客戶及行業(yè)應(yīng)用案例智能駕駛:Scale
AI的自動(dòng)駕駛數(shù)據(jù)引擎推動(dòng)了L4級(jí)自動(dòng)駕駛的突破國(guó)防:Scale
AI的公共部門數(shù)據(jù)引擎推動(dòng)了美國(guó)國(guó)防部的許多重大AI項(xiàng)目OpenAI:Scale
AI與OpenAI在GPT-2上合作進(jìn)行了首批RLHF實(shí)驗(yàn),并將這些技術(shù)擴(kuò)展到InstructGPT等更多模型上結(jié)合了機(jī)器學(xué)習(xí)驅(qū)動(dòng)的預(yù)標(biāo)注和多層次人工審核的數(shù)據(jù)引擎,可將原始數(shù)據(jù)高效的轉(zhuǎn)換為高質(zhì)量的訓(xùn)練數(shù)據(jù);數(shù)據(jù)核心技術(shù) 引擎可智能管理和優(yōu)化數(shù)據(jù)集,識(shí)別高價(jià)值數(shù)據(jù)進(jìn)行標(biāo)注,布局 最大化標(biāo)注投資回報(bào)率;數(shù)據(jù)測(cè)試、模型評(píng)估和比較等工具,幫助客戶充分利用數(shù)據(jù)資產(chǎn)生成式AI、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)ScaleDonovan服務(wù)于國(guó)家安全的人工智能數(shù)字參謀Scale數(shù)據(jù)引擎收集、整理、標(biāo)注數(shù)據(jù)生成式AI數(shù)據(jù)引擎:快速創(chuàng)建經(jīng)過審核的由領(lǐng)域?qū)<揖幹频亩ㄖ聘哔|(zhì)量數(shù)據(jù)集,以訓(xùn)練世界上最先進(jìn)的模型測(cè)試與評(píng)估:持續(xù)測(cè)試和評(píng)估大型語言模型,識(shí)別風(fēng)險(xiǎn),認(rèn)證AI應(yīng)用的安全性公共部門數(shù)據(jù)引擎:為國(guó)防、情報(bào)、民間機(jī)構(gòu)的AI提供數(shù)據(jù)支持智駕數(shù)據(jù)引擎:支持L2-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 七年級(jí)數(shù)學(xué)北師大版上冊(cè)第6章《普查和抽樣調(diào)查》教學(xué)設(shè)計(jì)教案
- 2024北京上莊燃?xì)鉄犭娪邢薰菊衅干a(chǎn)管理部熱控主管筆試參考題庫(kù)附帶答案詳解
- 第13課 現(xiàn)代戰(zhàn)爭(zhēng)與不同文化的碰撞和交流 教學(xué)設(shè)計(jì)-2024-2025學(xué)年高二歷史統(tǒng)編版(2019)選擇性必修3 文化交流與傳播
- 第13課 忠誠(chéng)衛(wèi)士-紅外傳感器和計(jì)數(shù)器的應(yīng)用 教學(xué)設(shè)計(jì) -2023-2024學(xué)年粵教清華版初中信息技術(shù)九年級(jí)下冊(cè)
- 山東省聊城市2023-2024學(xué)年高二上學(xué)期11月期中考試地理試題(解析版)
- 19“設(shè)計(jì)研學(xué)旅行方案”(教學(xué)設(shè)計(jì))2024-2025學(xué)年初中物理項(xiàng)目化課程案例
- 浙教版高中信息技術(shù)必修1教學(xué)設(shè)計(jì)-3.3 多媒體信息處理
- 2025年抗蛇毒血清合作協(xié)議書
- 2025年湖北工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)完美版
- 2025年貴州電子科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)一套
- 2024-2030年紅茶行業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2024Growatt 15000-25000UE古瑞瓦特光伏逆變器用戶手冊(cè)
- 2024年國(guó)家公務(wù)員考試專業(yè)分類專業(yè)目錄
- 家庭醫(yī)生簽約知識(shí)講座課件(共22張課件)
- DL∕T 5032-2018 火力發(fā)電廠總圖運(yùn)輸設(shè)計(jì)規(guī)范
- 國(guó)際留學(xué)合作框架協(xié)議書
- DL-T 297-2023 汽輪發(fā)電機(jī)合金軸瓦超聲檢測(cè)
- JGJT 152-2019 混凝土中鋼筋檢測(cè)技術(shù)標(biāo)準(zhǔn)
- DB3212-T 1157-2024 病案庫(kù)房建設(shè)規(guī)范
- 欠款還款計(jì)劃范文
- QBT 2088-1995 硅藻土行業(yè)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論