版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場分析1.AI基礎(chǔ)數(shù)據(jù)服務(wù)脫胎于專業(yè)數(shù)據(jù)標(biāo)注需求,2025年國內(nèi)百億規(guī)??善?.1產(chǎn)業(yè)圖譜:AI基礎(chǔ)數(shù)據(jù)服務(wù)脫胎于專業(yè)數(shù)據(jù)采標(biāo)分工需求國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)主要包括上游數(shù)據(jù)產(chǎn)生及產(chǎn)能資源、中游訓(xùn)練數(shù)據(jù)生產(chǎn)、下游AI算法研發(fā)三大產(chǎn)業(yè)環(huán)節(jié)。其中,部分產(chǎn)業(yè)環(huán)節(jié)重合度較高,AI基礎(chǔ)數(shù)據(jù)服務(wù)商主要脫胎于專業(yè)數(shù)據(jù)采標(biāo)分工需求。上游主要包括數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)生產(chǎn)組織者,主要提供原料數(shù)據(jù)的采集服務(wù)。中游主要由基礎(chǔ)數(shù)據(jù)服務(wù)商構(gòu)成,通過數(shù)據(jù)處理能力和項(xiàng)目管理能力完成訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)加工和質(zhì)量檢測等工作,為下游客戶提供訓(xùn)練數(shù)據(jù)產(chǎn)品和相關(guān)服務(wù)。AI基礎(chǔ)數(shù)據(jù)服務(wù)整體可分為兩大類,一種是具備自有的標(biāo)注基地或全職標(biāo)注團(tuán)隊(duì),這類企業(yè)也參與產(chǎn)業(yè)上游部分直接提供產(chǎn)能資源,另一種是依靠眾包或外包模式,專注于數(shù)據(jù)產(chǎn)品的開發(fā)與項(xiàng)目執(zhí)行。下游包括科技公司、行業(yè)企業(yè)、AI公司和科研單位等,主要負(fù)責(zé)算法研發(fā)。部分下游AI公司擁有自主的標(biāo)注工具,也可通過AI中臺(tái)獲取一些通用標(biāo)注工具,少數(shù)數(shù)據(jù)需求大的企業(yè)還孵化了自主的數(shù)據(jù)服務(wù)團(tuán)隊(duì)。1.2發(fā)展歷程:站在人工標(biāo)注市場出清與機(jī)器標(biāo)注迭代的十字路口理論層面:數(shù)據(jù)工程系A(chǔ)I工程基礎(chǔ)環(huán)節(jié),核心在于高效的數(shù)據(jù)標(biāo)注。AI工程=數(shù)據(jù)工程+模型工程。其中,數(shù)據(jù)工程主要包括數(shù)據(jù)采集與數(shù)據(jù)標(biāo)注,約占AI工程時(shí)長的80%;模型工程主要包括模型訓(xùn)練與模型部署,約占AI工程時(shí)長的20%。數(shù)據(jù)工程是AI工程的前置且基礎(chǔ)環(huán)節(jié),直接影響到模型的質(zhì)量與精度。數(shù)據(jù)工程的核心在于高效的數(shù)據(jù)標(biāo)注,Garbageingarbageout效應(yīng)顯著。實(shí)踐層面:AI模型訓(xùn)練數(shù)據(jù)需求規(guī)模大,訓(xùn)練數(shù)據(jù)質(zhì)量不佳、效率低下情況普遍。據(jù)DimensionalResearch全球調(diào)研報(bào)告,72%的受訪者認(rèn)為至少使用超過10萬條訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,才能保證模型有效性和可靠性,96%的受訪者在訓(xùn)練模型的過程中遇到訓(xùn)練數(shù)據(jù)質(zhì)量不佳、數(shù)量不足、數(shù)據(jù)標(biāo)注人員不足等難題。為應(yīng)對訓(xùn)練數(shù)據(jù)所帶來的多方面挑戰(zhàn),AI企業(yè)開始從第三方購買原料數(shù)據(jù)收集、訓(xùn)練數(shù)據(jù)生產(chǎn)和數(shù)據(jù)專家咨詢等服務(wù)。AI數(shù)據(jù)工程發(fā)軔于AI產(chǎn)業(yè)落地元年,系A(chǔ)I下游應(yīng)用的基礎(chǔ)且必備環(huán)節(jié)。目前行業(yè)處于市場格局漸趨清晰,新老技術(shù)面臨迭代,下游需求加速釋放的關(guān)鍵節(jié)點(diǎn)。產(chǎn)業(yè)初生期(2010~2016):2010年語音識(shí)別和計(jì)算機(jī)視覺領(lǐng)域產(chǎn)生重大突破,國內(nèi)開始萌生AI概念。后續(xù)數(shù)年,早期的AI基礎(chǔ)數(shù)據(jù)服務(wù)門檻較低,質(zhì)量參差不齊。產(chǎn)生成長期(2016~2022):近五年來,供給側(cè)高烈度的業(yè)內(nèi)競爭加速市場出清,需求側(cè)對產(chǎn)業(yè)落地以及垂直場景的定制化數(shù)據(jù)采標(biāo)需求逐漸凸顯。最終引致行業(yè)頭部企業(yè)浮出水面,行業(yè)格局逐漸清晰。產(chǎn)業(yè)成熟期(2022~至今):2022年以來,AIGC產(chǎn)品集中爆發(fā),高level自動(dòng)駕駛需求加速釋放。傳統(tǒng)人工標(biāo)注的效率已不能完全滿足算法需求,行業(yè)護(hù)城河轉(zhuǎn)向自動(dòng)化機(jī)器標(biāo)注技術(shù),預(yù)計(jì)產(chǎn)業(yè)將進(jìn)入向技術(shù)要市場的新階段。1.3市場規(guī)模:AI快速落地疊加數(shù)據(jù)量指數(shù)級(jí)躍升,2025年國內(nèi)百億規(guī)??善趪鴥?nèi)AI市場規(guī)模超百億美金,約占全球市場10%份額。目前,AI已在金融、醫(yī)療、交通、安防等多個(gè)垂直場景深度落地,且應(yīng)用場景拓展勢能強(qiáng)勁,商業(yè)化進(jìn)程加速。從全球市場看,據(jù)IDC,2021年全球AI產(chǎn)業(yè)規(guī)模達(dá)885.7億美元,預(yù)計(jì)2025年將達(dá)到2,218.7億美元,CAGR高達(dá)25.8%。從國內(nèi)市場看,據(jù)IDC,2022年我國AI產(chǎn)業(yè)規(guī)模或達(dá)116億美元,預(yù)計(jì)未來數(shù)年仍保持兩位數(shù)增長。以2021年計(jì),國內(nèi)AI市場規(guī)模約占全球10%,國內(nèi)市場成長潛力巨大,國內(nèi)企業(yè)出海空間廣闊。全球數(shù)據(jù)量呈指數(shù)式增長,中國數(shù)據(jù)量增速跑贏全球。據(jù)IDC,全球每年生產(chǎn)的數(shù)據(jù)量將從2018年的33ZB猛增至2025年的175ZB,其中結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),日志文件、機(jī)器數(shù)據(jù)等占非結(jié)構(gòu)化數(shù)據(jù)的90%,產(chǎn)生了源源不斷的數(shù)據(jù)清洗與標(biāo)注需求。相比之下,中國的數(shù)據(jù)量增速領(lǐng)跑全球,平均每年增速比全球快3%。2018年,中國的數(shù)據(jù)量為7.6ZB,占全球總量的23.4%,預(yù)計(jì)到2025年將增至48.6ZB,占全球總量的27.8%,CAGR高達(dá)30.4%。中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)模2025年有望突破百億。一方面,隨著算法模型、技術(shù)理論和應(yīng)用場景的優(yōu)化和創(chuàng)新,AI產(chǎn)業(yè)對訓(xùn)練數(shù)據(jù)的拓展性需求和前瞻性需求均快速增長;另一方面,隨著業(yè)內(nèi)對訓(xùn)練數(shù)據(jù)需求類型的增加以及對服務(wù)標(biāo)準(zhǔn)要求的提高,產(chǎn)業(yè)鏈的專業(yè)化分工將愈加清晰,專業(yè)化的訓(xùn)練數(shù)據(jù)服務(wù)提供商將扮演更加重要的角色。據(jù)研究,2019年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)模達(dá)30.9億元,其中圖像類、語音類、NLP類數(shù)據(jù)需求規(guī)模占比分別為49.7%、39.1%和11.2%。預(yù)計(jì)2025年國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)模將突破100億元,年復(fù)合增長率高達(dá)21.8%。1.4政策支持:近五年國家政策加持國內(nèi)AI產(chǎn)業(yè)發(fā)展近五年國家系列政策推動(dòng)國內(nèi)AI產(chǎn)業(yè)蓬勃發(fā)展?!丁笆奈濉币?guī)劃》指出要加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國,同時(shí)打造數(shù)字經(jīng)濟(jì)新優(yōu)勢,充分發(fā)揮海量數(shù)據(jù)和豐富應(yīng)用場景優(yōu)勢,促進(jìn)數(shù)字技術(shù)與實(shí)體經(jīng)濟(jì)深度融合,賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升,催生新產(chǎn)業(yè)新業(yè)態(tài)新模式,壯大經(jīng)濟(jì)發(fā)展新引擎。在國家頂層設(shè)計(jì)的支持下,我國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)穩(wěn)步發(fā)展,行業(yè)訓(xùn)練資源庫等細(xì)分應(yīng)用領(lǐng)域的產(chǎn)業(yè)價(jià)值逐步凸顯。2.AI大模型催生高要求新需求,專業(yè)化數(shù)據(jù)集及AI訓(xùn)練師需求利好優(yōu)質(zhì)專業(yè)數(shù)據(jù)提供廠商2.1場景特質(zhì):AI大模型時(shí)代無監(jiān)督/半監(jiān)督訓(xùn)練成為主流,RLHF催生新興需求大模型時(shí)代無監(jiān)督/半監(jiān)督訓(xùn)練成為主流。AI模型的訓(xùn)練方法主要包括監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種典型方式,后隨模型訓(xùn)練數(shù)據(jù)量的增加衍生出半監(jiān)督學(xué)習(xí)方法。AI訓(xùn)練方法的發(fā)展歷經(jīng)“監(jiān)督-無監(jiān)督-監(jiān)督-無監(jiān)督/半監(jiān)督”4個(gè)階段,在目前的大模型階段,無監(jiān)督/半監(jiān)督訓(xùn)練再次成為主流。監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的主要區(qū)別在于是否使用帶有人工標(biāo)注的數(shù)據(jù)集訓(xùn)練數(shù)據(jù),半監(jiān)督學(xué)習(xí)則是使用大量未標(biāo)注數(shù)據(jù)+少量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。大模型時(shí)代“基礎(chǔ)模型+微調(diào)”成為AI開發(fā)新范式,RLHF微調(diào)技術(shù)催生更高要求的數(shù)據(jù)標(biāo)注需求。AI大模型由海量數(shù)據(jù)通過無監(jiān)督學(xué)習(xí)訓(xùn)練得到,本身并不能直接應(yīng)用于具體任務(wù),必須經(jīng)過微調(diào)才可投入應(yīng)用。微調(diào)是指基于大規(guī)?;A(chǔ)模型,在現(xiàn)有訓(xùn)練得到的模型參數(shù)之上,針對特定任務(wù)類型、應(yīng)用特定場景的數(shù)據(jù)對模型進(jìn)行二次訓(xùn)練。通俗來說,大規(guī)?;A(chǔ)模型為AI提供了基礎(chǔ)知識(shí),而微調(diào)則是讓AI獲特定領(lǐng)域知識(shí),并賦予其組織、應(yīng)用知識(shí)的能力。以近日備受關(guān)注的ChatGPT為例,在其微調(diào)技術(shù)RLHF(強(qiáng)人工反饋)系統(tǒng)當(dāng)中:第一步,預(yù)訓(xùn)練階段。模型首先需要在標(biāo)注完備的大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到監(jiān)督學(xué)習(xí)模型。第二步,交互獎(jiǎng)勵(lì)階段。模型與專業(yè)的人工智能訓(xùn)練師進(jìn)行交互,專業(yè)標(biāo)注人員會(huì)對ChatGPT生成的回答進(jìn)行標(biāo)注、評估和反饋,給出一個(gè)針對回答的分?jǐn)?shù)或者標(biāo)簽。這些標(biāo)注數(shù)據(jù)可以作為強(qiáng)化學(xué)習(xí)過程中的“獎(jiǎng)勵(lì)函數(shù)”來指導(dǎo)ChatGPT的參數(shù)調(diào)整,得到獎(jiǎng)勵(lì)模型。第三步,迭代優(yōu)化階段?;讵?jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)函數(shù)以PPO(一種使用兩個(gè)神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法)的方式微調(diào)監(jiān)督學(xué)習(xí)訓(xùn)練出來的生成模型,基于強(qiáng)化學(xué)習(xí)loss持續(xù)迭代生成模型,最終幫助模型進(jìn)行強(qiáng)化學(xué)習(xí)和不斷優(yōu)化。2.2場景需求:預(yù)訓(xùn)練階段高質(zhì)量專業(yè)數(shù)據(jù)集+交互獎(jiǎng)勵(lì)階段人工智能訓(xùn)練師伴隨業(yè)界大模型市場競爭的白熱化,RLHF系統(tǒng)也將得到進(jìn)一步的推廣及迭代使用,從而帶來兩大類新興數(shù)據(jù)標(biāo)注需求。一是預(yù)訓(xùn)練階段催生AI廠商對于標(biāo)注完善、清洗完備的各類專業(yè)化場景數(shù)據(jù)集的需求;二是交互獎(jiǎng)勵(lì)階段催生AI廠商對于具備專業(yè)的事實(shí)判斷與規(guī)范的價(jià)值判斷的人工智能訓(xùn)練師的需求。目前,上述兩類新興需求尚未得到充分有效的市場供給,利好海天瑞聲這類優(yōu)質(zhì)專業(yè)數(shù)據(jù)解決方案提供商。針對RLHF預(yù)訓(xùn)練階段需求,由于傳統(tǒng)數(shù)據(jù)采標(biāo)廠商的主流商業(yè)模式以銷售工具系統(tǒng)和標(biāo)注服務(wù)為主,所以普遍缺少自有數(shù)據(jù),較少經(jīng)營出售精準(zhǔn)數(shù)據(jù)集的服務(wù)。針對RLHF交互獎(jiǎng)勵(lì)階段需求,聚焦專業(yè)垂類的模型訓(xùn)練師則更為稀缺,市場藍(lán)海亟待業(yè)務(wù)開拓。2.3場景價(jià)值:超大規(guī)模預(yù)訓(xùn)練模型推動(dòng)訓(xùn)練數(shù)據(jù)數(shù)級(jí)躍升,市場需求持續(xù)延展超大規(guī)模預(yù)訓(xùn)練模型推動(dòng)訓(xùn)練數(shù)據(jù)指數(shù)級(jí)躍升。自O(shè)penAI于2020年推出GPT-3以來,谷歌、華為、智源研究院、中科院、阿里巴巴等企業(yè)和研究機(jī)構(gòu)相繼推出超大規(guī)模預(yù)訓(xùn)練模型,包括SwitchTransformer、DALL·EMT-NLG、盤古、悟道2.0、紫東太初和M6等。目前,預(yù)訓(xùn)練模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模按照300倍/年的趨勢增長,繼續(xù)通過增大模型和增加訓(xùn)練數(shù)據(jù)仍是短期內(nèi)主流演進(jìn)方向,RLHF技術(shù)的推廣使用或?qū)⑼苿?dòng)訓(xùn)練數(shù)據(jù)市場需求持續(xù)延展。3.自動(dòng)駕駛領(lǐng)域訓(xùn)練數(shù)據(jù)需求方興未艾,海天瑞聲發(fā)力布局3.1場景特質(zhì):自動(dòng)駕駛客戶需求全棧式閉環(huán)數(shù)據(jù)解決方案自動(dòng)駕駛場景對于AI數(shù)據(jù)服務(wù)需求較為剛性。自動(dòng)駕駛基礎(chǔ)數(shù)據(jù)主要是道路交通圖像、障礙物圖像、車輛行駛環(huán)境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主。L3級(jí)別以上的自動(dòng)駕駛系統(tǒng)需對雷達(dá)、攝像頭等傳感器采集的點(diǎn)云和圖像數(shù)據(jù)進(jìn)行抽取、處理和融合,構(gòu)建車輛行駛環(huán)境,為預(yù)測和決策做依據(jù)。目前自動(dòng)駕駛的視覺技術(shù)主要應(yīng)用有監(jiān)督的深度學(xué)習(xí),是基于已知變量和因變量推導(dǎo)函數(shù)關(guān)系的算法模型,需要大量的標(biāo)注數(shù)據(jù)對模型進(jìn)行訓(xùn)練和調(diào)優(yōu)。近幾年,汽車廠商在ADAS和自動(dòng)駕駛方向的投入明顯,對于數(shù)據(jù)的采集和標(biāo)注需求也逐年增加,汽車廠商有望成為需求主力。自動(dòng)駕駛領(lǐng)域?qū)τ诨A(chǔ)數(shù)據(jù)服務(wù)商提出更高要求,業(yè)內(nèi)客戶需要全棧式閉環(huán)數(shù)據(jù)解決方案。數(shù)據(jù)獲取和處理能力是自動(dòng)駕駛企業(yè)的核心競爭要素之一,自動(dòng)駕駛能力取決于高效的數(shù)據(jù)閉環(huán)和數(shù)據(jù)的利用效率,并能利用大量有效數(shù)據(jù)訓(xùn)練智能駕駛算法。因此,自動(dòng)駕駛客戶要求數(shù)據(jù)服務(wù)商能夠提供閉環(huán)數(shù)據(jù)解決方案,以滿足智能駕駛業(yè)務(wù)數(shù)據(jù)處理量大、數(shù)據(jù)處理需求迭代頻次高等特點(diǎn),專業(yè)知識(shí)、服務(wù)經(jīng)驗(yàn)及準(zhǔn)入資質(zhì)將成為衡量的重要標(biāo)準(zhǔn)。3.2場景需求:自動(dòng)駕駛領(lǐng)域數(shù)據(jù)標(biāo)注分為2D圖像標(biāo)注與3D點(diǎn)云標(biāo)注自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)可分為車載攝像頭采集的2D圖像數(shù)據(jù)和激光雷達(dá)采集的3D點(diǎn)云數(shù)據(jù)。一般而言,低level的自動(dòng)駕駛技術(shù)以2D圖像數(shù)據(jù)為主,3D點(diǎn)云標(biāo)注數(shù)據(jù)是中高level自動(dòng)駕駛技術(shù)的基礎(chǔ)訓(xùn)練數(shù)據(jù),在自動(dòng)駕駛領(lǐng)域中發(fā)揮著愈發(fā)重要的作用。3D點(diǎn)云標(biāo)注數(shù)據(jù)在自動(dòng)駕駛領(lǐng)域的應(yīng)用可以分為兩個(gè)方面,一是基于場景理解和目標(biāo)檢測的實(shí)時(shí)環(huán)境感和處理,二是SLAM(即時(shí)定位與地圖構(gòu)建)加強(qiáng)定位。2D標(biāo)注:通過精確理解來自可見光攝像頭的信息,尋找能夠創(chuàng)建用于目標(biāo)物體的可擴(kuò)展邊界框。3D點(diǎn)云標(biāo)注:通過識(shí)別和跟蹤場景中的對象,了解汽車前方和周圍的場景。將點(diǎn)云數(shù)據(jù)和視頻流合并到要標(biāo)注的場景中。視頻對象和事件跟蹤3D點(diǎn)云標(biāo)注:鎖定隨時(shí)間移動(dòng)的對象,并標(biāo)注時(shí)間事件。在多幀視頻和LiDar場景中跟蹤進(jìn)入和離開本體中的關(guān)注區(qū)域的對象(如其他汽車和行人)。在整個(gè)視頻中,無論對象進(jìn)入和離開視線的頻率如何,都會(huì)保持對其特性的一致理解。3.3場景價(jià)值:自動(dòng)駕駛訓(xùn)練數(shù)據(jù)市場方興未艾,2025年國內(nèi)市場規(guī)?;蜻_(dá)25億元自動(dòng)駕駛約占我國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模的35%,2025年市場規(guī)模或達(dá)25億元。自動(dòng)駕駛的視覺技術(shù)主要應(yīng)用于有監(jiān)督的深度學(xué)習(xí),需要大量的標(biāo)注數(shù)據(jù)對模型進(jìn)行訓(xùn)練和調(diào)優(yōu)。目前該領(lǐng)域的數(shù)據(jù)采集和標(biāo)注需求已成為AI基礎(chǔ)數(shù)據(jù)服務(wù)的主要下游之一。據(jù)IDC,2020年我國自動(dòng)駕駛領(lǐng)域占AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模的35%,系第一大下游場景。另據(jù)研究,2025年我國自動(dòng)駕駛AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)?;蜻_(dá)24.9億元,預(yù)計(jì)18~25年CAGR高達(dá)23.2%,跑贏AI基礎(chǔ)數(shù)據(jù)服務(wù)整體增速21.8%。4.國內(nèi)市場集中度趨勢性收斂,海天瑞聲具備領(lǐng)先優(yōu)勢4.1發(fā)展趨勢:品牌商價(jià)值效應(yīng)凸顯,國內(nèi)市場集中度持續(xù)收斂品牌數(shù)據(jù)服務(wù)商未來將替代中小型供應(yīng)商成為市場主要供應(yīng)力量。我國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)主要市場主體包括需求方自建基礎(chǔ)數(shù)據(jù)團(tuán)隊(duì)與基礎(chǔ)數(shù)據(jù)服務(wù)商(品牌數(shù)據(jù)服務(wù)商、中小數(shù)據(jù)服務(wù)商)。截至2019年,中小數(shù)據(jù)供應(yīng)商是主要供應(yīng)力量,占比高達(dá)47%。其中百度眾包、海天瑞聲分居top2,占比分別為11.0%、8.0%,2019年行業(yè)CR5僅為26.2%。結(jié)合本文1.2部分分析可知,近年間需求端垂直場景及專業(yè)化需求凸顯,業(yè)務(wù)門檻提高;供給端競爭加劇擠壓中低端業(yè)務(wù)利潤空間,加速市場出清。預(yù)計(jì)當(dāng)前我國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場主要以品牌數(shù)據(jù)供應(yīng)商與需求方自建團(tuán)隊(duì)為主,行業(yè)龍頭逐漸浮出水面,中小供應(yīng)商份額顯著下降。業(yè)內(nèi)品牌數(shù)據(jù)商包括海外巨頭Appen、國內(nèi)領(lǐng)軍廠商海天瑞聲、慧聽數(shù)據(jù)、標(biāo)貝科技等:Appen:1996年成立于澳大利亞,面向機(jī)器學(xué)習(xí)和人工智能開發(fā)的高質(zhì)量人工標(biāo)注數(shù)據(jù)集,于2015年1月于澳大利亞證券交易所上市。Appen在采集并豐富語音、文字、圖像和視頻等各種數(shù)據(jù)類型上積累多年經(jīng)驗(yàn),與全球技術(shù)、汽車和電子商務(wù)公司,以及政府部門建立了合作。海天瑞聲:成立于2005年,是國內(nèi)領(lǐng)先的訓(xùn)練數(shù)據(jù)提供商。主要從事訓(xùn)練數(shù)據(jù)的研發(fā)設(shè)計(jì)、生產(chǎn)及銷售業(yè)務(wù)。目前已成為同時(shí)具備核心技術(shù)、產(chǎn)品資源、優(yōu)質(zhì)客戶為一體的本土訓(xùn)練數(shù)據(jù)提供企業(yè)。核心收入來源為數(shù)據(jù)資源定制服務(wù)?;勐牽萍迹撼闪⒂?011年,業(yè)務(wù)包括語音識(shí)別、語音合成、語音評測、語言文本類、多媒體類等多領(lǐng)域數(shù)據(jù)制作,以及語音合成、語音識(shí)別、輸入法系統(tǒng)的研發(fā)等。公司提供服務(wù)涵蓋語音訓(xùn)練數(shù)據(jù)制作、音樂數(shù)據(jù)制作標(biāo)注、語音質(zhì)量評測等,經(jīng)營模式包括定制開發(fā)和自有訓(xùn)練數(shù)據(jù)產(chǎn)品銷售。標(biāo)貝科技:成立于2016年,主要提供智能語音交互相關(guān)服務(wù),包括語音合成整體解決方案,以及語音合成、語音識(shí)別、圖像識(shí)別等數(shù)據(jù)服務(wù),經(jīng)營模式包括定制開發(fā)和自有訓(xùn)練數(shù)據(jù)產(chǎn)品銷售。4.2競爭格局:業(yè)內(nèi)主要玩家發(fā)展各有側(cè)重,Appen及海天瑞聲具備領(lǐng)先優(yōu)勢據(jù)IDC,2021年海天瑞聲在國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市占率高達(dá)12.9%,位居第一。其技術(shù)實(shí)力、語種/方言覆蓋能力、專利及軟著數(shù)量、成品訓(xùn)練集數(shù)量均位居行業(yè)前列。相比之下,Appen在覆蓋區(qū)域、語種/方言覆蓋能力等方面更具優(yōu)勢?;勐牽萍寂c標(biāo)貝科技則在音樂領(lǐng)域具備差異化業(yè)務(wù)覆蓋能力。在語音類數(shù)據(jù)產(chǎn)品中,海天瑞聲在結(jié)構(gòu)方面的差異主要體現(xiàn)在覆蓋的噪聲類型、錄音通道數(shù)量、錄音文本內(nèi)容類型等方面。相比之下,海天瑞聲的訓(xùn)練數(shù)據(jù)產(chǎn)品結(jié)構(gòu)整體而言可覆蓋更豐富的錄音文本內(nèi)容類型、噪音環(huán)境類型、錄音通道數(shù)量,Appen則在稀有語言覆蓋數(shù)量上更勝一籌。在自然語言訓(xùn)練數(shù)據(jù)產(chǎn)品中,不同自然語言訓(xùn)練數(shù)據(jù)產(chǎn)品的結(jié)構(gòu)差異主要體現(xiàn)在文本來源、內(nèi)容、標(biāo)注屬性等方面。Appen具備更為豐富的產(chǎn)品數(shù)量與更為全面的語言覆蓋能力,海天瑞聲在上述指標(biāo)上緊隨其后。在計(jì)算機(jī)視覺訓(xùn)練數(shù)據(jù)產(chǎn)品中,海天瑞聲在結(jié)構(gòu)方面的差異主要體現(xiàn)在人像識(shí)別檢測相關(guān)數(shù)據(jù)產(chǎn)品領(lǐng)域。主要玩家均可覆蓋不同類型的人臉、姿勢、場景等,因計(jì)算機(jī)視覺數(shù)據(jù)產(chǎn)品個(gè)性化特征較強(qiáng),各類訓(xùn)練數(shù)據(jù)產(chǎn)品在具體的人臉類型、姿勢范圍、場景等方面具備一定差異。與Appen相比,海天瑞聲的OCR訓(xùn)練數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技賦能社團(tuán)管理
- 2025年度茶葉行業(yè)培訓(xùn)與職業(yè)資格認(rèn)證合同4篇
- 海南省安全員C證理論考試試題
- 2025年度虛擬貨幣交易平臺(tái)授權(quán)銷售合同4篇
- 2024瓦采購合同范本:屋頂綠化瓦材采購規(guī)范3篇
- 2025年度“生態(tài)保護(hù)”菜園生態(tài)補(bǔ)償機(jī)制合同3篇
- 2024版精裝房裝修施工合同
- 2024消防專業(yè)工程分包合同范本
- 2024版水土保持服務(wù)合同范本
- 2025年度新型城鎮(zhèn)化建設(shè)項(xiàng)目合同樣本4篇
- 馬場項(xiàng)目商業(yè)計(jì)劃書
- 《壓力性尿失禁》課件
- 國企綜合素質(zhì)測評試題
- 肺功能檢查的操作與結(jié)果解讀
- 松遼盆地南部致密砂巖儲(chǔ)層成因與天然氣聚集模式研究的中期報(bào)告
- 急性戊肝護(hù)理查房
- 打樣員工作總結(jié)
- JGJT411-2017 沖擊回波法檢測混凝土缺陷技術(shù)規(guī)程
- 某新能源(風(fēng)能)公司:風(fēng)電場崗位月度績效考評管理辦法
- 污水管網(wǎng)溝槽槽鋼支護(hù)專項(xiàng)方案
- 深靜脈血栓(DVT)課件
評論
0/150
提交評論