中國人工智能-機器學習產(chǎn)業(yè)分析_第1頁
中國人工智能-機器學習產(chǎn)業(yè)分析_第2頁
中國人工智能-機器學習產(chǎn)業(yè)分析_第3頁
中國人工智能-機器學習產(chǎn)業(yè)分析_第4頁
中國人工智能-機器學習產(chǎn)業(yè)分析_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、中國人工智能-機器學習產(chǎn)業(yè)分析技術創(chuàng)新,變革未來2022.1 .1211571585199824763106385948696050382156877695939617362140441160521077201920202025e2026e2021e2022e核心產(chǎn)品市場規(guī)模(億元)2023e2024e帶動相關產(chǎn)業(yè)規(guī)模(億元)人工智能產(chǎn)業(yè)規(guī)模視覺市場筑起主要版圖,頭部規(guī)模聚集效應顯現(xiàn)人工智能產(chǎn)業(yè)正從發(fā)展期向成熟期過渡,除AI芯片外的細分技術賽道產(chǎn)業(yè)已跨過高速增長期,步入了穩(wěn)步增長階段。 2021年人工智能核心產(chǎn)業(yè)規(guī)模預計達到1998億元規(guī)模,相應規(guī)模將于2026年超過6000億元,2021年到

2、2026年的CAGR 為24.8%,計算機視覺仍是AI技術賽道中貢獻最大的市場。然而,隨著下游各方數(shù)字化發(fā)展的意識不斷加強,其對數(shù)據(jù)這 一AI模型生產(chǎn)要素的要求也在不斷變高,采購含有機器學習技術的數(shù)據(jù)類產(chǎn)品的需求暴露與凸顯,在一定程度上帶動了機 器學習市場。除AI技術賽道外,AI芯片作為底層算力資源的關鍵硬件,其2021-2026年的CAGR在維持40%以上,是拉動 整體產(chǎn)業(yè)規(guī)模增速的重要拉力。從參與者類型看,我們判斷大約30%-45%的市場仍為人工智能創(chuàng)業(yè)企業(yè)所占據(jù),且隨著 頭部人工智能企業(yè)沖刺科創(chuàng)板或港股市場的進步,其市場份額會進一步擴大,市場份額的高地也會進一步為頭部人工智能 企業(yè)所占領

3、。從外圍賽道入場的互聯(lián)網(wǎng)公司、云服務公司、大數(shù)據(jù)公司、信息技術服務公司、通信設備公司以及個別科研院所則切分其余市場。注釋:核心規(guī)模包括計算機視覺、智能語音、對話式AI、機器學習(含自動駕駛)、知識圖譜、自然語言處理、AI芯片等核心產(chǎn)業(yè);帶動規(guī)模為為達到AI應用目的而連帶采購的、具 有相關性的軟硬件產(chǎn)品、服務。來源:研究院根據(jù)專家訪談與桌研自主建模研究繪制。CAGR=24.8%CAGR=22.3%2019-2026年中國人工智能產(chǎn)業(yè)規(guī)模13人工智能產(chǎn)業(yè)圖譜注釋:以企業(yè)主營業(yè)務為主。圖譜中所展示的公司logo順序及大小并無實際意義,不涉及排名。 來源:研究院根據(jù)公開資料研究繪制。2021年中國人工

4、智能產(chǎn)業(yè)圖譜人工智能基礎層人工智能技術層AI 框架AI 開放平臺商用版 AI 應 用模型效率 化生產(chǎn)平臺AI 算力基礎AI 芯片 (Fabless)智能服務器與 高性能計算中心智能云AI 數(shù)據(jù)資源管理技 術 及 應 用 標 準 與 規(guī) 范科 研 學 術 機 構 與 各 層 次 人 才通 信 與 信 息 網(wǎng) 絡數(shù) 據(jù) 存 儲 設 施物聯(lián)網(wǎng) 與微型傳 感器關鍵通用技術機器學習知識圖譜關鍵領域技術計算機視覺語音識別自然語言處理人工智能應用層城市公共事業(yè)、企業(yè)級客戶、消費者AI 基礎數(shù)據(jù)服務大數(shù)據(jù)治理與數(shù)據(jù)智能方舟 先知Brain+AI 模型生產(chǎn)SenseParrotsAI +工業(yè)計 算 機視覺 知識

5、 與決策預 維測 護與對話式AI智 自主無人系統(tǒng)能 汽 車智 能 機 器人 無 人 機AI +零售AI +政務AI +金融AI +泛互聯(lián)網(wǎng)計算機視覺視覺與圖像流程智能規(guī)劃與推薦業(yè)務決策智能 智能搜索客戶服務AI +泛安防AI+醫(yī)療計 算 機 視覺大智 數(shù)能 據(jù)化 醫(yī) 輔 學 助 影 診 像 斷大 決 數(shù) 策 據(jù) 輔 及 助輔 制 助 藥14機器學習本章賽道內(nèi)容分為以下四個部分:賽道背景解讀:在數(shù)字經(jīng)濟大背景下,機器學習作為數(shù)字產(chǎn)業(yè)化的商業(yè)應用與產(chǎn)業(yè)數(shù)字化 的技術工具,迎來了難得的發(fā)展機遇;從資本情況看,融資事件與金額增多,且輪次靠前。產(chǎn)業(yè)規(guī)模解讀:核心產(chǎn)品市場規(guī)模與帶動相關產(chǎn)業(yè)規(guī)模處于增量爬升

6、階段,存量市場尚未形成,大數(shù)據(jù)類產(chǎn)品與機器學習平臺的軟件部分為主要核心產(chǎn)品類型,下游市場以金融、 工業(yè)、醫(yī)療、自動駕駛及互聯(lián)網(wǎng)為主。商業(yè)模式趨勢解讀:中短期內(nèi),業(yè)內(nèi)玩家以決策智能為發(fā)力點,構建機器學習平臺,提供 定制化解決方案,服務于甲方企業(yè)生產(chǎn)經(jīng)營的決策管理。未來,機器學習平臺與數(shù)據(jù)治理 類產(chǎn)品的邊界將被打破與連接,二者將以一體化的趨勢向前發(fā)展;MLOps作為機器學習的 DevOps,將服務于機器學習生命周期全流程,提升模型敏捷開發(fā)效率與管理運行效率。大模型落地方法論探討:大模型作為新興的通用化產(chǎn)品形式而廣受追捧,但其應用落地存 在諸多卡點,因而大小模型云-邊-端協(xié)同的發(fā)展模式被提出。 Ma

7、chine Learning數(shù)字經(jīng)濟為機器學習創(chuàng)造發(fā)展機遇數(shù)字經(jīng)濟時代來臨,企業(yè)數(shù)據(jù)意識覺醒數(shù)字技術的發(fā)展與應用,使得各類社會生產(chǎn)活動能以數(shù)字化方式生成為可記錄、可存儲、可交互、可分析的數(shù)據(jù)、信息與 知識,數(shù)據(jù)由此成為當代社會的新生產(chǎn)資料和關鍵生產(chǎn)要素。與傳統(tǒng)經(jīng)濟相比,數(shù)字經(jīng)濟的蓬勃發(fā)展為生產(chǎn)要素、生產(chǎn)力 和生產(chǎn)關系賦予了新的內(nèi)涵與活力,其在推動勞動工具數(shù)字化的同時,也構建了共享合作的生產(chǎn)關系,如API經(jīng)濟、平臺 經(jīng)濟等合作模式得到廣泛認可與推廣。在此背景下,加快推動數(shù)字產(chǎn)業(yè)化、推進產(chǎn)業(yè)數(shù)字化轉型成為了企業(yè)順應時代發(fā)展、 打造數(shù)字化優(yōu)勢的主動選擇,而機器學習作為數(shù)字產(chǎn)業(yè)化的商業(yè)應用與產(chǎn)業(yè)數(shù)字化

8、的技術工具,迎來了難得的發(fā)展機遇。 這一機遇體現(xiàn)在企業(yè)的數(shù)據(jù)意識覺醒并采購數(shù)字解決方案或應用中。諸多企業(yè)開始構建數(shù)倉、數(shù)據(jù)中臺、數(shù)據(jù)平臺等與數(shù) 據(jù)治理有關的項目,并基于已治理好的數(shù)據(jù),構建各類“數(shù)字+AI”應用。而無論是數(shù)據(jù)治理這一過程,還是“數(shù)字+AI” 應用,都離不開機器學習這一最基礎的AI算法工具。注釋:數(shù)字產(chǎn)業(yè)化為數(shù)據(jù)要素的產(chǎn)業(yè)化、商業(yè)化和市場化;產(chǎn)業(yè)數(shù)字化指利用現(xiàn)代數(shù)字 信息技術、先進互聯(lián)網(wǎng)和AI技術對傳統(tǒng)產(chǎn)業(yè)進行全方位、全角度、全鏈條改造,使數(shù)字 技術與實體經(jīng)濟各行各業(yè)深度融合發(fā)展。來源:研究院根據(jù)中國信通院發(fā)布數(shù)據(jù)自主研究繪制。來源:研究院根據(jù)公開資料自主研究繪制。 2015-2

9、020年中國數(shù)字經(jīng)濟內(nèi)部結構變化產(chǎn)業(yè)數(shù)字化步伐逐漸加快,主導地位凸顯電子商務、API經(jīng)濟、平臺經(jīng)濟等數(shù)字化商業(yè)模式涌現(xiàn)機器 學習機器學習應用于企業(yè)數(shù)據(jù)業(yè)務多源 異構 數(shù)據(jù)企業(yè) 數(shù)據(jù)外部 數(shù)據(jù)結構化 數(shù)據(jù)業(yè)務 應用新數(shù) 據(jù)數(shù)據(jù)采集 與清洗數(shù)據(jù) 治理價值化 數(shù)據(jù)數(shù)據(jù) 應用產(chǎn)生入庫74.3%77.0%77.4%79.5%80.2%80.9%25.7%23.0%22.6%20.5%19.8%19.1%20 1520 1620 1920 2020 17產(chǎn)業(yè)數(shù)字化20 18數(shù)字產(chǎn)業(yè)化15融資情況工業(yè)賽道收獲高度資本青睞,總體輪次靠前2018年到2021年11月,中國機器學習累計總融資事件數(shù)為221起,總融

10、資金額為294.9億元。相較于往期,2021年中國 機器學習的融資情況為統(tǒng)計期內(nèi)融資事件最多、金額最大的時間節(jié)點。十四五規(guī)劃發(fā)布以來,新基建作為國家的重點戰(zhàn)略 發(fā)展方向驅(qū)動著工業(yè)互聯(lián)網(wǎng)的發(fā)展,機器學習則作為工業(yè)互聯(lián)網(wǎng)的必要支撐技術獲得了眾多資本的青睞,其中代表性融資 案例為國家級的工業(yè)互聯(lián)網(wǎng)公共服務平臺企業(yè)航天云網(wǎng),于2021年3月獲得26.3億元的大額融資,該金額占2019年 融資總額的77.6%。此外,中國機器學習的融資輪次主要集中在A+輪及以前,占累計融資事件數(shù)的49.8%,這意味著機 器學習市場并未定型,賽道中還活躍著諸多新參與者。在13.9%的C輪及以后融資事件中,不乏數(shù)據(jù)治理企業(yè)(

11、含數(shù)據(jù)中 臺與數(shù)據(jù)平臺)、新藥研發(fā)企業(yè),也有以機器學習為行業(yè)標簽的頭部玩家。來源:研究院根據(jù)各融資網(wǎng)站數(shù)據(jù)調(diào)整與處理繪制。來源:研究院根據(jù)各融資網(wǎng)站數(shù)據(jù)調(diào)整與處理繪制。2018-2021年11月中國機器學習融資事件數(shù)與融資金額情況75298355.93433.972.7132.420182019融資事件(起)20202021.1-11融資金額(億元)49.8%23.6%13.9%2018-2021年11月中國機器學習融資輪次情況12.7%A+輪及以前 C輪及以后PreB輪到B+輪戰(zhàn)略、并購、股權及未公開1617細分賽道融資熱度注釋:融資熱度根據(jù)事件數(shù)計算;細分賽道熱度與細分賽道業(yè)務表現(xiàn)不完全成

12、正比。 來源:研究院根據(jù)各融資網(wǎng)站數(shù)據(jù)調(diào)整與處理繪制。金融、醫(yī)療、工業(yè)為熱門賽道TOP3在統(tǒng)計時間內(nèi)共有215家企業(yè)獲投,金融、醫(yī)療、工業(yè)為熱門賽道TOP3。金融賽道率先領跑的原因有以下兩點:1)豐富 高質(zhì)的數(shù)據(jù)積累是機器學習發(fā)揮作用的基礎,而金融領域的銀行、保險公司、證券公司等本身就具備良好的信息化基礎與 數(shù)據(jù)積累,因此,金融與機器學習各類模型的契合度高,為機器學習產(chǎn)品提供了生長發(fā)育的天然土壤。2)金融機構普遍 存在營銷獲客難、風險防范難、用戶管理難的業(yè)務痛點,對精準營銷、智能風控、反欺詐、反洗錢等機器學習產(chǎn)品有強烈 需求。2021年醫(yī)療賽道機器學習的大熱得益于新藥研發(fā)與手術機器人。新藥研發(fā)

13、首先要收集各類藥物分子數(shù)據(jù)、臨床試 驗數(shù)據(jù),而后將數(shù)據(jù)輸入機器學習平臺計算藥物結構;手術機器人則需要機器學習增強人機手術協(xié)作、改善手術決策鏈的 各個環(huán)節(jié),提升數(shù)字手術的精度與準確度。在工業(yè)領域,除工業(yè)機器人外,工業(yè)互聯(lián)網(wǎng)平臺亦需要機器學習進行數(shù)據(jù)分析 以完成質(zhì)檢、安全事故監(jiān)測、業(yè)務流程優(yōu)化等。2018-2021年11月中國機器學習融資賽道熱度情況215家獲投47.0%32.6%24.2%15.3% 12.1% 10.7%10.2%7.4%4.7%4.7%3.7%3.3%2.8%0.9%0.9%0.9%0.5%0.5%金融醫(yī)療工業(yè)互聯(lián)網(wǎng)零售營銷政務能源公安電信電力物流交互服務通用技術農(nóng)業(yè)司法環(huán)保

14、教育16722427532939947757870037663158264721791809146810254421201920202025e2026e2021e2022e核心產(chǎn)品市場規(guī)模(億元)2023e2024e帶動相關產(chǎn)業(yè)規(guī)模(億元)機器學習產(chǎn)業(yè)規(guī)模注釋:核心產(chǎn)品市場規(guī)模為機器學習平臺、大數(shù)據(jù)平臺與數(shù)據(jù)中臺中的機器學習模塊部分以及應用解決方案中的機器學習模塊等。帶動規(guī)模為為達到機器學習應用目的,而連帶采購 的、具有相關性的軟硬件產(chǎn)品、服務。核心規(guī)模超270億元,帶動規(guī)模超1800億元機器學習是人工智能的核心內(nèi)容,也是各類算法的根源,其本質(zhì)是函數(shù),可基于大數(shù)據(jù)來推算實際業(yè)務中事件的可能性,

15、 從而幫助甲方企業(yè)進行分析、判斷與決策。在數(shù)字經(jīng)濟背景下,金融、制造、醫(yī)藥等具備數(shù)字化基礎優(yōu)勢的行業(yè)對數(shù)據(jù)應 用的認識正在逐步加深,政務、教育、農(nóng)業(yè)等數(shù)字化水平低的行業(yè)也意識到數(shù)字化發(fā)展的必要性,可以說,各行各業(yè)都正 在計劃、啟動或進行數(shù)字化工程,而該工程是機器學習發(fā)揮價值、拉動機器學習產(chǎn)品及服務的業(yè)務點所在。以此為出發(fā)點, 進行了機器學習市場規(guī)模測算。2021年,我國機器學習產(chǎn)品服務的核心市場規(guī)模將達到275億元,并以20%以上的 年均增速發(fā)展,2026年有望達到700億元,核心規(guī)模在2021-2026年的CAGR為20.6%。而在2021年,我國機器學習產(chǎn) 品服務的帶動市場規(guī)模將達到180

16、9億元,2026年將達到4421億元。2019-2026年中國機器學習核心產(chǎn)品及帶動相關產(chǎn)業(yè)規(guī)模CAGR=19.6%CAGR=20.6%來源:研究院根據(jù)專家訪談與桌研自主建模研究繪制。2022.1 .18機器學習核心行業(yè)規(guī)模注釋:核心產(chǎn)品市場規(guī)模為機器學習平臺、大數(shù)據(jù)平臺與數(shù)據(jù)中臺中的機器學習模塊部分以及應用解決方案中的機器學習模塊等。8098125150決策智能帶動金融市場,L1L2為自動駕駛市場主要產(chǎn)品從行業(yè)橫向?qū)Ρ?,信息化建設完備、數(shù)據(jù)標準相對統(tǒng)一的金融領域無疑是最先起跑、市場空間較為可觀的賽道。在數(shù)據(jù)燃 料準備充分的前提下,銀行、保險公司、證券公司以及基金展開了決策智能產(chǎn)品的引入之路,

17、以克服營銷獲客難、反交易 欺詐與非法集資等業(yè)務痛點,且因業(yè)務的多變性、復雜性,其會疊加采購不同業(yè)務的解決方案。2021年,金融領域的機 器學習規(guī)??蛇_125億元,2026年將超過270億元。工業(yè)整體的數(shù)字化程度較差,汽車制造業(yè)、電子設備制造業(yè)、電力熱 力供應三大細分子行業(yè)率先樹立起數(shù)字化建設的標桿,采購嵌入機器學習技術的大數(shù)據(jù)產(chǎn)品與機器學習解決方案,服務于 生產(chǎn)線故障排查與質(zhì)檢、電路故障排查與檢修等業(yè)務。自動駕駛領域,核心規(guī)模主要來自L1L2等級的產(chǎn)品,2021年 L1L2等級產(chǎn)品的比例高達72.8%,未來占比將由L3及以上等級的產(chǎn)品擴充。2019-2026年中國機器學習核心產(chǎn)品在主要行業(yè)應用

18、規(guī)模2722402081814249588212032 17684799 8913530 1763 49596812 91332 24 1736 32 2041 2327323620192026e20202021e金融領域市場規(guī)模(億元) 自動駕駛領域(億元)2022e2023e2024e2025e工業(yè)領域市場規(guī)模(億元)醫(yī)藥領域市場規(guī)模(億元) 互聯(lián)網(wǎng)領域市場規(guī)模(億元)來源:研究院根據(jù)專家訪談與桌研自主建模研究繪制。2022.1 .1920中短期發(fā)展焦點:決策智能來源:研究院結合公開資料自主研究繪制。來源:研究院結合公開資料自主研究繪制。金融精準營銷反欺詐、反洗錢股市預測01零售店鋪選址商

19、品定價銷量預測02醫(yī)療科研新藥研發(fā)基因檢測0304自動駕駛環(huán)境觀測目標定位物體檢測AutoML提升流程自動化,機器學習平臺為主要產(chǎn)品形式隨著線上線下數(shù)據(jù)量的增長與變化,企業(yè)在日常工作中要面臨大量的分析決策問題,在短時間內(nèi)做出準確判斷,依賴傳統(tǒng) 的經(jīng)驗決策與人力計算顯然難以滿足企業(yè)需要,計算速度快、自動化程度高、分析精準的決策智能應用由此走入企業(yè)視線。 決策智能指使用機器學習等技術,對企業(yè)的內(nèi)外數(shù)據(jù)進行治理,挖掘和利用數(shù)據(jù)背后的信息,讓機器具備自主分析、預測、 選擇的功能,從而解決生產(chǎn)經(jīng)營過程中的決策管理問題,其本質(zhì)是一個數(shù)據(jù)消費的過程,屬于認知計算的領域之一,亦是 機器學習的一項代表性應用,其

20、流程步驟需經(jīng)過數(shù)據(jù)收集、數(shù)據(jù)清洗、模型訓練、基于驗證或測試錯誤或其他評價指標選 擇最佳模型四個階段。就算法類型而言,在整個應用開發(fā)流程中,AutoML可讓一些通用步驟自動化,如數(shù)據(jù)預處理、模 型選擇、參數(shù)調(diào)整等,來簡化模型生成的過程;而在具體的模型中,可結合業(yè)務,選擇合適的機器學習算法,一般在決策 智能中常見的代表算法有遷移學習、強化學習、分類與回歸樹等。就產(chǎn)品形式而言,因挖掘決策信息、搭建決策模型往往 需要一個集成類的模型開發(fā)與訓練工具,機器學習平臺正是可實現(xiàn)數(shù)據(jù)閉環(huán)、模型自動構建及更新的工具型產(chǎn)品,故決策 智能應用常以機器學習平臺的形式出售。目前,決策智能已在金融、零售、制造、醫(yī)療、自動駕

21、駛等領域獲得應用,但產(chǎn) 品的滲透廣度與深度主要停留于金融領域,產(chǎn)品尚未實現(xiàn)“完全人格化”,業(yè)務開拓與技術進展仍有較大的開拓空間。決策智能發(fā)展情況決策智能主要應用場景前決策智能有限決策智能完全決策智能超級決策智能現(xiàn) 階 段將知識遷移到計 算機系統(tǒng),輸入 數(shù)據(jù),與系統(tǒng)中 的規(guī)則匹配,實 現(xiàn)輔助決策決策初步自動 化,決策引擎 可進行數(shù)據(jù)預 測性分析、模 擬分析等通過機器學習自動分析潛在規(guī)則,實現(xiàn)自我更新迭 代,實現(xiàn)“半人 格化”通過機器學習全 自動完成規(guī)則挖 掘、數(shù)據(jù)治理、 模型更新,實現(xiàn) “全人格化”21趨勢:廠商的數(shù)據(jù)與應用業(yè)務補全數(shù) 據(jù) 生 命 周 期 管 理數(shù) 據(jù) 安 全 與 隱 私ML模型

22、規(guī)則搭建數(shù)據(jù)分析與可視化數(shù)據(jù)資產(chǎn)主數(shù)據(jù)與元數(shù)據(jù)數(shù)據(jù)標準化數(shù)據(jù)質(zhì)量 數(shù)據(jù)分類與存儲數(shù)據(jù)匯聚與接入機器學習應用廠商轉向數(shù)據(jù)治理業(yè)務開發(fā)數(shù)據(jù)治理與ML應用開發(fā)將逐漸走向一體化ML應用廠商補全數(shù)據(jù)治理業(yè)務、數(shù)據(jù)治理廠商補全ML應用開發(fā)業(yè)務成為了一大發(fā)展趨勢。機器學習應用廠商在進行決策 智能應用開發(fā)時,往往面臨模型與數(shù)據(jù)無法拉齊的問題,所以需要溯源到前置環(huán)節(jié),從一開始就把數(shù)據(jù)治理的工作做好, 構建模型特有的數(shù)據(jù)資產(chǎn),這也是典型的業(yè)務導向型數(shù)據(jù)治理方法論的體現(xiàn)。數(shù)據(jù)中臺、數(shù)據(jù)平臺、數(shù)據(jù)解決方案等數(shù)據(jù) 治理廠商完成數(shù)據(jù)治理后,本就對客戶的業(yè)務數(shù)據(jù)有了深入了解,能夠較為順利地進入到下一輪的模型開發(fā)業(yè)務中,且模

23、 型應用開發(fā)可增加新的業(yè)務收入,故不少數(shù)據(jù)治理廠商投身于ML應用部署的業(yè)務中。這意味著數(shù)據(jù)治理與機器學習平臺 產(chǎn)品的邊界將會被突破并連接,數(shù)據(jù)治理與ML應用開發(fā)將逐漸走向一體化。數(shù)據(jù)治理與應用廠商業(yè)務補全示意圖數(shù)據(jù)治理廠商轉向ML應用開發(fā)數(shù)據(jù)治理與ML應用開發(fā)一體化ML應用 ML模型訓練整 合企業(yè)數(shù)據(jù)匯聚數(shù)據(jù)治理模型開發(fā)與應用缺失,需開發(fā)已有,具備一定的數(shù)據(jù)積累與業(yè)務優(yōu)勢ML模型模型部署到模型與業(yè)務 數(shù)據(jù)治理不符 業(yè)務線割裂合模型要求數(shù)據(jù)治理缺失,需開發(fā)已有,對模型所需的數(shù)據(jù)內(nèi)容、標準更清楚機器學習新范式:MLOps構建可通用、復用的模型生產(chǎn)流水線MLOps即機器學習開發(fā)運維一體化,包含項目設

24、計、模型開發(fā)、模型運維三大步驟,融合了業(yè)務、數(shù)據(jù)、算法、運維的 業(yè)務人員,以更好更快地試驗、開發(fā)、部署、管理ML模型,保證ML模型的交付與運行質(zhì)量為目標,是機器學習服務模式 與技術的新興領域,相當于機器學習領域的DevOps,其核心是構建一條可通用、復用的模型生產(chǎn)流水線??傮w上講,機 器學習生命周期全流程復雜且耗時長,只有在部署的模型與現(xiàn)有業(yè)務充分整合后,各業(yè)務線才能從模型中獲得效用與價值, 而實際情況是業(yè)務開發(fā)與模型部署常常脫節(jié)。細分而言,放大生命周期全流程的各個環(huán)節(jié),會發(fā)現(xiàn)更多的問題:工具鏈碎 片化、各業(yè)務人員的專業(yè)知識存在短板且團隊之間缺乏協(xié)作、ML就緒數(shù)據(jù)匱乏、集成開發(fā)環(huán)境缺失、模型可

25、解釋性差等。 為改善甚至消除這些障礙,MLOps這一概念應運而生。實施MLOps可更好地銜接模型開發(fā)運維的全流程,通過自動化、 可重復的工作流與可復用的數(shù)據(jù)與模型資產(chǎn)來提升開發(fā)運行效率,從而加速機器學習生命周期;同時,通過監(jiān)督管理模型 的指標與數(shù)據(jù),找到并分析模型出故障的原因,提升模型的可解釋性,克服“黑箱”困擾。來源:研究院根據(jù)公開資料自主研究繪制。來源:研究院根據(jù)公開資料自主研究繪制。數(shù)據(jù)庫數(shù)據(jù)輸入預處理清洗數(shù)據(jù)分析特征抽取特征工程模型訓練模型運作測試結果模型預測過程輸入模型保存模型輸出模型監(jiān)控數(shù)據(jù)和特征管理模型開發(fā)、運作與監(jiān)控需求收集場景設計數(shù)據(jù)檢驗模型開發(fā)數(shù)據(jù)工程模型工程評估驗證模型運

26、維模型部署CI/CD/C T模型監(jiān)控22MLOps縮短模型開發(fā)部 署的迭代周期使業(yè)務、數(shù)據(jù)、 算法、運維各個 角色高效協(xié)作促進模型生產(chǎn)與 管理流程自動化、 標準化提升模型交付效 率與質(zhì)量, 深化 模型管理MLOps的步驟原理及價值機器學習生命周期全流程項目設計*每一環(huán)節(jié)都有涉及數(shù)據(jù)流、小工具、業(yè)務人員操作等應用落地思考:大模型爭論大小模型云-邊-端協(xié)同發(fā)展大模型,即超大規(guī)模預訓練模型,其對運算速度與算法的要求極高,因而需要充足的芯片資源支持與復雜的機器學習算法 支撐。自2020年6月OpenAI發(fā)布GPT-3以來,各大學術機構與科技企業(yè)爭先參與到大模型競賽中,大模型于2021年迎來 了大爆發(fā)。

27、盡管大模型的研發(fā)取得了較大進展,其發(fā)展卻面臨諸多卡點:1)數(shù)據(jù)方面,國內(nèi)可用的中文數(shù)據(jù)集有限,這 意味著開發(fā)者使用的數(shù)據(jù)集可能會重復,進而導致各家的大模型能力相近。 2)算法方面,參數(shù)越多、模型越復雜,模型 越難以解釋,復雜的大模型成為了“黑箱”,讓業(yè)務使用者甚至是研發(fā)者都無法獲知模型的結果與特征之間的關系。3) 投入產(chǎn)出方面,成本與回報難匹配,訓練所需的芯片成本過高、訓練時間過長、碳排放量過高,而訓練出的模型可能局限 于某些行業(yè)業(yè)務、普適性差,讓大模型淪為一次性的模型,浪費大量資源。4)應用使用方面,客戶更注重模型的實用性, 很多中小企業(yè)研發(fā)的小模型即可滿足客戶的業(yè)務需求,且成本更低,性價比

28、更高。然而,宏觀經(jīng)濟運行與監(jiān)管、航空航天 量子計算、醫(yī)藥研發(fā)、細胞分類等社會與自然科學領域的重大分析任務,以及跨行業(yè)的通用模型研究又恰恰需要大模型這 一先進工具。對此,大小模型云-邊-端協(xié)同發(fā)展的模式被提出:云端提供充足的算力與數(shù)據(jù)存儲空間,容納大模型的訓練 與演變,云端大模型為邊、端小模型輸送通用知識與能力;而在邊與端側,小模型快速執(zhí)行推理任務,專注于特定場景的 極致化,并向云端大模型反饋數(shù)據(jù)、成效,解決大模型數(shù)據(jù)集單一的問題,最終實現(xiàn)功能獨立的大模型的全社會共享。來源:研究院結合公開資料自主研究繪制。來源:研究院結合公開資料自主研究繪制?,F(xiàn)有大模型列舉發(fā)布時間發(fā)布者與模型名稱參數(shù)量級202

29、0年5月2021年1月2021年2月2021年4月2021年6月2021年9月2021年10月2021年11月2021年12月OpenAI:GPT-3 Google:Switch Transformer 快手:參數(shù)推薦精排模型鵬城:盤古 智源:悟道2.0 華為:盤古英偉達&谷歌:威震天-圖靈 阿里達摩院:M6鵬城&百度:文心1750億1.6萬億1.9萬億2000億1.75萬億30億5300億10萬億2600億已有大模型列舉Cloud邊緣 Edge端 Device模 型 能 力 雙 向 輸 送訓練推理若干業(yè)務小模型,上傳業(yè)務數(shù)據(jù)、 模型成效23對邊、端輸送通大模型大模型用知識與能力大小模型云邊端

30、協(xié)同發(fā)展模式云2022.1 .91可信人工智能的重要性升級來源:研究院根據(jù)信通院可信人工智能白皮書等公開資料自主研究繪制。可信AI將逐步成為行業(yè)規(guī)范化、技術商業(yè)化的關鍵助推器新一代人工智能技術迅猛發(fā)展,并向社會各個領域加速滲透,這給經(jīng)濟和社會發(fā)展帶來了新的變革性機遇,也給人類生產(chǎn) 生活帶來了深刻的變化,與此同時,科技倫理也成為了當前AI產(chǎn)業(yè)技術發(fā)展與產(chǎn)業(yè)應用中的“必答題”。如今,以中國、 美國、歐盟為代表的AI產(chǎn)業(yè)領頭羊均把確保AI安全、可靠、可控的可信人工智能放在了其AI倫理和治理的核心位置,發(fā)展 可信人工智能正在成為全球的共識。可信人工智能的核心原則是讓AI應用滿足可靠、安全、可解釋、隱私

31、保護、責任明確 等條件,是落實AI治理的重要實踐,所遵循的可信特征與AI倫理和相關法律法規(guī)等要求一脈相承,均將以人為本作為其本 質(zhì)要求。AI企業(yè)作為人工智能技術產(chǎn)品化的主體,在可信人工智能的發(fā)展實踐中正發(fā)揮著日益積極的作用,谷歌、微軟、 百度、京東、曠視等一批國內(nèi)外企業(yè)紛紛投身其中??萍季揞^們在可信人工智能上的投入除承擔社會公益和行業(yè)引領的責 任外,在AI商業(yè)化上面臨越來越多的限制和挑戰(zhàn)也是關鍵驅(qū)動因素。以可信人工智能所包含的隱私保護為例,部分AI企業(yè) 在接受監(jiān)管機構上市問詢時,被重點要求說明其技術、業(yè)務及產(chǎn)品中涉及到數(shù)據(jù)應用的具體環(huán)節(jié),相關數(shù)據(jù)來源與合規(guī)性, 以及保證數(shù)據(jù)合規(guī)的具體措施等。這

32、種自上而下的監(jiān)管推動也將與企業(yè)內(nèi)驅(qū)形成合力,共同推動可信人工智能的發(fā)展與實 踐,可信人工智能也將成為AI產(chǎn)業(yè)下一階段發(fā)展的重點。AI技術的風險與可信AI的愿景算法安全應用風險“黑箱”風險數(shù)據(jù)歧視風險責任主體界定風險隱私泄露風險AI技術存在脆弱和易受攻擊 的缺陷,使得AI系統(tǒng)可靠性 存疑深度學習具有高度復雜性和 不確定性,人們無法理解或 解釋AI決策背后的原因訓練的數(shù)據(jù)存在偏見歧視導 致生成的算法模型失去客觀 性和正當性AI系統(tǒng)自動化決策受眾多因 素影響,使得責任主體難以 界定生物識別等信息的頻繁使 用使得個人隱私數(shù)據(jù)泄露 的可能性增大可信AI技術與特征AI的系統(tǒng)穩(wěn)定技術、可解釋增強技 術、隱私

33、保護技術、公平性技術等可靠可控、透明可釋、數(shù)據(jù)保護、明確責任、多元包容92預訓練大模型的商業(yè)化得更大的進步。隨著大模型技術的演進,其商業(yè)化路徑將逐漸清晰2021年是超大規(guī)模預訓練模型的爆發(fā)之年,自2020年GPT-3橫空出世,這個具有1750億參數(shù)規(guī)模的預訓練模型所表現(xiàn)出 來的零樣本與小樣本學習能力刷新了人們的認知,也引爆了2021年AI大模型研究的熱潮。谷歌、微軟、英偉達、智源人 工智能研究院、阿里、百度、浪潮等國內(nèi)外科技巨頭和機構紛紛展開大模型研究和探索。大模型意在打造成為變革性產(chǎn)業(yè) 基礎設施建設設施,是通過一個巨大的模型通用式的解決各個場景的AI解決方案,與弱人工智能時代為單個產(chǎn)品提供單

34、個 解決方案模型的運作方式有著本質(zhì)上的區(qū)別,相比于傳統(tǒng)的AI解決方案,大模型不需要針對不同場景研制層出不窮的場景 模型,不需要從頭開始訓練,規(guī)模化的人工智能模型生產(chǎn)形成成本的邊際效應,極大地節(jié)約了AI應用成本。作為探索通用 人工智能的路徑之一,AI大模型本身是一個可能產(chǎn)生原始創(chuàng)新與長期影響的領域,它的出現(xiàn)意味著“AI工業(yè)化”開發(fā)模式 的到來。盡管現(xiàn)階段大模型處于發(fā)展初期,技術難度、資源消耗和收益模式均面臨著諸多挑戰(zhàn),但隨著大模型在技術上不 斷地提升與演進,未來的AI大模型的商業(yè)化路徑和收益將逐漸清晰,而站在巨人肩膀上的人工智能行業(yè)也會因大模型而取商業(yè)模式 - 多方受益以模型為底座能力,可將模型

35、以出售或租售的方式提 供給科研創(chuàng)新中心、政府機構、行業(yè)友商、產(chǎn)業(yè)客戶 等將能力開放提供給ISV,由ISV去開拓更多的下游客 戶,根據(jù)合作情況制定收費方式通過開源的方式集合社區(qū)開發(fā)者,用眾多開發(fā)者的力 量解決大模型復雜的技術挑戰(zhàn),最終共享成果利用大模型的泛化能力加成自身AI產(chǎn)品或解決方案的商業(yè)化落地能力02技術演進- 全鏈把控工程化:參數(shù)的規(guī)模不再是唯一追求點,大規(guī)模分布 式訓練、并行計算、軟硬件協(xié)同優(yōu)化等能力的需求催 生大模型工程化落地能力芯片化:模型的某些運算存儲能力如芯片一樣固化在端側硬件設備中,減少算力與數(shù)據(jù)調(diào)用的消耗開源化:算法體系、標準體系、基礎平臺、數(shù)據(jù)集、 工程化測試等全方位的開

36、放標準化:逐漸標準化成熟的行業(yè)公認體系來衡量大模 型通用性、易用性多領域化:具備不同領域的認知性,如從NLP領域向CV領域發(fā)展01技術演進與優(yōu)化進一步加快大模型商業(yè)化預期來源:研究院根據(jù)公開資料自主研究繪制。AI大模型的技術演進趨勢與潛在商業(yè)模式2022.1 .93人工智能基礎層價值持續(xù)凸顯來源:研究院結合公開資料自主研究繪制。識別業(yè)務 問題數(shù)據(jù)采集 標注數(shù)據(jù)治理特征工程模型訓練模型評估 調(diào)優(yōu)模型部署數(shù)據(jù)輸入 運算運維監(jiān)控支撐各類人工智能應用開發(fā)與運行的資源開發(fā)一項人工智能模型并上線應用大致需經(jīng)歷業(yè)務理解、數(shù)據(jù)采標及標注、數(shù)據(jù)治理、模型訓練、模型部署與測試、運維 監(jiān)控等一系列流程。在該流程運行

37、過程中,開發(fā)者往往會發(fā)現(xiàn),模型運行不暢的原因正是數(shù)據(jù)、算法或算力的某一模塊出 現(xiàn)了問題,如數(shù)據(jù)集缺失或數(shù)據(jù)標準不統(tǒng)一、算法不貼合實際業(yè)務導致輸出結果準確性差、算力資源缺失等。圍繞模型針 對性地調(diào)整與夯實數(shù)據(jù)、算法、算力三大人工智能基礎層資源,才能緩解應用開發(fā)的痛點,加速模型的訓練與推理,讓AI 技術更便捷有效地封裝到產(chǎn)品中,推動產(chǎn)品的商業(yè)化進展,而企業(yè)已經(jīng)開始逐漸意識到這一點。人工智能未來的產(chǎn)業(yè)方向 將不僅局限于上層的應用開發(fā),而且會愈發(fā)重視基礎層的地位與價值。得到夯實與完善的基礎層資源會給予局部的應用開 發(fā)乃至全局的AI產(chǎn)業(yè)化更好更快的推動力。AI應用開發(fā)上線流程需要人工智能基礎層緊密支持開發(fā)態(tài)流程運行態(tài)流程數(shù)據(jù)環(huán)節(jié)算法與模型環(huán)節(jié)算力環(huán)節(jié)需要滿足業(yè)務需求的數(shù)據(jù) 采集高效數(shù)據(jù)標注統(tǒng)一管理數(shù)據(jù)資產(chǎn)高質(zhì)量數(shù)據(jù)集挖掘數(shù)據(jù)關聯(lián)信息需要CPU、GPU容器服務 AI 專用芯片;計算資源統(tǒng)一管理實現(xiàn)軟硬一體提高資源利用率優(yōu)化, 突破性提高執(zhí)行效率能瓶頸可視化建模、交互式建模、自動建模實現(xiàn)分布式訓練框架;模型倉庫管理提高算法建模效率;提供算法工程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論