中國人工智能軟件基礎(chǔ)設(shè)施高質(zhì)量發(fā)展報(bào)告_第1頁
中國人工智能軟件基礎(chǔ)設(shè)施高質(zhì)量發(fā)展報(bào)告_第2頁
中國人工智能軟件基礎(chǔ)設(shè)施高質(zhì)量發(fā)展報(bào)告_第3頁
中國人工智能軟件基礎(chǔ)設(shè)施高質(zhì)量發(fā)展報(bào)告_第4頁
中國人工智能軟件基礎(chǔ)設(shè)施高質(zhì)量發(fā)展報(bào)告_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

、 8 8 、 、 I I I 、 I I I 、 、 ?人工智能技術(shù)作為“未來數(shù)十年”最先進(jìn)的生產(chǎn)力代表之一,正逐漸滲透到各行各業(yè),推動(dòng)數(shù)字年I在于7達(dá)0會(huì)!"#%&'()*+(,型I由圖),.I表15.AG..8.BCTU.G...].^_12Z4[RS`a%eFfghV)i)jFGeFfghF..n.kl12Z4[oRSZCqV6ZtBCwayIYwayFG...~l12Z4[RS?ZqFGIYV?EFGIY?é|}?E..à.aü12Z4[.f?ayIY|??éFG.t.nz2Z4[.6ZtBCì?)?FGì?)?FG.?6ZtIò?FGIYú括7礎(chǔ)設(shè)施開發(fā),以及數(shù)據(jù)類相關(guān)崗位。不同企業(yè)、組織、產(chǎn)品或者技術(shù)團(tuán)隊(duì),由于客觀場景需求不同,將7有I在算法、數(shù)據(jù)、系統(tǒng)、軟硬件基礎(chǔ)設(shè)施、軟件工程等領(lǐng)域都有所涉獵,并能夠結(jié)合場景實(shí)際需求,用第二層次:工程應(yīng)用開發(fā)崗。此類人才具備行業(yè)知識(shí),知道如何結(jié)合場景和需求,采用合適的技第三層次:算法研究和基礎(chǔ)設(shè)施開發(fā)崗位。由于該崗位對(duì)專業(yè)性要求極強(qiáng),導(dǎo)致人才非常稀缺。同時(shí)考慮到商業(yè)化周期通常較長,早期投資非常大,有此類崗位設(shè)置的組織往往屬于行業(yè)頭部研究所!.#(,/人才是推動(dòng)人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展最為重要因素。人才的規(guī)模、質(zhì)量以及結(jié)構(gòu)分布決定了我國義I劃:心AI、I。關(guān)AI然語言處理、智能語音、計(jì)算機(jī)視覺等)與客戶需求相結(jié)合,實(shí)現(xiàn)相關(guān)應(yīng)用工程化落地的崗位。如:產(chǎn)I國I于0的1為0I為0。ê!1#(,23

)?.人才分布與各地的經(jīng)濟(jì)活躍程度息息相關(guān),一方面體現(xiàn)了各地區(qū)對(duì)于人工智能領(lǐng)域人才和企).根據(jù)定量調(diào)研國內(nèi)人才工作地,人工智能開發(fā)者人才主要分布在長三角、京津冀、和珠三角地區(qū)。這三個(gè)地區(qū)是產(chǎn)業(yè)人才的主要聚集地,也是當(dāng)前人工智能發(fā)展主要區(qū)域,體現(xiàn)出企業(yè)人才需求和人才。).人工智能開發(fā)者的性別分布上,明顯男性占據(jù)多數(shù)(%),女性從事技術(shù)類型工作相對(duì)占。).I的T研。).I達(dá)于0).).的II了的I的I旺盛的場景需求之間的矛盾。以互聯(lián)網(wǎng)、云服務(wù)提供商和技術(shù)服務(wù)提供商為例,他們?nèi)瞬偶坌?yīng)強(qiáng),研發(fā)實(shí)力強(qiáng),愿意結(jié)合自身業(yè)務(wù)規(guī)模和數(shù)字化基礎(chǔ)設(shè)施完備的優(yōu)勢,投入基礎(chǔ)研究,建設(shè)技術(shù)平臺(tái),積極布局產(chǎn)業(yè)生態(tài)圈。然而,人工智能技術(shù)落地不但需要強(qiáng)大的軟硬件基礎(chǔ)設(shè)施平臺(tái)和先進(jìn)算法支撐,于I!4#(,56人工智能應(yīng)用落地涵蓋數(shù)據(jù)場景、算法理論、軟件工程,硬件設(shè)備等多個(gè)領(lǐng)域,需要多層次的復(fù)統(tǒng)T的人才大致可以分為三個(gè)層次:算法與基礎(chǔ)設(shè)施研發(fā)人才、工程應(yīng)用人才、技術(shù)管理人才;這三類人I軟件、軟件框架、平臺(tái)開發(fā)等與實(shí)際場景業(yè)務(wù)無關(guān)的基礎(chǔ)性技術(shù)工作,包括基礎(chǔ)科學(xué)研究和前沿技術(shù)開發(fā),他們的工作成果決定了人工智能項(xiàng)目落地的門檻和成本,也決定著人工智能產(chǎn)業(yè)的邊界。此類人為2》"#$%&'()*+,-./0123456789:;<=>?1@()*ABCD&'E3"#$%&'()*+,-./0123456789:;<=>?1@()*ABCD&'E3L+de%EFfghEF-.1YZ[O/ijkXlmEF-.no:Xpq%rsGtu17vwxyTXYZ[O%zEb +{|rs}-./0~1?? 5UVhU?é??üXV%8áXk156:x-à1 ?Yr1:?Yr1??:Xéèrs1Xê?í1TXêì?HI?? Yr%óò1??8XkXê?úù?Eb +`T(a`ü?°??ü1¢OXk£?§\????1?[?bk???^_′ hEF%-.G HI3??5M±%?ˉ¥1μ÷56:x-àahIK.?L”?”?”?”?J??è‰ó1('?Y(%éè1)*?,-d.`?0"`?üTGF\èL\?Lò N@zBCTB~GBOPQ′¥RS3TUJO1?oùWV?ü\78?W1?XYàfl\BZê4rs1TU[\ì?1&óQ?]B/iú?àfl′??? 1?@_dB/iò?ì?h?G?jj?XYíhbcdBk?>?56q(ú?% ?ì???íh?WV1??ü′?78Grst?TB1uv??üw5T3xy

?¥u<?h}?h6?Qz\%{|}fl?%WV~M?h}OPEb?àGB4?t÷ó?%?ü7781?????¥d2?ü?ò}1@|fi&'TZò?`≠TZ?üùé%flY1é?Yüfg`Y?>?`YZ°¢%jz1í??Q9XY?£§??8`?u&'XY??Q9o?`G?J?C數(shù)據(jù)對(duì)于人工智能產(chǎn)業(yè)的重要性不言而喻。數(shù)據(jù)作為數(shù)字經(jīng)濟(jì)時(shí)代最有價(jià)值的生產(chǎn)資料已是共識(shí),是人工智能應(yīng)用落地成敗的最關(guān)鍵因素之一,也是產(chǎn)業(yè)化中最重要的一環(huán)。企業(yè)數(shù)字化轉(zhuǎn)型浪潮持續(xù)推動(dòng)數(shù)據(jù)爆炸式增長,涌現(xiàn)出許多系統(tǒng)集成商,助力企業(yè)信息化落地;另外一方面,大量場景端的數(shù)在I研關(guān)I據(jù)預(yù)處理、清洗、版本管理、數(shù)倉等數(shù)據(jù)資產(chǎn)管理成本太高(%)、數(shù)據(jù)采集比較難(%)、應(yīng)用。續(xù)T高TT。!"#79:;<=;數(shù)據(jù)基礎(chǔ)設(shè)施主要為采集、存儲(chǔ)、治理、計(jì)算、應(yīng)用五大維度,每個(gè)維度都會(huì)涌現(xiàn)大量基礎(chǔ)架構(gòu)技術(shù)和商業(yè)模式創(chuàng)新,外加數(shù)據(jù)安全與隱私法律法規(guī)的監(jiān)管,涉及到的底層技術(shù)相當(dāng)復(fù)雜。數(shù)據(jù)基礎(chǔ):雖然云計(jì)算和面向服務(wù)的架構(gòu)從功能上來說,它們能夠存儲(chǔ)和處理數(shù)據(jù),但它們更關(guān)注的是軟件。與云計(jì)算技術(shù)的發(fā)展密切相關(guān),逐漸呈現(xiàn)服務(wù)化特點(diǎn),對(duì)用戶(特別是開發(fā)者用戶)屏蔽大量技術(shù)細(xì)節(jié),降低了使用門檻,用戶使用特定I、操作命令或者功能界面等即可完成數(shù)據(jù)訪問。下表是關(guān)于。5Q??§W?–—¨§W?P“”‘kl§W?P“‘’÷RV??RSü‰¨·Qê??LMnz¨·Qê??LMnzJK¨??LMnzJK¨?ìó?CWò°ú^_?ˉ?W?˙??PQ?ˉò°?ì?RS‘’?μRS¢?AV-$?*?$$+?3(??Q1?_?CQ?A5v?K*}±…;*(a`Tê%w?_`à¥(aμ?Tx`*‘6‘??…¨1

à(??μ?Tx%??1??(??%?ü′–PaG‘é?SR*`“@(?‘?l(e6l?lu‘??CGf6‘?(?%??ù(??Fíw??P‘1?≠?u%???§ù?>T(aéèFí??(a]5ˉ?“融合化趨勢包括交易型數(shù)據(jù)和分析型數(shù)據(jù)的融合(P),實(shí)時(shí)數(shù)據(jù)流與歷史數(shù)據(jù)的融合(數(shù)據(jù)倉庫),音視頻等非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化的數(shù)據(jù)融合(數(shù)據(jù)湖產(chǎn)品)等,以及多源異構(gòu)數(shù)據(jù)的交叉、關(guān)聯(lián)分析等。不同的融合方式,面向不同場景的需求,對(duì)應(yīng)也有不少相應(yīng)技術(shù)方案。從數(shù)據(jù)管理技術(shù)演進(jìn)的歷史看,我們經(jīng)歷了數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)等形態(tài),他們分別適用不同場景,到I。數(shù)據(jù)庫:通常指關(guān)系型數(shù)據(jù)庫,用關(guān)系模型和數(shù)據(jù)結(jié)構(gòu)來組織、存儲(chǔ)、和管理數(shù)據(jù)的應(yīng)用系統(tǒng),具有結(jié)構(gòu)化強(qiáng)、獨(dú)立性強(qiáng)、數(shù)據(jù)冗余低等特點(diǎn),主要用于聯(lián)機(jī)事務(wù)處理(P),比如銀行等交易數(shù)數(shù)據(jù)倉庫:隨著信息的爆炸式增長,傳統(tǒng)關(guān)系型數(shù)據(jù)庫提供的聯(lián)機(jī)事務(wù)處理(P)已經(jīng)不能滿足研究數(shù)據(jù)之間關(guān)系、挖掘數(shù)據(jù)價(jià)值的需求,比如不同數(shù)據(jù)庫系統(tǒng)之間很難做到數(shù)據(jù)共享,數(shù)據(jù)集成和分析工作很難開展。為了解決企業(yè)級(jí)數(shù)據(jù)集成和分析,我們需要引入聯(lián)機(jī)分析處理(P)架構(gòu)來的P,撐P。數(shù)據(jù)湖:隨著企業(yè)進(jìn)一步發(fā)展,數(shù)據(jù)不斷堆積,企業(yè)管理者希望可以把生產(chǎn)經(jīng)營中產(chǎn)生的所有數(shù)據(jù)都完整保存下來形成數(shù)據(jù)湖,并寄希望于有效管理和集中治理后,從中可以挖掘探索出更多價(jià)值,這里的數(shù)據(jù)包括非機(jī)構(gòu)化數(shù)據(jù)(如音視頻數(shù)據(jù)等)、半結(jié)構(gòu)化數(shù)據(jù)(如程序日志文件),以及結(jié)構(gòu)化數(shù)據(jù)(如交易記錄)。數(shù)據(jù)湖可以理解為是一個(gè)存儲(chǔ)企業(yè)各種原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供。數(shù)據(jù)中臺(tái):數(shù)據(jù)中臺(tái)并非一種技術(shù),而是企業(yè)的戰(zhàn)略選擇。依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織機(jī)構(gòu),以數(shù)字化的手段構(gòu)建的一套持續(xù)把不同業(yè)務(wù)部門的數(shù)據(jù)變成資產(chǎn)并抽象成服務(wù)的方法,并經(jīng)過跨業(yè)務(wù)。統(tǒng)而言之,數(shù)據(jù)庫是數(shù)據(jù)聯(lián)機(jī)存儲(chǔ)處理即服務(wù),數(shù)據(jù)倉庫是分析報(bào)表即服務(wù),數(shù)據(jù)湖是原始數(shù)據(jù)據(jù)I但對(duì)T,。數(shù)據(jù)合規(guī)是指確保敏感數(shù)據(jù)免于損壞、丟失、被盜、濫用而制定的正式標(biāo)準(zhǔn)及實(shí)踐規(guī)則,包括數(shù)于8年5lan稱達(dá)的于2管理架構(gòu)與風(fēng)險(xiǎn)識(shí)別處理規(guī)范做出了相關(guān)規(guī)定,還特別對(duì)不合規(guī)使用和處理數(shù)據(jù)會(huì)導(dǎo)致刑事犯罪的風(fēng)。數(shù)據(jù)作為新型生產(chǎn)資料,一方面可以協(xié)助傳統(tǒng)產(chǎn)業(yè)升級(jí)、打造新興產(chǎn)業(yè)和經(jīng)濟(jì)形態(tài),成為推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的引擎;另外一方面數(shù)據(jù)作為企業(yè)重要資產(chǎn)被深度開發(fā)。與此同時(shí)大規(guī)模數(shù)據(jù)泄漏事件也頻頻發(fā)生,帶來極大的社會(huì)安全甚至是國家安全威脅。國家層面上,涉及隱私保護(hù)相關(guān)的法律法規(guī)諸如《數(shù)據(jù)安全法》、《網(wǎng)絡(luò)安全法》、《個(gè)人信息保護(hù)法》等先后頒布。在挖掘數(shù)據(jù)核心價(jià)值需求和。隱私計(jì)算技術(shù)是指在確保數(shù)據(jù)處于隱私保護(hù)的前提下,對(duì)數(shù)據(jù)進(jìn)行分析處理的一類技術(shù),以密碼。密碼學(xué)為核心:2年姚期智院士提出安全多方計(jì)算(C)概念,即一種可以保障多個(gè)參與方協(xié)同計(jì)算出結(jié)果的同時(shí),各個(gè)參與方除了計(jì)算結(jié)果之外,無法獲得其它任何信息,邏輯層面實(shí)現(xiàn)數(shù)據(jù)的可用但是不可見。類似技術(shù)還有差分隱私,差分隱私通過在查詢結(jié)果中加入隨機(jī)噪聲,以保證公開輸出的結(jié)果不會(huì)泄漏個(gè)體的數(shù)據(jù)集歸屬信息;同態(tài)加密,通過對(duì)數(shù)據(jù)先完成基礎(chǔ)的加密操作,然后使用加密后的數(shù)據(jù)進(jìn)行計(jì)算,并確保得出的計(jì)算結(jié)果與計(jì)算原始數(shù)據(jù)得到的結(jié)果一致,從而完成對(duì)原始。dnt稱支持、獨(dú)立于操作系統(tǒng)存在的隔離環(huán)境,數(shù)據(jù)計(jì)算只能存在于隔離的安全環(huán)境內(nèi)進(jìn)行,并通過特別授權(quán)。0*?f"???;’-%u?h‘X8?*$F?L???Q?*3G[`??*?,\(`@Sf?*&?z""(}h~)??áb????5fl%??X¤]^/i?q~)1

à(a?&>ˉ*Oò(a>?1@n]]//i`jWX¤`??X¤`¤?X¤é??&U?%??j(G”??Z4…'`f`h???ó?&/ifOGZ?1”l?ffiè”IKUK????/í””?!"Bb?%è?a?”íK%KGJ?”JM?)fiWXfl?K?PQ?>h9%9¥?á9?*fi?F¥]^/i?qA?μ?'

m?f4JMè?“?G??!.#7>?理ae稱)完整性和安全性的一整套管理流程,它控制數(shù)據(jù)使用的內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)和策略,既包括管理行為也包括有相關(guān)的過程來實(shí)現(xiàn)決策權(quán)和職責(zé)分工的系統(tǒng),這些過程按照達(dá)成共識(shí)的模型來執(zhí)行,該模型描述了誰行。署I業(yè)I進(jìn)I質(zhì)量落地,開展針對(duì)性的數(shù)據(jù)治理工作非常重要。很多企業(yè)在數(shù)據(jù)質(zhì)量、數(shù)據(jù)字段豐富度、數(shù)據(jù)分布足I能的R海。一是打破數(shù)據(jù)孤島。企業(yè)信息化之初,不同業(yè)務(wù)部門缺乏統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)架構(gòu)概念,各業(yè)務(wù)系統(tǒng)平臺(tái)需求也不完全一致,從而導(dǎo)致不同的業(yè)務(wù)平臺(tái)系統(tǒng)相互獨(dú)立,出現(xiàn)了數(shù)據(jù)孤島現(xiàn)象,因此協(xié)調(diào)的T壁要T。二是確保數(shù)據(jù)有效使用。借助數(shù)據(jù)治理工具產(chǎn)品,創(chuàng)建統(tǒng)一的數(shù)據(jù)使用策略、監(jiān)控管理策略以及持續(xù)的執(zhí)行策略,降低數(shù)據(jù)管理成本同時(shí),確保企業(yè)級(jí)數(shù)據(jù)滿足實(shí)時(shí)性、有效性、完整性、安全性、一致性等需求,并開放給數(shù)據(jù)科學(xué)家、分析師以及其它業(yè)務(wù)場景使用。對(duì)于數(shù)據(jù)的實(shí)時(shí)洞察和決策,三是確保數(shù)據(jù)合規(guī)性。企業(yè)和組織如何存儲(chǔ)、檢索和保護(hù)包括個(gè)人信息、客戶信息等隱私敏感數(shù)據(jù),在遵守法律和法規(guī)的前提下,使用內(nèi)部設(shè)定的規(guī)則和策略來管理數(shù)據(jù),保證其可用性、安全性、等T集屬數(shù)據(jù)治理是企業(yè)級(jí)的戰(zhàn)略,需要至上而下的推進(jìn),通常來說包括如下主要內(nèi)容:識(shí)別數(shù)據(jù)資產(chǎn)和現(xiàn)有的非正式治理流程、提高企業(yè)內(nèi)的最終用戶的技能以及數(shù)據(jù)的敏感度、定義可度量的數(shù)據(jù)治理工作指標(biāo)。企業(yè)內(nèi)部通常會(huì)有許多不同角色都會(huì)參與到數(shù)據(jù)治理過程,包括業(yè)務(wù)部門主管、數(shù)據(jù)管理專T決戰(zhàn)數(shù)據(jù)治理起步階段可能是最困難的,不同業(yè)務(wù)部門通常對(duì)關(guān)鍵數(shù)據(jù)實(shí)體有不同的看法。例如通用數(shù)據(jù)定義和格式。很多時(shí)候達(dá)成一致意見是很艱難的,一般需要有明確的爭議解決流程。除此之外,:一是難體現(xiàn)商業(yè)價(jià)值。無論是向企業(yè)管理團(tuán)隊(duì)還是參與數(shù)據(jù)治理的各個(gè)角色,呈現(xiàn)數(shù)據(jù)治理的商業(yè)價(jià)值有時(shí)候很困難,數(shù)據(jù)治理往往是長期而艱巨的任務(wù),短期內(nèi)甚至?xí)黾悠髽I(yè)運(yùn)營成本,如何制。二是難制定可量化的業(yè)務(wù)價(jià)值指標(biāo)。數(shù)據(jù)質(zhì)量、數(shù)據(jù)集和相關(guān)屬性的準(zhǔn)確性和錯(cuò)誤率、數(shù)據(jù)完整性和一致性等指標(biāo)均可用于顯示數(shù)據(jù)治理的價(jià)值。但是針對(duì)不同場景和需求,業(yè)務(wù)指標(biāo)如何與數(shù)據(jù)價(jià)。三是難支持自助數(shù)據(jù)分析。數(shù)據(jù)治理最終的目標(biāo),還是將數(shù)據(jù)交到企業(yè)內(nèi)的更多用戶手中。數(shù)據(jù)治理必須確保數(shù)據(jù)可供授權(quán)用戶自助訪問,同時(shí)還要確保這些用戶—業(yè)務(wù)分析師、數(shù)據(jù)科學(xué)家、業(yè)T臺(tái)。四是大數(shù)據(jù)平臺(tái)架構(gòu)復(fù)雜。數(shù)據(jù)治理程序傳統(tǒng)上專注于存儲(chǔ)在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)即可,但在大數(shù)據(jù)時(shí)代,必須處理海量數(shù)據(jù)中的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)往往以及各種形式存儲(chǔ),包括存放于分布式文件系統(tǒng)中,或者對(duì)象存儲(chǔ)系統(tǒng)中等等,還比如海量歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的融合處理等等。異構(gòu)的數(shù)據(jù)存儲(chǔ)、處理、分析外加實(shí)效性的要求,如何透明的提供各種數(shù)據(jù)訪問、處理引擎、合理分配計(jì)算資源等,對(duì)底層數(shù)據(jù)平臺(tái)的架構(gòu)設(shè)計(jì)、運(yùn)維能力和資源管理,都帶來Bfl??G}?>G?fh?f??flfhfhf?????!1#7@ABCD數(shù)據(jù)標(biāo)注的本質(zhì),是依據(jù)人的經(jīng)驗(yàn)對(duì)各類不同數(shù)據(jù)的特征進(jìn)行標(biāo)記的過程。人對(duì)于各類不同數(shù)據(jù)、信息的接收、理解與消化,在機(jī)器學(xué)習(xí)領(lǐng)域,實(shí)際上等價(jià)于計(jì)算機(jī)的數(shù)據(jù)輸入、特征識(shí)別與數(shù)據(jù)分類。能夠進(jìn)行數(shù)據(jù)分類,是計(jì)算機(jī)實(shí)現(xiàn)“接近或等價(jià)于人的判斷”能力的基本標(biāo)準(zhǔn)。而數(shù)據(jù)標(biāo)注,則是教個(gè)D。類為D和DD透視關(guān)系和有透視關(guān)系的特征數(shù)據(jù)。數(shù)據(jù)標(biāo)注的完整流程,從來源到結(jié)果,可以大致分為數(shù)據(jù)采集,數(shù):數(shù)據(jù)采集是數(shù)據(jù)標(biāo)注的關(guān)鍵核心,包括兩點(diǎn)要求:一是要符合目標(biāo)場景的要求。模擬出真實(shí)場景下的數(shù)據(jù),例如,假設(shè)要求最終產(chǎn)出的是兩個(gè)人在室外環(huán)境下的對(duì)話,那么采集的時(shí)候就不能在靜音環(huán)境下進(jìn)行,也不能由一個(gè)人單獨(dú)進(jìn)行。一般來說,目標(biāo)場景要求會(huì)有很多細(xì)節(jié),這些細(xì)節(jié)對(duì)應(yīng)了算法工程師對(duì)于數(shù)據(jù)中的特征的需求,因此采集時(shí)必須嚴(yán)格遵守規(guī)則,以確保數(shù)據(jù)特征能夠全部被覆蓋到。二是數(shù)據(jù)的采集要符合國家、地區(qū)(一般指境外)對(duì)于數(shù)據(jù)合規(guī)的法律法規(guī)要求。采集活動(dòng)本身應(yīng)該合法,采集所得的數(shù)據(jù),其數(shù)據(jù)敏感性、所有權(quán)等一系列與法律法規(guī)相關(guān)的細(xì)節(jié),都需要密切關(guān)。數(shù)據(jù)清洗的主要目的是確保數(shù)據(jù)進(jìn)入標(biāo)注生產(chǎn)流程前,%的符合標(biāo)注的前提,否則會(huì)對(duì)標(biāo)注生產(chǎn)造成巨大困擾。數(shù)據(jù)清洗是一次最基礎(chǔ)的分類和修正工作,不同的數(shù)據(jù)類型、數(shù)據(jù)生產(chǎn)需求面對(duì)的數(shù)據(jù)標(biāo)注在當(dāng)下是一套工業(yè)化、技術(shù)化、人機(jī)結(jié)合、對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化標(biāo)注的生產(chǎn)過程總稱。工業(yè)化指的是數(shù)據(jù)標(biāo)注一般具備標(biāo)準(zhǔn)的生產(chǎn)流程規(guī)范,不同階段的不同工種,分別會(huì)對(duì)數(shù)據(jù)進(jìn)行多個(gè)維度的標(biāo)注操作。技術(shù)化指的是數(shù)據(jù)標(biāo)注通常在一個(gè)成熟穩(wěn)健的系統(tǒng)化平臺(tái)上實(shí)施,系統(tǒng)平臺(tái)的主要任務(wù)是為繁雜的數(shù)據(jù)處理工作,提供標(biāo)準(zhǔn)化流程下的技術(shù)解決方案,以提高人工處理的效率,降低人為出錯(cuò)的概率,以期提高數(shù)據(jù)生產(chǎn)的效率與質(zhì)量。人機(jī)結(jié)合是當(dāng)下機(jī)器學(xué)習(xí)已經(jīng)發(fā)展到一定階段的生產(chǎn)協(xié)作方式,人主要提供判斷與標(biāo)注操作,機(jī)器基于已經(jīng)掌握的特征識(shí)別能力,為人提供醒目的、及時(shí)數(shù)據(jù)質(zhì)檢是符合工業(yè)化思想的最終生產(chǎn)環(huán)節(jié)。數(shù)據(jù)質(zhì)檢一般依據(jù)生產(chǎn)需求構(gòu)建正向和逆向的規(guī)則校驗(yàn),通過抽查、遍歷等多種不同手段,查找或驗(yàn)證生產(chǎn)成品中的瑕疵(不符合標(biāo)注規(guī)范)數(shù)據(jù),以e?,!b1@8Tò?XY′(μ?aù?é?U?b’1é?(aVíêW?üGéè’≠??4(aaù`aùHI?8Fˉq`F?*‘í`˙?+*aù7??pT??GFèY??4(aaù?81????ˇ?!?:aù1a"F?*`o\R#′?:?a"??+1???4aù …6$U?G??%(′((Mè1\G!4#EF7AHIJ'

?ó除了企業(yè)內(nèi)部的業(yè)務(wù)數(shù)據(jù)極具價(jià)值外,公共(甚至是開放)數(shù)據(jù)集的價(jià)值也不可估量。數(shù)據(jù)開放是指向社會(huì)公眾提供容易獲取和理解的數(shù)據(jù)。對(duì)于政府而言,數(shù)據(jù)開放主要指公共資源的數(shù)據(jù)開放,對(duì)于企業(yè)而言,主要指披露企業(yè)運(yùn)營數(shù)據(jù),推動(dòng)公共企業(yè)特別是上市公司的信息公開,讓公眾公平參礎(chǔ)I與:集美國各地的大量氣候和天氣數(shù)據(jù)集,涵蓋了氣候數(shù)據(jù)、海洋數(shù)據(jù)、氣象數(shù)據(jù)、大氣數(shù)據(jù)以及地球物理數(shù)據(jù),這對(duì)于其它科研機(jī)構(gòu)和商業(yè)組織,研究美國氣候變遷、農(nóng)業(yè)種植、生態(tài)保護(hù)、漁業(yè)捕撈等吸引公集T和動(dòng)I?)ó@è.Q(b??(Gj6KN?1%4è?fiK‰j1%(a?>??H?<&??8iˉ%êwa1lM0@_??&'Am%k??ê71HQBCZê.jGGH(a??fiμ??>Q9/ijXB`Q9Q?-8XBYZh9%??fi?IHVí%?qiKMJ"?z…K%?81ê)…?'e?ü`jWNμíx`jWZn`?§ê?`OPq???8GzGH~@·}G?8的AI型道I圖9),.機(jī)器學(xué)習(xí)訓(xùn)練之后得到的模型數(shù)據(jù),往往需要針對(duì)特定的推理設(shè)備進(jìn)行后處理,包括剪枝、量化、壓縮、格式轉(zhuǎn)化等處理,其中訓(xùn)練環(huán)節(jié)涉及到諸如數(shù)據(jù)標(biāo)注、清洗、規(guī)整、驗(yàn)證等工作非常復(fù)雜冗長。化I的I推?%(büê%?iˉ1V?h}R??AWè????%?éXY`?é0?′¨?XéZ?YaòúG?4t1G6K…“?)uv?é÷6…Têàfl%%]??1?`–P1μ÷3úù`+q`f5?8ò8?à\…cdàflG???%???h`à¥`<e&g?%Z\Z?hb_1íhèb%?écéb’`?éfi:d%b’`%à¥?éàflb’`W?y???5\_nob’á_1

à

?M?§?h′′¨??%?!K#LM7NOPQ

?è針對(duì)人工智能研發(fā)過程中的數(shù)據(jù)流轉(zhuǎn)和權(quán)利界定,當(dāng)前尚無被業(yè)界普遍接受并且在實(shí)際應(yīng)用中不造成歧義或帶來不確定性的數(shù)據(jù)許可協(xié)議文本。學(xué)術(shù)界或產(chǎn)業(yè)界目前所共享開放的數(shù)據(jù)資源在發(fā)布時(shí),如L情況,但上述協(xié)議并非專為數(shù)據(jù)流轉(zhuǎn)和開發(fā)利用而設(shè)計(jì)。因此,在人工智能對(duì)數(shù)據(jù)處理加工并抽象化為模型并最終應(yīng)用于系統(tǒng)中的各生命周期階段和中間產(chǎn)物而言,數(shù)據(jù)的權(quán)屬讓渡和權(quán)利責(zé)任分配應(yīng)當(dāng)有更為細(xì)致的界定從而去符合人工智能的生產(chǎn)和科研需要。同時(shí),面對(duì)人工智能數(shù)據(jù)集的來源的復(fù)雜性,當(dāng)前開源軟件協(xié)議或知識(shí)共享協(xié)議也很難非常好的處理互聯(lián)網(wǎng)公共信息匯集而成標(biāo)注數(shù)據(jù)集的情形,。由xn了ya大tI了la了A試圖在公共信息匯集型數(shù)據(jù)集授權(quán)問題、數(shù)據(jù)開放性授權(quán)問題、非商業(yè)使用的定義問題等難點(diǎn)和痛點(diǎn)上予以突破。而在國內(nèi),上海白玉蘭開源開放研究院在木蘭開源社區(qū)框架和精神指導(dǎo)下,制訂并發(fā)布了稱。協(xié)議的草擬由白玉蘭開源聯(lián)合開放數(shù)據(jù)中國共同完成,并參考了國際通用開放協(xié)議如知識(shí)共享協(xié)議、開放數(shù)據(jù)庫協(xié)議(L),國際社群人工智能領(lǐng)域數(shù)據(jù)流通的授權(quán)協(xié)議如微軟起草的A、-xn的yatI的lae。擬定采用該協(xié)議發(fā)布的數(shù)據(jù),應(yīng)滿足公開發(fā)布、免費(fèi)發(fā)布的基本前提,并且發(fā)布的數(shù)據(jù)必須符合國家數(shù)據(jù)安全的要求,不涉及國家秘密、國家安全、社會(huì)公共利益、商業(yè)秘密、個(gè)人隱私等。由于數(shù):。。:第一類為默認(rèn)數(shù)據(jù)由數(shù)據(jù)發(fā)布者合法合規(guī)所有或具備處置權(quán)。借鑒知識(shí)共享協(xié)議,草擬了一套:果A:相同方式許可,適用于要求下游傳播數(shù)據(jù)能夠以相同方式給予許可,但不要求對(duì)產(chǎn)出性U:僅計(jì)算使用協(xié)議,適用于數(shù)據(jù)發(fā)布方禁止對(duì)數(shù)據(jù)自身的直接使用、展示的情況(如電視臺(tái)作為數(shù)據(jù)發(fā)布方會(huì)希望禁止視頻數(shù)據(jù)本身的播放、拷貝、售賣等,但會(huì)允許使用視頻數(shù)據(jù)作為訓(xùn))以L如C這4如,了數(shù)據(jù)庫/數(shù)據(jù)集的結(jié)構(gòu)(即數(shù)據(jù)選取、組織的方式,ee)和數(shù)據(jù)內(nèi)容予以了拆分授權(quán)的:過a和r在C類的標(biāo)簽(鳥類照片對(duì)應(yīng)的鳥類名稱、科目等信息),最后形成了一個(gè)「鳥類圖片訓(xùn)練數(shù)據(jù)集」需要授發(fā)。從N獲部T。采?;谏鲜霭咐膱鼍懊枋?,草擬了L(結(jié)構(gòu)內(nèi)容分離版)協(xié)議,作為一個(gè)單獨(dú)的實(shí)驗(yàn)性協(xié)議數(shù)據(jù)傳播權(quán)益的法律模版協(xié)議的一次嘗試,此舉旨在鼓勵(lì)基礎(chǔ)公共開放數(shù)據(jù)的流通,降低中國人工智能基礎(chǔ)研究和產(chǎn)業(yè)落地在數(shù)據(jù)集采用、編輯、分發(fā)的法律風(fēng)險(xiǎn),明確各參與方職責(zé),增強(qiáng)道德意識(shí)。隨著人工智能技術(shù)的發(fā)展和開放數(shù)據(jù)集的豐富,與時(shí)俱進(jìn)推動(dòng)開放數(shù)據(jù)協(xié)議完善升級(jí),需要更多基礎(chǔ)的I的I?!"#RSTUVW理II、I率I:CPU有2U數(shù)值計(jì)算、O操作以及驅(qū)動(dòng)其它子系統(tǒng)模塊任務(wù)等等,因此,對(duì)于機(jī)器學(xué)習(xí)中傳統(tǒng)模型推理或者不U。GPU()合I長I則FPGA于U和編程專業(yè)知識(shí)的工程師才能夠?qū)λM(jìn)行編程,雖然靈活性高,不過在切換應(yīng)用配置時(shí),耗時(shí)幾分鐘甚至ASIC(專用集成電路):定制功能集成電路的統(tǒng)稱,采用更簡化硬件代碼實(shí)現(xiàn)和先進(jìn)制程(比如5過C時(shí)C:像;,;似于I。5.;=èè?=èêtDEF~G¨F-L?<M?óI選I如U完成模型訓(xùn)練過程。推理階段場景則相對(duì)復(fù)雜,既可以在數(shù)據(jù)中心相對(duì)標(biāo)準(zhǔn)的軟硬件環(huán)境中完成,也可能是在邊緣設(shè)備端完成,比如手機(jī)攝像頭、平板電腦、人臉識(shí)別閘機(jī)、指紋識(shí)別門禁等。下圖是定量對(duì)I ).z ).!.#RSXYGPU與CPU比圖0的I是U絕少I用U為I可:是GPUU對(duì)I的U可對(duì)T有CPU代U如lM的N及E對(duì)掘UU的于。的I、由U入I用U成I從U至U;((%h+??fl4VíTˉ?(a??fl4??íhêW<e$%6?5i?·H≤j%G?(akX?k—…fm’%—Ví`ê*`¥?qèo*`(aq?`qnò/i?$±ipqxR'?G@…xyuá{|1"#$…>…?‰′l?HI?q…K?,fKGf%hflK??ze(??%’M§r(′4‰fl’fSF(a3T(a?

Q%noz|?ua+I?ùtt4u1@…r(akX?+?·?r/Tˉb‰Kêffêmˇ;′hffVWJGá($%(%G%(?(ò‰?*"hü”$1???…Hp^&_?& ?1;r…5áqnò%]^?$jWX¤?}|fü‰bG?產(chǎn)AI練GPUU由于擁有多達(dá)數(shù)千個(gè)并行計(jì)算核心,流水線較長,控制邏輯比較簡單,非常適合處理大規(guī)模并行數(shù)學(xué)運(yùn)算,因此也逐漸成為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最佳選擇。這個(gè)領(lǐng)域基本上由國外廠商英偉達(dá)長為紀(jì)騰達(dá)0元達(dá)6芯2用m代U度到6產(chǎn)U對(duì)I得!1#RSZ?GPU與CPU比U由于其設(shè)計(jì)架構(gòu)原因,比較適合做復(fù)雜的邏輯和數(shù)學(xué)計(jì)算,特別是不需要大量并行計(jì)算的任務(wù),針對(duì)不易并行化的實(shí)時(shí)推理和機(jī)器學(xué)習(xí)算法、依賴順序數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)推理、對(duì)請(qǐng)求數(shù)據(jù)的。U和U在推理中比較適合,因?yàn)槠洌喝菀撞⑿谢氖聦?shí)推理和機(jī)器學(xué)習(xí)算法、神經(jīng)網(wǎng)絡(luò)處理(訓(xùn)練和推理都涉的I。算于I個(gè)U和U的I在邊緣推理時(shí),由于場景特別碎片化,對(duì)于計(jì)算平臺(tái)的功耗、散熱、計(jì)算延遲要求等可能完全不一樣,選擇成本和性能兼顧的計(jì)算平臺(tái)非常重要。U通常價(jià)格昂貴,功耗很大,可能適用于性能要觀U耗MA系和M列能U的U。署I用的T建I的U著U對(duì)I種I。AII用I著Gr到5在I量用I:智慧家居:主要用于圖像識(shí)別、語音識(shí)別、語義理解等,算力要求小于S,對(duì)功耗要求較高的易US。從2–0較的eIC,的。自動(dòng)駕駛:主要用于實(shí)時(shí)環(huán)境數(shù)據(jù)感知融合、物體分割及識(shí)別和路徑規(guī)劃等,根據(jù)智能化需求不從0于U的r展U座于I線蓋4測5從1元至8達(dá)載mnpI重芯片,是對(duì)芯片設(shè)計(jì)、制造及封裝的全面挑戰(zhàn),需要支持高性能U、圖像處理(P)、音視頻知I、功耗、信息安全、功能安全、易用性等多重因素。面對(duì)技術(shù)挑戰(zhàn),國內(nèi)涌現(xiàn)出地平線、黑芝麻、芯馳多C汽于2年8月1I!4#[\]P^_`期N積層作用于輸入圖像以生成低維特征,然后再將幾個(gè)全連接層用作分類器產(chǎn)生識(shí)別結(jié)果的輸出;則使用了多分支和并行層,以實(shí)現(xiàn)多尺度采樣和避免梯度消失;再比如循環(huán)神經(jīng)網(wǎng)絡(luò)的各種變體:M、用于語音識(shí)別的雙向N,以及用于機(jī)器翻譯的q模型,以及最近2年比較火的r模型等等,他們的并行性、計(jì)算依賴性、網(wǎng)絡(luò)層數(shù)、模型大小、以及數(shù)據(jù)訪問模式都。I生要I的幫讓I從I解I現(xiàn)流如U或A一個(gè)計(jì)算機(jī)程序可以綜合利用不同處理器的特性來完成不同特定任務(wù),從而達(dá)到整體提高計(jì)算效率的。為mn能有P而U架Z3)]?à0拉t拉0D含2個(gè)U2個(gè)個(gè)個(gè)和處在0中UU2個(gè)A供S成0能I統(tǒng)U成II不過這種并行架構(gòu)在內(nèi)存訪問延遲、計(jì)算核心作業(yè)調(diào)度、計(jì)算核心控制和數(shù)據(jù)并行性、多層次緩存結(jié)對(duì)I而言并非完全透明,甚至需要開發(fā)者自己對(duì)性能數(shù)據(jù)進(jìn)行分析、調(diào)試、跟蹤。這一整套代碼編寫、調(diào)試的I多I編:程I開發(fā)人員學(xué)習(xí)成本和團(tuán)隊(duì)溝通成本,提高日常開發(fā)工作效率,也有助于保持軟硬件平臺(tái)演化的一致性。比如深度學(xué)習(xí)主流框架之一的s,代碼簡單很容易擴(kuò)展,非常直觀的定義神經(jīng)網(wǎng)絡(luò),初學(xué)者非常初s了o成I訓(xùn)著ws持w個(gè)I端的I的I引二是簡化調(diào)試部署。同一個(gè)系列不同版本的芯片,功能或者性能可能有所不同,芯片廠商提供統(tǒng)一的K,可以屏蔽芯片實(shí)現(xiàn)細(xì)節(jié)和硬件差異,可以避免用戶代碼的改動(dòng)甚至可以避免用戶代碼重新于I。A為II以在I用用U的IK來完成功能封裝,盡可能讓開發(fā)者使用便利,對(duì)于異構(gòu)計(jì)算的透明支持,可以幫助應(yīng)用開發(fā)者充?(?(a@Q?%Ua+àfl?8Gj+?56|q?fl5g%&_#a…¨/iO?1??h}+?rfl55fl`?'x?4ò?aê%3??é·{"#$?—1|q?flH2O%&_a+′?J?ü‰h’+GuTà+?5'9:&_%a+a,1Z?+~M^_?h′?$?§1?&?SR?≠%3??é′IJ?1v+??h}3??5áIJ?%O?*1w?μ÷3T%àfl+?3(>w?lG,f?}££?*£?£?=êf7???P`3?W′Z?Píh?q-÷°.`ò?*p&_?Pó?1?¨ ?afiEé+);s/7^_?%rs?`?Oòúìc?G?ê3?Wq@DZ′′Z1DZ??8 °.?é??H?Q?ù]?=$1??4tIJê?WWê3&_>lò%ínG38:Qˉù]?=$>13?W0B¨:=6e%?#=fG??與傳統(tǒng)的軟硬件項(xiàng)目落地相似的是,人工智能項(xiàng)目的落地,需要有大量的工程開發(fā)人員參與。然而,由于人工智能項(xiàng)目的系統(tǒng)復(fù)雜性,以及算法模型的泛化能力、數(shù)據(jù)質(zhì)量以及實(shí)施過程中研發(fā)人員能力層次不齊等因素,造成實(shí)際項(xiàng)目落地未必能達(dá)到預(yù)期效果。為了進(jìn)一步降低工程落地難度,涌現(xiàn)惠I各!"#RSXYabêf?9W???7àflì???13A?ê4;r>??h,`o?? 13éè78ˉ?′?üàfl+,ó?êf?9W???7àflì???13A?ê4;r>??h,`o?? 13éè78ˉ?′?üàfl+,ó?{ˇ′{èGí?ê@Iù%fi?F¥&?éè′ê4…¨…x9?ü¢7W?°+1?;r9W*ê4§\UJM?μ*ó8Jr??(?G(,f%((bb?J?óêJfY?N6KiJMJ?J,fJG?個(gè)II開發(fā)者認(rèn)為選定一個(gè)深度學(xué)習(xí)框架的核心因素用于日常工作,該框架的技術(shù)社區(qū)一定要非常成熟,已經(jīng)有大量的開發(fā)者使用,周邊生態(tài)非常豐富,對(duì)應(yīng)的文檔、模型庫、開發(fā)套件完備,且最好是知名企業(yè))wI難給主導(dǎo)項(xiàng)目的企業(yè)或者機(jī)構(gòu)帶來直接商業(yè)回報(bào),背后的“經(jīng)濟(jì)帳”需要與企業(yè)的戰(zhàn)略經(jīng)營目標(biāo)保持高。!.#RScdBZ?對(duì)II對(duì)推理的響應(yīng)延遲、設(shè)備算力、功耗等有著非常大的差異化要求,需要針對(duì)運(yùn)行硬件環(huán)境優(yōu)化編譯模型,對(duì)I及。的IB測試以及支持多種語言調(diào)用的I。比如w有wg,h有e有eg思e有eg他們專為生產(chǎn)環(huán)境而設(shè)計(jì),對(duì)模型文件甚至可以做到開箱即用,提供“模型及服務(wù)”(lsa的IeM:$b)$bM將Ie應(yīng)硬件執(zhí)行目標(biāo)對(duì)模型的中間表示層進(jìn)行優(yōu)化,然后通過后端編譯器將模型代碼轉(zhuǎn)化成相應(yīng)的硬件平臺(tái)可執(zhí)行文件,由于最終的可執(zhí)行代碼是針對(duì)特定硬件目標(biāo)優(yōu)化的,其執(zhí)行效率非常高。e項(xiàng)目提供了一個(gè)開放架構(gòu),允許開發(fā)自定義硬件執(zhí)行代碼編譯器擴(kuò)展,方便硬件廠商將自己的硬件平到M。?M|μ≠?? ·′??ùw1í?M0?%(a`ò?ê*$Oò??X¤[í1?TB?…%êwaz|±?m1—M0?(a`òTà+é?¥??fl?ü1S+3??X¤i?%¥ˉl??‰…J5(-h′?′??4(%8"#$éè>1??flY′??êw%a??…<e\êW\]Q1ào4?b’b_é?%z5?3T1TV<e~#a1??′%?é+?3TZ%"#$&_éè>lò1wG?(@(4(<e%é+≠(O1—TZé+é?%àfl?h^_?T]5ùT??M??`U?O′M??%·?a+1[í<e?t????8’>àfl%1Ha+t?o\\flY?8%?§?U???G@…à?uT òú1?ê?Z?éè<e%Ua+[í_?%&…d2%?Z?éèUa+[í<e+,1}Gff,féd%`^&fZa+o*`?é?&??ü1

àZ7BTZ??%<e??1Z?vé?4·ê*?y?ff?(Ghe?f?fl{;jflhe??—;÷e?é3??Ffò?_G3?Wrfl-÷°.|h?′àfl?≠#Pa+o*1???é≠??3Ia&?G?h?′‰h?l??1f?flf÷?@fff%(!1#RSLefg

?“人工智能開發(fā)平臺(tái)通常是集成了硬件算力,軟件框架、運(yùn)維開發(fā)、數(shù)據(jù)及模型存儲(chǔ)管理等的綜合平臺(tái),支持大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)訓(xùn)練、算力資源調(diào)度與分配、模型推理部署等,其軟硬件技術(shù)棧也通常有四層,每一層都有相應(yīng)的系統(tǒng)軟件對(duì)該層的服務(wù)提供抽象訪問接口,這些軟件針對(duì)特定的底層硬件異構(gòu)計(jì)算技術(shù)、通信技術(shù)、資源調(diào)度等做了大量的定制開發(fā),這些開發(fā)工作復(fù)雜度大,投入研發(fā)用I,).I為I以S者S的多II云S的S。云IeIn軟eIm百臺(tái)L臺(tái)云云鈦云I云響I:))B”@(??(a%Ví`?é;r`?éà¥\?é??%&g??h??G+?jWX¤éè¥B”@(??(a%Ví`?é;r`?éà¥\?é??%&g??h??G+?jWX¤éè¥Y??%?(Gè(?(èé?…êá(aaù`f?òr?`F?*r?`?éà¥`?é<e78`[ío*?b?+,1R*fY??ê((%(G?(]?f?(‘í~′zpq‘í~Tó?\?+,1??(a`àfl`i,T?–1?59:??s?7>:àfl^…(f‘?“?!?Bl?(ò(á((h((?`{%((…l4ˇ¨(′?(?(@(éèheê???Q@??fl?;r`à¥′<ejWX¤h?éG56o*%??s??-à?ˉ??w??K§M?fl‰%”Jaf%lG?z!4#9:h1年8所份0esdsfnn的I括-3、P等都算是基礎(chǔ)模型?;A(chǔ)模型本質(zhì)是在大量未標(biāo)注的數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練得到的模型,然游I推理任務(wù),增強(qiáng)了模型的泛化能力,這些基礎(chǔ)模型基本上也是使用了自我監(jiān)督學(xué)習(xí)訓(xùn)練的大型神經(jīng)網(wǎng)絡(luò)。。經(jīng)典的監(jiān)督學(xué)習(xí)需要大量標(biāo)記數(shù)據(jù),標(biāo)注數(shù)據(jù)可以是分類標(biāo)簽、圖片包含紅綠燈的像素區(qū)域坐標(biāo),也可以是蛋白質(zhì)的空間結(jié)構(gòu)。標(biāo)注數(shù)據(jù)通常都是人工標(biāo)定的,成本較高,也不具備擴(kuò)展性。而自監(jiān)督學(xué)習(xí)是基于未標(biāo)注數(shù)據(jù)的訓(xùn)練,至少有兩方面好處:一是由于原始未標(biāo)注的數(shù)據(jù)非常多,擴(kuò)展性比有。了I訓(xùn)練不需要大量的標(biāo)注數(shù)據(jù),保障了基礎(chǔ)數(shù)據(jù)底座,外加少量的包含標(biāo)注數(shù)據(jù)的領(lǐng)域知識(shí),可以迅速了I還統(tǒng)I在海量通用數(shù)據(jù)上訓(xùn)練,提升模型的泛化能力。模態(tài)融合指的是通過聯(lián)合訓(xùn)練優(yōu)化集成自然語言處理、心I了I邊界?;A(chǔ)賦能指的是應(yīng)用落地時(shí)可以針對(duì)多個(gè)領(lǐng)域知識(shí)進(jìn)行微調(diào),廣泛適用于不同垂直場景,比如金統(tǒng)I本基礎(chǔ)模型雖然在很多場景中被驗(yàn)證非常有效,零標(biāo)注數(shù)據(jù)與小樣本學(xué)習(xí)的能力也大大減輕人類工表如3時(shí)云U在0。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論