AI深度報(bào)告:向量數(shù)據(jù)庫(kù)AI時(shí)代的Killer App_第1頁(yè)
AI深度報(bào)告:向量數(shù)據(jù)庫(kù)AI時(shí)代的Killer App_第2頁(yè)
AI深度報(bào)告:向量數(shù)據(jù)庫(kù)AI時(shí)代的Killer App_第3頁(yè)
AI深度報(bào)告:向量數(shù)據(jù)庫(kù)AI時(shí)代的Killer App_第4頁(yè)
AI深度報(bào)告:向量數(shù)據(jù)庫(kù)AI時(shí)代的Killer App_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

向量數(shù)據(jù)庫(kù)是什么:存儲(chǔ)向量的數(shù)據(jù)庫(kù)向量AI的核心AI的全流程其實(shí)都是圍繞著向量的數(shù)學(xué)運(yùn)算。量在人工智能(A)中扮演著常重的色尤在器學(xué)和度習(xí)域以下向與AI一自peA:1、數(shù)據(jù)表示:在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中,數(shù)據(jù)通常以向量形式表示。例如,圖可以示像值向,文可表為向或句向;2、詞嵌在然言N嵌技如od2eGoe和E)將詞語(yǔ)轉(zhuǎn)換為多維向量,這有助于捕捉詞語(yǔ)之間的語(yǔ)義關(guān)系。這些向量表示用于本類情分、機(jī)翻等;3、神經(jīng)網(wǎng)絡(luò)權(quán)重:在深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置通常以向量和矩陣的式存儲(chǔ)。在訓(xùn)練過(guò)程中,優(yōu)化算法(如梯度下降)會(huì)不斷更新這些權(quán)重向量以最化失;4、向量運(yùn)算:許多機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(M、K-近鄰(KN)和主成分P及到量的離算內(nèi)積算其向運(yùn)。這些算助找數(shù)中的式者數(shù)進(jìn)分類;5、優(yōu)化梯機(jī)器和深學(xué)中優(yōu)化(如度降和Ada常使用(種量更新型而損失數(shù)最助于改模的;6、強(qiáng)化習(xí):強(qiáng)學(xué)習(xí),智體使向表示態(tài)和作。如Q學(xué)和深度Q網(wǎng)D中的Q函會(huì)出個(gè)向能根這量選擇佳作。總之,向量對(duì)于AI至關(guān)重要。無(wú)論是之前的N、N模型還是當(dāng)前火熱的anoe內(nèi)的流轉(zhuǎn)實(shí)是量處和變。高空向所隱含的海信也了AI用的凡力。圖:N模型也是把像向量化之后進(jìn)行理數(shù)據(jù)來(lái)源:ImageNet,單就數(shù)據(jù)而言,只向化之后的數(shù)據(jù)才能被I模型所分析。據(jù)夠分類為結(jié)構(gòu)數(shù)和結(jié)化據(jù)其結(jié)構(gòu)化數(shù)據(jù)般指以用系數(shù)庫(kù)示和存以二表邏輯達(dá)現(xiàn)數(shù)型的構(gòu)數(shù)例成單工資單非結(jié)構(gòu)化數(shù)有固的構(gòu)包文圖白結(jié)理間信息物網(wǎng)據(jù)在人智時(shí)目前流的對(duì)非結(jié)構(gòu)化數(shù)進(jìn)管理和處理的方法是利用N或ansoer等嵌入模(meddgde將非結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義容化為高維、密集的量入(ecormbddng,即多維向直對(duì)些入進(jìn)存理構(gòu)化據(jù)化嵌后其語(yǔ)義的相似性能夠通過(guò)向量空間點(diǎn)的距離進(jìn)行量化表示,并進(jìn)行常見(jiàn)的機(jī)器學(xué)習(xí)操作如聚、類推等。圖:深度學(xué)習(xí)法將物轉(zhuǎn)化為向量數(shù)據(jù)來(lái)源:Pinecone官網(wǎng),向量化:技術(shù)已經(jīng)充分?jǐn)U散向量化技術(shù)已經(jīng)十成并且存在大量的開(kāi)源決方案盡向化詞對(duì)大多普民而較陌生但際技早成目大應(yīng)的d2c發(fā)在203年不的領(lǐng)在同向化的案需注的不同的領(lǐng)域,如文字、圖片、視頻等,向量化的技術(shù)是不同的。這些技術(shù)可以是諸如OpeAI大型商,也以諸如HggngFace中層供當(dāng)還有大量三廠商開(kāi)提。圖:部分向量框架以下是一個(gè)向量化例如對(duì)我歡蘋句的量我們可以為個(gè)同詞分一個(gè)一字。是一可的射系:我:1喜歡吃:3蘋果接下,們以這數(shù)字D來(lái)示個(gè)。例,子我歡蘋”可以示向量1,2,3,4這樣們可將些向輸?shù)狡髁?xí)型進(jìn)行訓(xùn)和測(cè)然而種方存一問(wèn)如這些向量并沒(méi)有捕到詞語(yǔ)之間的語(yǔ)義關(guān)系了決這問(wèn),們以用詞入術(shù)如odec或Go。些法將詞語(yǔ)示一固長(zhǎng)的向(如50這向量可以捉語(yǔ)間相性。如我可得以下詞量:我:0.,0.3,0.2,..,0.1]喜歡:.3,05,02,...,0.]吃:0.,0.1,0.2,..,0.3]蘋果:.5,02,01,...,0.]這些向可通訓(xùn)預(yù)先理量本據(jù)到然們以子的每個(gè)替為應(yīng)詞量,而到個(gè)量表示句。向量化數(shù)據(jù)有著高的算成本因此求存本替代是必須量數(shù)據(jù)的計(jì)算本要自據(jù)處征取向表示生這過(guò)常涉及大量雜學(xué)算如陣乘征換統(tǒng)計(jì)算處大模據(jù)和高維據(jù)些算能會(huì)耗量計(jì)資和時(shí)外許機(jī)學(xué)和深度習(xí)法需對(duì)量化據(jù)行雜計(jì)梯下類經(jīng)絡(luò)訓(xùn)練這計(jì)任通需要大硬支,高能PU和GU及用的深學(xué)加器相之下存成主受量化據(jù)規(guī)和度響雖然高向和規(guī)數(shù)集確會(huì)致儲(chǔ)求增加存技的發(fā)使得存成相較如代盤固硬的存容越越時(shí)格也逐降外通使用疏量示數(shù)壓縮術(shù)我可進(jìn)步低存儲(chǔ)本更要是隨著計(jì)技的及企業(yè)個(gè)用可按購(gòu)存儲(chǔ)空得儲(chǔ)本得更可受相之計(jì)資的需買常格較高尤是需強(qiáng)計(jì)算力場(chǎng)中綜所述向化據(jù)需計(jì)成本遠(yuǎn)于儲(chǔ)要是為算務(wù)常及大復(fù)數(shù)運(yùn)存儲(chǔ)成本可通優(yōu)技和計(jì)算務(wù)到效制。向量數(shù)據(jù)庫(kù):專門用來(lái)存儲(chǔ)和查詢向量的數(shù)據(jù)庫(kù)向量數(shù)據(jù)庫(kù)是專門來(lái)儲(chǔ)和查詢向量的數(shù)向量據(jù)是種門于存、管理查向(ecor數(shù)庫(kù)要用于工能機(jī)學(xué)數(shù)據(jù)挖等域同統(tǒng)庫(kù)相量據(jù)不夠完基的C添、讀取查詢、更新、刪除、元數(shù)據(jù)過(guò)濾、水平縮放等操作,還能夠?qū)ο蛄繑?shù)據(jù)進(jìn)行更快速的相似性搜索前AI流大如nsoe、CpGT等夠?qū)⑽南穹菢?gòu)數(shù)據(jù)化高向伴隨模應(yīng)場(chǎng)的展這些高向數(shù)的儲(chǔ)檢索顯帶向數(shù)庫(kù)的場(chǎng)求。圖:向量數(shù)據(jù)與其非關(guān)系型數(shù)據(jù)庫(kù)的比數(shù)據(jù)來(lái)源:Pinecone,向量據(jù)的作程括以步:1、向量數(shù)據(jù)的存儲(chǔ):向量數(shù)據(jù)通常是高維的數(shù)值型數(shù)據(jù),如圖像特征向量、文詞向等向數(shù)庫(kù)用基向的儲(chǔ)構(gòu)以便速詢處;2、向量索引數(shù)使用QLH或NSW等算為量制引并將向量射數(shù)結(jié),便更地行索;3、向量查詢:向量數(shù)據(jù)庫(kù)將查詢向量與數(shù)據(jù)庫(kù)中的向量進(jìn)行比較,從而找到最鄰的量;4、查詢結(jié)果的返回:向量數(shù)據(jù)庫(kù)返回查詢結(jié)果,通常包括與給定向量最相似的向量列向之的度得等環(huán)以使不的似度對(duì)最近鄰重排。圖:向量數(shù)據(jù)常見(jiàn)作流程數(shù)據(jù)來(lái)源:Pinecone,向量數(shù)據(jù)庫(kù)能夠通過(guò)向量搜索(ecorSac,實(shí)現(xiàn)更為高效、準(zhǔn)確的執(zhí)行和結(jié)果輸出。當(dāng)主的庫(kù)檢采關(guān)詞索KewodSeac)方,將搜索關(guān)詞數(shù)庫(kù)的進(jìn)行配根詞相性詞現(xiàn)頻到出結(jié)果關(guān)詞索缺在于其于義同表達(dá)式同文理能較差不備?;蛘Z(yǔ)言檢能向量搜索利神網(wǎng)模型對(duì)如文本圖查表為高向采用K近鄰(eaetehbo)或近似臨近算ppoxmaeNeargNegbo計(jì)算目標(biāo)對(duì)象與據(jù)庫(kù)中向量嵌入的距離(通常采用余弦距離、歐氏距離等方法)以表示兩者的相似度并按向的似進(jìn)排序返結(jié)關(guān)詞搜相量索夠現(xiàn)對(duì)語(yǔ)義更為精準(zhǔn)的理解,在多模態(tài)、不同語(yǔ)言等環(huán)境下能夠輸出更為準(zhǔn)確的結(jié)果。例如:英文的pal可以指“資本”或者首都“從中國(guó)去美國(guó)”“美國(guó)去中國(guó)”存在方向傳的數(shù)據(jù)庫(kù)不能很好解這些問(wèn)題。圖:向量搜索作原理數(shù)據(jù)來(lái)源:Elastic,向量數(shù)據(jù)庫(kù)的主要點(diǎn)優(yōu)勢(shì)包括:1、高效的相似性搜索:向量數(shù)據(jù)庫(kù)通過(guò)優(yōu)化的索引結(jié)構(gòu)和查詢算法,能夠在大模向量數(shù)據(jù)集中快速地找到與給定查詢向量相似的向量。這有助于實(shí)現(xiàn)實(shí)時(shí)近實(shí)的索推功;2、靈活的向量表示:向量數(shù)據(jù)庫(kù)通常支持各種向量表示方法,包括稠密向量(詞嵌入)和稀疏向量(詞袋模型和FD。使得向量數(shù)據(jù)庫(kù)可以處種類的據(jù)如本圖像音和頻;3、可擴(kuò)展性:向量數(shù)據(jù)庫(kù)通常具有良好的可擴(kuò)展性,可以在多個(gè)計(jì)算節(jié)點(diǎn)上分式存儲(chǔ)和查詢向量數(shù)據(jù)。這使得向量數(shù)據(jù)庫(kù)可以應(yīng)對(duì)大規(guī)模數(shù)據(jù)集和高并發(fā)詢的求;4、高級(jí)查詢功能:向量數(shù)據(jù)庫(kù)通常提供豐富的查詢功能,如相似性搜索、近似近鄰查詢、向量加權(quán)查詢等。這使得向量數(shù)據(jù)庫(kù)在各種應(yīng)用場(chǎng)景中具有較高靈活和用。圖:未來(lái)向量據(jù)庫(kù)技術(shù)棧數(shù)據(jù)來(lái)源:Pinecone,向量數(shù)據(jù)庫(kù)有什么用:給AI插上騰飛的翅膀拓展大模型的邊界:向量數(shù)據(jù)庫(kù)的核心應(yīng)用向量數(shù)據(jù)庫(kù)一個(gè)很要功能是拓展大模型邊邊界又分為時(shí)間邊界空間界。時(shí)間邊界的擴(kuò)展指是量數(shù)據(jù)庫(kù)能夠使得模型LM擁“長(zhǎng)期記憶所周知,前大型無(wú)是P域的GT系還是V域的ReET系)都是先練Pran的模,著常晰練截日CuofDa。導(dǎo)致這些型于練止之后生事一所而信的值著的逝呈現(xiàn)指級(jí)降這使得LM很場(chǎng)適用有。著量據(jù)的引入其部?jī)?chǔ)最的信向能極地展大型應(yīng)邊向量據(jù)庫(kù)可以使得大模型持實(shí)時(shí)性提高模型的用性并使得模型能動(dòng)態(tài)調(diào)整。也就是說(shuō)向數(shù)庫(kù)使得大模型的長(zhǎng)記得到了可能。例如假一預(yù)練新聞要型在021完成訓(xùn)。而到了2023年多聞件趨已經(jīng)生變了大模能處這新息可以使向數(shù)庫(kù)存和詢223年新章向。過(guò)種式大型可以據(jù)新數(shù)生更準(zhǔn)和關(guān)摘樣推系中預(yù)練大模型能法別用和新品特通量數(shù)以時(shí)用戶和產(chǎn)品特向從大模能根最的息為戶供精的薦此外量據(jù)還以持實(shí)監(jiān)和析例在融域訓(xùn)股票預(yù)測(cè)??蔁o(wú)獲訓(xùn)截止期后股價(jià)信息過(guò)最的價(jià)向量存在量據(jù)大??蓪?shí)分和測(cè)未股價(jià)走有就是在客領(lǐng),量據(jù)將使大型以溯對(duì)話開(kāi)。空間邊界的擴(kuò)展指的是向量數(shù)據(jù)庫(kù)能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問(wèn)題戶出的opt可會(huì)含些信息根媒報(bào)道工A用haPT幫己一代的bu,這源碼與導(dǎo)設(shè)測(cè)數(shù)有;員工B用ChaGT幫己優(yōu)一代就接與產(chǎn)和品記設(shè)關(guān)的一代輸了工C則用AI音手averCoa自的議音轉(zhuǎn)成字用CaGT幫他結(jié)下議容做成要這行直導(dǎo)了三星鍵據(jù)泄而ChaGT身實(shí)也過(guò)隱泄事使一小部分的對(duì)話歷史支付數(shù)據(jù)會(huì)被其他用戶查看。這些據(jù)都極為敏感。通過(guò)本地部署向量數(shù)據(jù)庫(kù)能夠在大度上解決這個(gè)問(wèn)數(shù)據(jù)本部后以儲(chǔ)企業(yè)有關(guān)大隱數(shù)。本地署者有部大模后通特的Aent大模型以有護(hù)情下訪向數(shù)庫(kù)隱數(shù)據(jù)而以不網(wǎng)露公司隱的況,得公的務(wù)到模的助。圖:peAI泄露隱數(shù)據(jù)多模態(tài)搜索向量數(shù)據(jù)庫(kù)的拿手好戲向量數(shù)據(jù)庫(kù)自帶多態(tài)能這意味著它能夠通機(jī)器學(xué)習(xí)方法處理理來(lái)自不同源的多種模態(tài)信息文本圖像音頻和視等數(shù)據(jù)向量化過(guò)程使這不同模態(tài)數(shù)據(jù)的內(nèi)部藏息得以暴露進(jìn)為態(tài)應(yīng)提支個(gè)型的應(yīng)用場(chǎng)是語(yǔ)搜量數(shù)庫(kù)持語(yǔ)的息檢戶以用語(yǔ)法語(yǔ)文多語(yǔ)搜圖書(shū)無(wú)事對(duì)名進(jìn)多言譯理這益于向表能捕到義相性得自語(yǔ)言查和容夠互匹。此外向數(shù)庫(kù)可實(shí)現(xiàn)模搜如用戶文來(lái)索片假用戶用俄文搜索“藍(lán)色的鞋子,盡管商品的標(biāo)題和描述都是英語(yǔ),但向量數(shù)據(jù)庫(kù)仍然能返顏為色鞋子品結(jié)果這為向數(shù)庫(kù)夠別不模態(tài)數(shù)之的義聯(lián)進(jìn)而現(xiàn)模的息索。圖:使用向量據(jù)庫(kù)中文搜索英語(yǔ)圖書(shū)圖:用俄語(yǔ)基于圖片解來(lái)進(jìn)行搜索“藍(lán)的子)近似搜索給向量數(shù)據(jù)庫(kù)帶來(lái)巨大的商業(yè)化潛力即使不考慮需要M支持的邊界拓展型應(yīng)和模態(tài)搜索,近似搜功就可以給向量數(shù)據(jù)庫(kù)帶來(lái)大商業(yè)化潛力量據(jù)庫(kù)近似AppxaeNaetNeghorSeac,稱N)一在維據(jù)查找給查向相的項(xiàng)的搜方種索的目是到離詢量最的據(jù)“鄰。在向數(shù)庫(kù)數(shù)過(guò)向化理每據(jù)點(diǎn)會(huì)表為維間中的一個(gè)我需找與個(gè)詢量似數(shù)據(jù)似索會(huì)在這個(gè)高空中速位與查向距較的據(jù)點(diǎn)種似度常于向量之間的距離(如歐氏距離、余弦相似性等。由于在高維空間中進(jìn)行精確的最近鄰索常通常用似法加搜索似索依賴于一些特定的算法和數(shù)據(jù)結(jié)構(gòu),如LoaySensveHahng(SH、HeaccalNavgbeSaloNWAnoy等算法數(shù)結(jié)能在牲一定精度前下著速索速?gòu)膶?shí)在模高數(shù)中高查搜索著大商化力:1、推薦系統(tǒng):通過(guò)利用近似搜索功能,向量數(shù)據(jù)庫(kù)可以幫助推薦系統(tǒng)為用戶提更精準(zhǔn)、更個(gè)性化的內(nèi)容推薦。這可以顯著提高用戶滿意度和使用時(shí)長(zhǎng),進(jìn)提升業(yè)值;2、文本挖掘:在自然語(yǔ)言處理領(lǐng)域,向量數(shù)據(jù)庫(kù)的近似搜索功能可以幫助快速索相關(guān)文檔、發(fā)現(xiàn)隱含的話題和關(guān)鍵信息。這對(duì)于新聞分析、競(jìng)爭(zhēng)情報(bào)、法(特是例市研究領(lǐng)具顯的業(yè)價(jià);3、圖像檢索:向量數(shù)據(jù)庫(kù)可以運(yùn)用近似搜索功能在海量圖像庫(kù)中快速查找與給圖像相似的圖像,這對(duì)于廣告、設(shè)計(jì)、版權(quán)等領(lǐng)域具有重要應(yīng)用價(jià)值。通過(guò)速、確找相圖,企可降成、高工效;4、語(yǔ)音識(shí)別和處理:近似搜索功能可以應(yīng)用于語(yǔ)音識(shí)別和處理領(lǐng)域,幫助企業(yè)語(yǔ)音數(shù)據(jù)庫(kù)中快速匹配相似語(yǔ)音片段。這對(duì)于客戶服務(wù)、語(yǔ)音助手和自動(dòng)翻等應(yīng)具顯的業(yè)力;5、生物信息學(xué):在生物信息學(xué)領(lǐng)域,近似搜索可以幫助研究人員在基因序列、白質(zhì)結(jié)構(gòu)等復(fù)雜數(shù)字?jǐn)?shù)據(jù)中查找相似性。這可以加速新藥研發(fā)、疾病診斷和因治等域進(jìn),而創(chuàng)巨的業(yè)會(huì)。實(shí)際,尼大電之一kopda就已署了量據(jù)進(jìn)近搜。之前oopeda采基于acSeach的鍵搜,這搜很提出索關(guān)鍵詞內(nèi)含主重在詞通從詞搜轉(zhuǎn)基向的似搜,okpeda能更好滿用戶搜需進(jìn)精準(zhǔn)商推智水平提升了0,而幅提升務(wù)標(biāo)。圖:傳統(tǒng)的關(guān)鍵詞搜太表層圖:公司采用了成的Mshards中間件市場(chǎng)空間:向量數(shù)據(jù)庫(kù)五百億美元藍(lán)海市場(chǎng)待引爆海量數(shù)據(jù)爆發(fā)產(chǎn)生大據(jù)庫(kù)需求互網(wǎng)化勢(shì)下數(shù)量爆式長(zhǎng)同時(shí)隨數(shù)大中數(shù)掘業(yè)能協(xié)作大數(shù)處技的趨熟,數(shù)據(jù)值指上趨。據(jù)Sas,2022全球建使和儲(chǔ)數(shù)量約為97B預(yù)到05年數(shù)到18B,021205全數(shù)量合增長(zhǎng)率為3數(shù)量爆發(fā)增為據(jù)儲(chǔ)處理來(lái)為大需。圖:21205年全球創(chuàng)建、使用和存儲(chǔ)數(shù)量變化()數(shù)據(jù)來(lái)源:Statista,全球數(shù)據(jù)庫(kù)市場(chǎng)規(guī)仍在高速成長(zhǎng)期。據(jù)Gaer數(shù)221年球庫(kù)市場(chǎng)規(guī)接近00億201億民同增約20.3,年已市場(chǎng)規(guī)模倍根前產(chǎn)研究計(jì)到2026年全球據(jù)市規(guī)將到206億美,22226復(fù)增長(zhǎng)到21.3。圖:21206E年球數(shù)據(jù)庫(kù)市場(chǎng)規(guī)?;瘍|美元)數(shù)據(jù)來(lái)源:ExpertMarketResearch,IDC,Gartner,前瞻產(chǎn)業(yè)研究院,關(guān)系型數(shù)據(jù)庫(kù)仍然市主導(dǎo),靈活拓展與并能力助力NSL數(shù)據(jù)庫(kù)騰飛。根據(jù)C告017至202,關(guān)型庫(kù)DM)場(chǎng)模復(fù)合增長(zhǎng)率為30.9而關(guān)數(shù)據(jù)RBS復(fù)長(zhǎng)率僅8.12;從規(guī)模看,關(guān)系型數(shù)據(jù)庫(kù)仍然占據(jù)主導(dǎo),83%的數(shù)據(jù)庫(kù)市場(chǎng)由關(guān)系型數(shù)據(jù)庫(kù)構(gòu)成。根據(jù)ScaeGd019統(tǒng)系型非系數(shù)庫(kù)用戶模別為0.5和9.5。根據(jù)R202球oQL市規(guī)將到73美計(jì)02228年復(fù)合長(zhǎng)將到9.92NoonL數(shù)據(jù)市規(guī)的速持續(xù)領(lǐng)先傳關(guān)型據(jù)。圖5:209年關(guān)系型與非關(guān)系型數(shù)據(jù)庫(kù)用戶規(guī)模()

圖6:202年關(guān)系型與非關(guān)系型數(shù)據(jù)庫(kù)市場(chǎng)份額()17%83%39.50%17%83%60.50%關(guān)系型數(shù)據(jù)庫(kù) 非關(guān)系型數(shù)據(jù)庫(kù)

關(guān)系型數(shù)據(jù)庫(kù)(RDBMS)非關(guān)系型數(shù)據(jù)庫(kù)(DDMS+NDBM)數(shù)據(jù)來(lái)源:ScalGrid, 數(shù)據(jù)來(lái)源:IDC,圖:21202年關(guān)系型及非關(guān)系型數(shù)據(jù)規(guī)及增速(百萬(wàn)美元,)數(shù)據(jù)來(lái)源:IDC,WilliamBlair,向量數(shù)據(jù)庫(kù)或?qū)⒂?0億美元市場(chǎng)。假:1、參考GaneDC市模數(shù)201全數(shù)庫(kù)市規(guī)為800億;2、到200,球據(jù)場(chǎng)規(guī)以8年合長(zhǎng)率長(zhǎng)即030年數(shù)據(jù)市規(guī)為358億美;3、參考NoL云務(wù)庫(kù)的比同考到AI的快滲設(shè)230NoL據(jù)中量庫(kù)占將到0;根據(jù)述設(shè)們出預(yù)計(jì)到230年,全球量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模將到522億美元。中國(guó)向量數(shù)據(jù)庫(kù)市空或?qū)⑦_(dá)到25349億元根據(jù)國(guó)通數(shù)21年中國(guó)數(shù)庫(kù)場(chǎng)模為39元全數(shù)庫(kù)80億美市的重為5.4;預(yù)計(jì)到025年中數(shù)庫(kù)市規(guī)為688元202025復(fù)增率為2.4,占全數(shù)庫(kù)場(chǎng)比約為614根據(jù)C20年國(guó)據(jù)規(guī)約為92B,占全總的18;到2025,國(guó)據(jù)模將至486B占數(shù)據(jù)量的7.中數(shù)在全的比超據(jù)市場(chǎng)模配較為明顯。于述據(jù)我做出下設(shè):1、到200,國(guó)據(jù)場(chǎng)以20的復(fù)增率增,應(yīng)030年場(chǎng)規(guī)模71億民,球數(shù)庫(kù)的7.4;2、中國(guó)向量數(shù)據(jù)庫(kù)市場(chǎng)占全球比重的下限≈中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)占全球數(shù)據(jù)庫(kù)市場(chǎng)比重即7;3、到200,國(guó)據(jù)全球據(jù)規(guī)的重持在025年平;4、中國(guó)向量數(shù)據(jù)庫(kù)市場(chǎng)占全球比重的上限≈中國(guó)數(shù)據(jù)量占全球數(shù)據(jù)量的比重,即28;根據(jù)述設(shè)們預(yù)計(jì)到2030年中向量據(jù)庫(kù)市場(chǎng)規(guī)?;?qū)⒌?9146億美元,對(duì)應(yīng)23949億人民幣。需要特別指出的是于傳統(tǒng)數(shù)據(jù)庫(kù)向量庫(kù)其實(shí)不止有存儲(chǔ)能也有定的計(jì)算屬性,因其M是可以擴(kuò)大的。圖:中國(guó)與全球數(shù)據(jù)生量及占比(,) 圖中國(guó)與全球數(shù)據(jù)市場(chǎng)規(guī)模及占(億美,億元,)201010101010806040200

3%全球中國(guó)占比27全球中國(guó)占比27.77%23.01%18.00%2%1%1%5%0%

100100806040200

2%全球中國(guó)占比9全球中國(guó)占比9.04%5.36%1%1%1%1%8%6%4%2%0% 數(shù)據(jù)來(lái)源:IDC, 數(shù)據(jù)來(lái)源:IDC,Gartner,中國(guó)信通院,圖:中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)模及增速(億元,)80706050403020100

市場(chǎng)規(guī)模 688.02611.05492.75368309.35240.9220 22E 22688.02611.05492.75368309.35240.9

4%3%3%2%2%1%1%5%0%數(shù)據(jù)來(lái)源:中國(guó)信通院,全主流向量數(shù)據(jù)庫(kù)介紹目前球有向數(shù)庫(kù)產(chǎn)主括Pnecn、Mvu、eavaeea等。其中超過(guò)70的量據(jù)庫(kù)擇開(kāi)過(guò)半的量據(jù)具云部的能力大分量據(jù)產(chǎn)品行N相搜索用SWHechcalNavgbeSalod法向數(shù)庫(kù)司以初型業(yè)級(jí)市場(chǎng)上普獲較投者青睞。公司向量數(shù)據(jù)庫(kù)產(chǎn)品是否上云是否開(kāi)源算法公司向量數(shù)據(jù)庫(kù)產(chǎn)品是否上云是否開(kāi)源算法SMIWeviate是是(o)CustomHSWPinonePinone是否MultplepopietrySIAPUhiporElsticrhOpnsrh否否Nurlhshig/HingQdrntQdrnt否是(Rust)HSW(grh)Yhoo!Vspa是是(Jv,C)HSW(grh)ZilizMilus否是(o,C,Pyhn)FAISS,HSWYhoo!Vld否是(o)NTPineonePineoe擁有技術(shù)背景厚的工程團(tuán)隊(duì),先上架Goge云和WS并打市場(chǎng)。2019年P(guān)neone創(chuàng)人EdoLiby立Hypeub.a提基深學(xué)多媒體搜解方;221初Hypeube.ai正轉(zhuǎn)為Pneon,注向數(shù)據(jù)庫(kù)領(lǐng)研。隊(duì)數(shù)程師自GogeDaabck、Spnk等名技業(yè)。公司始兼席行官EdoLiby得魯計(jì)算科博學(xué),擔(dān)任aho高研總紐約區(qū)aho研實(shí)室的責(zé),入S團(tuán)隊(duì)建尖的器習(xí)算、統(tǒng)服。22年2起,Pncoe后上架oogeCod和用戶在Mkepace買并用Pecon,改變基礎(chǔ)構(gòu)前下將AI技術(shù)持搜加到用程Pneone通借平臺(tái)流量步升品名,有進(jìn)開(kāi)售道,占場(chǎng)額。Pineoe是一個(gè)閉源托管僅使用簡(jiǎn)單I的云原生向量數(shù)據(jù)大劃分為核心索引、容器分(coanerdsrbuton、云理層三部分Pnecoe心索引負(fù)將自三數(shù)源的維量成L可讀的式器確數(shù)據(jù)庫(kù)收查、新嵌入令,延于50秒運(yùn)狀處載平衡行據(jù)制命名間分?jǐn)?shù)庫(kù)云管層得戶不裝硬件的情況下,僅通過(guò)創(chuàng)建索引并導(dǎo)入向量數(shù)據(jù)就可實(shí)現(xiàn)查詢。此外,用戶可以使用API隨隨更新查向量引司歷次重技創(chuàng)新1團(tuán)隊(duì)在保證管統(tǒng)定行元數(shù)與像歷gaphaves)相合條,研發(fā)出態(tài)可濾圖索引2)原RoksDB儲(chǔ)引達(dá)極后團(tuán)構(gòu)了全新“ee向儲(chǔ)其大數(shù)庫(kù)成對(duì)的儲(chǔ)超RcsDB10倍低305運(yùn)成基于C和Pyon出代庫(kù)題團(tuán)隊(duì)最決在Rust重搭建據(jù)和發(fā)境架構(gòu)有提了發(fā)并降低了營(yíng)件率。圖:Piecoe向量數(shù)據(jù)庫(kù)結(jié)構(gòu)數(shù)據(jù)來(lái)源:Pinecone,Pineoe數(shù)據(jù)庫(kù)擁有F特性:快速(as、實(shí)時(shí)(Fe、可過(guò)濾(Fiee全托管(u。即使數(shù)十億規(guī)模的數(shù)據(jù)存儲(chǔ),依然可以保持極低的查詢延遲。在增輯刪數(shù)時(shí)時(shí)新引搜索元據(jù)濾結(jié)提高查詢結(jié)果的相關(guān)性。平臺(tái)保證穩(wěn)定、安全的運(yùn)行環(huán)境,產(chǎn)品入門簡(jiǎn)單、使用便利操作流程可劃分創(chuàng)索(Ine連接索引插入索引使用索引四步通過(guò)建一索對(duì)常為son式數(shù)據(jù)將量入和數(shù)寫到引然后調(diào)索對(duì)的法執(zhí)行似搜或他作。pneone還供些定義的引(ndxy如ageSeachextSeach以開(kāi)發(fā)更容易地始定用。表:Pincone向量數(shù)庫(kù)設(shè)置索引分步內(nèi)容索引是向量數(shù)據(jù)的最高組織單位。創(chuàng)建新索引時(shí)可以設(shè)定od與DistnetriPod是運(yùn)行服務(wù)的配置硬件單元可選種類包括1odp1od、創(chuàng)建索

p2pd每種類型的pd尺可在x248四擋調(diào)Distnetris衡量向量對(duì)象的相似度,有ulidn、osine、otpout種可選。此外,支持從集合(olltion)中建索引,集合是向量與元數(shù)據(jù)的不可查詢表示連接索引 如果使用Pinne客戶端訪索引,需要與索引進(jìn)行交互。將向量嵌入與元數(shù)據(jù)插入索引。向量對(duì)象以(id,vtor)元組列表(tupl)插入索使用索

形式插入,含元數(shù)據(jù)的向量以鍵值對(duì)(ky-vluepirs)形式插入用于條件濾。完成索引設(shè)置后即可利用索引進(jìn)行數(shù)據(jù)查詢數(shù)據(jù)篩選數(shù)據(jù)獲取數(shù)據(jù)理,以及管理索引、插入更多數(shù)據(jù)或更新現(xiàn)有向量等操作。數(shù)據(jù)來(lái)源:Pinecone,定價(jià)標(biāo)準(zhǔn)當(dāng)前在初者標(biāo)準(zhǔn)企級(jí)三種式初者本用但限創(chuàng)一索與個(gè)劃標(biāo)版適于規(guī)模生應(yīng)程持將向量數(shù)庫(kù)存集中能夠行由引每收費(fèi)70美起企本夠?qū)崿F(xiàn)準(zhǔn)本的有能支多可區(qū)及24725屬持每月收費(fèi)04元。Pnecoe一級(jí)市場(chǎng)獲.38億美元融資,估值超7美元。201年7月Pncone種子到100美資投方ngnueapa202年3底司A輪資280美Mnoenues投gerGoangenueCapal投,公司值到1.68億元2022底伴隨CaGT推出引生式AI熱,作為L(zhǎng)L海體量數(shù)庫(kù)求增者投者紛入數(shù)據(jù)庫(kù)賽至203年4公司B獲AndeeenHowzNQGwhMnoenue、ngnueCpal投資超1美,輪融總到1.8元,投后值至7.5億元。表:Pincone融資情匯總估值(美元)

融資金額(美元)

參投機(jī)構(gòu)種子輪100萬(wàn)ingnureCpitl領(lǐng)投A輪1.8億280萬(wàn)Mnlonurs領(lǐng)投,igrlbl、igntureCitl跟投B輪 7.5億 1

AndrsnHorowitz領(lǐng)投ICNIQrowthMnlonursngnureCpitl跟投MilvusMvus向量數(shù)據(jù)庫(kù)由中創(chuàng)業(yè)團(tuán)隊(duì)ZZ研發(fā)并于2019年面世Zz立于2017年,有過(guò)00名。通向數(shù)庫(kù)Mvu,Ziz與Nvda、B微軟、S公司立作前開(kāi)源Mvus已為領(lǐng)先向數(shù)庫(kù)決案,有~800個(gè)GHbSa。圖:Mvus向量數(shù)庫(kù)生態(tài)和社區(qū)布局?jǐn)?shù)據(jù)來(lái)源:Zilliz,Mvus是一個(gè)基于云開(kāi)源的自托管向量據(jù)Mvus數(shù)庫(kù)含下點(diǎn):易于使用助Mvus量數(shù)庫(kù)使以不到分的間創(chuàng)大規(guī)模相性索務(wù)K單也用種不的言;速度快Mvus有的硬效提先的索算索度提升10倍;高可用性:Mvus向量據(jù)已成功在一千名業(yè)用戶中進(jìn)行了實(shí)測(cè)試通過(guò)各系組的泛隔,Mvus具較的彈和靠;高度可擴(kuò)性Mvus分布和通特使面對(duì)規(guī)向數(shù)時(shí)夠提供效服;云原Mvus量庫(kù)采系化云生法計(jì)與儲(chǔ)離并允許用橫、向展;功能豐Mvus支種數(shù)類具屬濾的強(qiáng)量F支持、配的致級(jí)、時(shí)旅等。為了強(qiáng)性靈性Mvus由儲(chǔ)和算組成該統(tǒng)括個(gè)別:接入層Acesaye:入層一無(wú)態(tài)理成,當(dāng)戶系和點(diǎn)的前;協(xié)調(diào)服務(wù)oodnatorervc:調(diào)服將分配工節(jié),充當(dāng)系統(tǒng)大;工作器節(jié)點(diǎn)rkernde作節(jié)充人的臂和種執(zhí)器,遵循協(xié)調(diào)器服務(wù)的指令并執(zhí)行用戶觸發(fā)的數(shù)據(jù)管理語(yǔ)言L/數(shù)據(jù)定義語(yǔ)言DL;存儲(chǔ)Stoa:存儲(chǔ)是統(tǒng)的骨骼,確保數(shù)據(jù)可持續(xù)性,包括元存儲(chǔ)、日志代理和象儲(chǔ)。圖:Mvus向量數(shù)庫(kù)架構(gòu)數(shù)據(jù)來(lái)源:Milvus,Zz目前已進(jìn)入B輪融階段獲得投資額超1.3億美元022年8月24日,Mvus的發(fā)公司Ziz宣,在最初430萬(wàn)元B輪資礎(chǔ)加了6000萬(wàn)元融。本融資沙石頭Aaconues下元化基金Properenues投現(xiàn)有者eaeksPavonCapa(馬HhoueCapa(瓴Yapal和uqiCapa云本)投本融后公司的總資達(dá)113億資用支其量數(shù)庫(kù)工設(shè)和市工。表:Zz一級(jí)市場(chǎng)融情況匯總?cè)谫Y輪次 融資金額(美元)

參投機(jī)構(gòu)A輪 100 5YCpitl領(lǐng)投,nqiPrtnr、Eminnenurs跟投B輪 430 HillhuseCpitlrop領(lǐng)投YCpitluqiPrnrs、rustbrigePrnrs、Pvilonpitl跟投B輪(Extenson)

600 Prospriy7turs領(lǐng)投,HilhouseCpitlrop、5YCpitl、nqiPrtnrs、PviinCpitl跟投spaepa由ah開(kāi)發(fā),發(fā)布之初被定義為一開(kāi)的“大數(shù)據(jù)處理和務(wù)擎。2003年2月2日aho以1美購(gòu)ea身—挪搜引司Ahee;2017年9月8,由aoo和OL業(yè)合后生的司Oah布源epa,并將碼于GHu。ea能夠部署于本地云上,能夠?qū)崿F(xiàn)不類的搜索功能。為源應(yīng)用,epa應(yīng)程可部本或eaCud并可入Jva組和PhonAPI部完后ea能夠現(xiàn)于統(tǒng)BM5的信檢、量近搜索、機(jī)器習(xí)型務(wù)問(wèn)、內(nèi)推等能目前epa已應(yīng)用于Oah多個(gè)產(chǎn)括aho.cohooNwsaooSoahooFnnchooGe、Fckr等每日以處數(shù)十億個(gè)戶請(qǐng)求為戶返回基數(shù)十億檔出的搜索結(jié)和薦容并供定化容廣。ea由多個(gè)無(wú)狀態(tài)的Jaa容器集群和零個(gè)多存儲(chǔ)數(shù)據(jù)的內(nèi)容集組成無(wú)狀態(tài)容器集群括入詢及應(yīng)組這些件供括引換和查詢執(zhí)的臺(tái)以提應(yīng)程的間邏器群查數(shù)據(jù)操作傳到容群的應(yīng)節(jié)可添組訪問(wèn)自部務(wù)數(shù)集群負(fù)存數(shù)并據(jù)執(zhí)查和理查的范包簡(jiǎn)數(shù)查使用機(jī)器習(xí)型數(shù)進(jìn)排序以對(duì)據(jù)行組和合。圖:epa向量數(shù)據(jù)架構(gòu)數(shù)據(jù)來(lái)源:Vespa,viateeavae前身為SIehnoog成立于209年是一家全球性初創(chuàng)業(yè)目前eavae荷蘭美拿大地有支構(gòu)有過(guò)30名隊(duì)成evae創(chuàng)人BbvanLuit與EtenneDocer有10年上的由程經(jīng),有深厚的術(shù)累。eavae是一個(gè)低延遲向量數(shù)據(jù)庫(kù)對(duì)不同的體類(文本圖像等具開(kāi)箱即用的支持。eavae提供義索問(wèn)提、分、制模yoch/enoFwKeas等功基于Go語(yǔ)夠?qū)ο笙蛟柿克阉鳂?gòu)篩和原數(shù)據(jù)的錯(cuò)力結(jié)且持GapLET各種戶編語(yǔ)進(jìn)訪問(wèn)。eavae可進(jìn)行本地或化部署,具有多種價(jià)式。eavae提供SaaS以及混合aaS的務(wù)中aaS務(wù)價(jià)為類準(zhǔn)企業(yè)關(guān)商起價(jià)分為2515450美元,實(shí)定將隨量?jī)?chǔ)、索的維度的增長(zhǎng)而提升。標(biāo)桿應(yīng)用場(chǎng)景——eavae于023年推出haGT的Pln插件其能括:1、允許用戶連接一個(gè)向量數(shù)據(jù)庫(kù)到ChaGT,其中包含用戶的專有數(shù)據(jù),可以ChaGT用用于特定問(wèn);2、許戶個(gè)文行存使CaGT的答更個(gè)化;3、戶以向數(shù)中儲(chǔ)與ChaGT對(duì),在閉再開(kāi)haGT后,據(jù)據(jù)中內(nèi)繼續(xù)話。eavae的索引流程:以文本編碼器(ex2veanoer)和問(wèn)答編碼器(qnanoe)為例,用戶可以創(chuàng)建任意數(shù)的索引,每個(gè)索引包含定數(shù)量的分引的獨(dú)立存單個(gè)片均以行象倒和量存儲(chǔ)其對(duì)和置儲(chǔ)使用LSM樹(shù)實(shí)現(xiàn)向索獨(dú)于些象存儲(chǔ)受SM分影響此eavae身是原的量據(jù),不自帶任模此類能將可模進(jìn)執(zhí)除述到文答編碼模外eavae持加例其媒類的向化物識(shí)、寫查等外模。圖:avae向量數(shù)據(jù)庫(kù)架構(gòu)數(shù)據(jù)來(lái)源:Weaviate,投后估值2億美元融資額超過(guò)670萬(wàn)美元023年4月22日eavae布,繼202年A輪資得650美B輪得500美(合35億人民幣,由dexenues領(lǐng)投Baeyenues機(jī)構(gòu)投公截目共得6770萬(wàn)元資投值2美。表:evae一級(jí)市場(chǎng)融資情況匯總?cè)谫Y輪次 融資金(美元)

參投機(jī)構(gòu)種子輪 10萬(wàn) ZettanurePrtnrs領(lǐng)投,ING

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論