騰訊云工具指南05期:AGI時(shí)代的“數(shù)據(jù)樞紐”-向量數(shù)據(jù)庫(kù)_第1頁(yè)
騰訊云工具指南05期:AGI時(shí)代的“數(shù)據(jù)樞紐”-向量數(shù)據(jù)庫(kù)_第2頁(yè)
騰訊云工具指南05期:AGI時(shí)代的“數(shù)據(jù)樞紐”-向量數(shù)據(jù)庫(kù)_第3頁(yè)
騰訊云工具指南05期:AGI時(shí)代的“數(shù)據(jù)樞紐”-向量數(shù)據(jù)庫(kù)_第4頁(yè)
騰訊云工具指南05期:AGI時(shí)代的“數(shù)據(jù)樞紐”-向量數(shù)據(jù)庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

騰訊云工具指南AGI時(shí)代的“數(shù)據(jù)樞紐”05-向量數(shù)據(jù)庫(kù)代

·

術(shù)

創(chuàng)

響目錄CONTENTS產(chǎn)品價(jià)值—向量數(shù)據(jù)庫(kù)是AGI時(shí)代的數(shù)據(jù)樞紐01全球產(chǎn)業(yè)數(shù)據(jù)庫(kù)具有怎樣的關(guān)鍵發(fā)展趨勢(shì)?中國(guó)信通院人工智能創(chuàng)新中心負(fù)責(zé)人、云計(jì)算與大數(shù)據(jù)研究所副所長(zhǎng)——魏凱04050607為什么AGI時(shí)代需要向量數(shù)據(jù)庫(kù)?騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO——湯道生優(yōu)質(zhì)的向量數(shù)據(jù)庫(kù)應(yīng)該符合怎樣的標(biāo)準(zhǔn)?中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所大數(shù)據(jù)與區(qū)塊鏈部主任——姜春宇騰訊云向量數(shù)據(jù)庫(kù)的具體優(yōu)勢(shì)及實(shí)踐騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理兼向量數(shù)據(jù)庫(kù)負(fù)責(zé)人——羅云行業(yè)實(shí)踐—向量數(shù)據(jù)庫(kù)解決各行各業(yè)智能化場(chǎng)景痛點(diǎn)02百川智能:解決大模型企業(yè)的數(shù)據(jù)大規(guī)模與高性能需求銷(xiāo)售易:向量數(shù)據(jù)庫(kù)在智能CRM的實(shí)踐0911用戶聲音——開(kāi)發(fā)者的產(chǎn)品實(shí)測(cè)報(bào)告03用向量數(shù)據(jù)庫(kù)構(gòu)建圖搜圖系統(tǒng)碼農(nóng)學(xué)習(xí)聯(lián)盟1418重生之我是戲精之王齊光同辰P

A

R

T01產(chǎn)品價(jià)值向量數(shù)據(jù)庫(kù)是AGI時(shí)代的數(shù)據(jù)樞紐AGI時(shí)代的到來(lái)激發(fā)了數(shù)據(jù)更大的生產(chǎn)力——如何更好的管理、存儲(chǔ)、檢索非結(jié)構(gòu)化數(shù)據(jù)將決定大模型在各行各業(yè)的應(yīng)用前景及可能性而為AI而生的向量數(shù)據(jù)庫(kù),或許是大模型的“最佳拍檔”產(chǎn)品價(jià)值——向量數(shù)據(jù)庫(kù)是AGI時(shí)代的數(shù)據(jù)樞紐全球產(chǎn)業(yè)數(shù)據(jù)庫(kù)具有怎樣的關(guān)鍵發(fā)展趨勢(shì)?中國(guó)信通院人工智能創(chuàng)新中心負(fù)責(zé)人、云計(jì)算與大數(shù)據(jù)研究所副所長(zhǎng)

魏凱趨勢(shì)1:從類型看,非關(guān)系型數(shù)據(jù)庫(kù)前景廣闊就目前全球數(shù)據(jù)庫(kù)產(chǎn)品分布來(lái)看,非關(guān)系型數(shù)據(jù)庫(kù)數(shù)量已經(jīng)超過(guò)了關(guān)系型數(shù)據(jù)庫(kù)。相比之下,國(guó)內(nèi)的數(shù)據(jù)庫(kù)市場(chǎng)依然以關(guān)系型數(shù)據(jù)庫(kù)為主(整體占比超過(guò)65%),這其中又以圖數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)等關(guān)鍵領(lǐng)域類型數(shù)據(jù)庫(kù)為主。全球數(shù)據(jù)庫(kù)產(chǎn)品類型我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品類型關(guān)系型數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-圖數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-文檔數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-列存數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-圖數(shù)據(jù)庫(kù)RDF存儲(chǔ)53.8%10.4%關(guān)系型數(shù)據(jù)庫(kù)52.8%52.8%24.1%非關(guān)系型數(shù)據(jù)庫(kù)-時(shí)序數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-原生XML數(shù)據(jù)庫(kù)10.4%非關(guān)系型數(shù)據(jù)庫(kù)-列存數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-文檔數(shù)據(jù)庫(kù)309.47%344.53%28.4%非關(guān)系型數(shù)據(jù)庫(kù)-鍵值數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-時(shí)序數(shù)據(jù)庫(kù)156.66%82.34%非關(guān)系型數(shù)據(jù)庫(kù)-圖數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-全文檢索7.3%非關(guān)系型數(shù)據(jù)庫(kù)-鍵值數(shù)據(jù)庫(kù)82.13%22.3%非關(guān)系型數(shù)據(jù)庫(kù)-面向?qū)ο髷?shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-全文檢索非關(guān)系型數(shù)據(jù)庫(kù)-向量數(shù)據(jù)庫(kù)23.4%非關(guān)系型數(shù)據(jù)庫(kù)-多值數(shù)據(jù)庫(kù)24.1%4.2%非關(guān)系型數(shù)據(jù)庫(kù)-向量數(shù)據(jù)庫(kù)4.1%3.1%7.1%12.2%9.1%數(shù)據(jù)來(lái)源:CCSA

TC601,2023年6月趨勢(shì)2:從創(chuàng)新看,我國(guó)的非關(guān)系型技術(shù)實(shí)力不斷增強(qiáng)2020-2022年我國(guó)中國(guó)高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)情況2022年我國(guó)中國(guó)高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)數(shù)量從V

L

D

B、S

I

G

M

O

D

和40

3870.00%60.00%50.00%40.00%30.00%20.00%10.00%0.00%37ICDE三大數(shù)據(jù)庫(kù)領(lǐng)域權(quán)威的學(xué)術(shù)會(huì)議來(lái)看,近三年,我國(guó)企業(yè)及高校平均貢獻(xiàn)占比分別為23.81%、27.17%和40.70%,且數(shù)量呈逐年上升趨勢(shì)。65.43%論文數(shù)量35302520151052444.68%40.70%2343.15%212127.17%1514131328.01%

28.65%1223.81%1111101020.15%14.58%16.68%13.68%VLDB0SIGMOD2020ICDESIGMODVLDB2021ICDEVLDBSIGMOD2022ICDE數(shù)據(jù)來(lái)源:CCSA

TC601,2023年6月趨勢(shì)3:從標(biāo)準(zhǔn)看,數(shù)據(jù)庫(kù)需要從供給側(cè)到標(biāo)準(zhǔn)側(cè)制定相關(guān)標(biāo)準(zhǔn)供給側(cè)應(yīng)用側(cè)目前

數(shù)

據(jù)庫(kù)行業(yè)

家眾多,亟需統(tǒng)一行業(yè)標(biāo)準(zhǔn)規(guī)面向數(shù)據(jù)庫(kù)技術(shù)產(chǎn)品面向數(shù)據(jù)庫(kù)服務(wù)商面向數(shù)據(jù)庫(kù)應(yīng)用機(jī)構(gòu)范發(fā)展:主要面向三類參與方(數(shù)據(jù)庫(kù)技術(shù)產(chǎn)品、數(shù)據(jù)庫(kù)服務(wù)商以及數(shù)據(jù)庫(kù)應(yīng)用機(jī)構(gòu))建立不同的評(píng)判標(biāo)準(zhǔn)。穩(wěn)定性專項(xiàng)安全專項(xiàng)性能專項(xiàng)評(píng)測(cè)類型通用服務(wù)能力基礎(chǔ)能力專項(xiàng)規(guī)劃設(shè)計(jì)服務(wù)能力實(shí)施部署服務(wù)能力關(guān)系型安全關(guān)系型安全分布式分析型分布式事務(wù)型時(shí)序數(shù)據(jù)庫(kù)穩(wěn)定性數(shù)據(jù)庫(kù)運(yùn)維管理能力成熟度模型數(shù)據(jù)庫(kù)運(yùn)維運(yùn)營(yíng)服務(wù)能力分布式分布式時(shí)序分析型事務(wù)型分析型時(shí)空分析型事務(wù)型數(shù)據(jù)庫(kù)大規(guī)模一體化一體化數(shù)據(jù)庫(kù)分析型專項(xiàng)服務(wù)能力內(nèi)存SQL質(zhì)量HTAP數(shù)據(jù)庫(kù)防篡改數(shù)據(jù)庫(kù)搜索型數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)管理平臺(tái)

數(shù)據(jù)庫(kù)

管理平臺(tái)

數(shù)據(jù)庫(kù)

遷移工具

數(shù)據(jù)庫(kù)大規(guī)模分析型事務(wù)型關(guān)系云時(shí)序圖數(shù)文檔全密態(tài)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)智能化一體機(jī)應(yīng)用遷移2023上半年新增5個(gè)標(biāo)準(zhǔn)(上述圖中標(biāo)橙色顯示)騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

04產(chǎn)品價(jià)值——向量數(shù)據(jù)庫(kù)是AGI時(shí)代的數(shù)據(jù)樞紐為什么AGI時(shí)代需要向量數(shù)據(jù)庫(kù)?騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO

湯道生最近這一年,AIGC浪潮席卷全球,很多志向高遠(yuǎn)的企業(yè),都在思考如何擁抱新技術(shù),以AI重塑公司的業(yè)務(wù)和產(chǎn)品。很多客戶也和騰訊開(kāi)展了緊密的合作,探索如何將大模型在實(shí)際場(chǎng)景中用起來(lái),幫助業(yè)務(wù)降本、提效、增收。眾所周知,大模型應(yīng)用的關(guān)鍵,不只是構(gòu)建好模型算法,更重要的是做好數(shù)據(jù)的處理、挖掘等問(wèn)題。數(shù)據(jù)貫穿了大模型從預(yù)訓(xùn)練到產(chǎn)業(yè)落地的全過(guò)程。一定程度上,智能時(shí)代,企業(yè)數(shù)據(jù)處理能力有多強(qiáng),決定了業(yè)務(wù)發(fā)展的天花板有多高。企業(yè)在搭建和使用大模型時(shí),需要把海量數(shù)據(jù),安全高效地接入大模型,但在企業(yè)復(fù)雜的數(shù)據(jù)中,適合關(guān)系型數(shù)據(jù)庫(kù)的,結(jié)構(gòu)化數(shù)據(jù)僅有20%,其余80%是文本、圖像、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)。向量數(shù)據(jù)庫(kù)可以把復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),處理成多維邏輯的坐標(biāo)值,與大模型進(jìn)行連接,數(shù)據(jù)處理效率比傳統(tǒng)方式提升10倍。同

時(shí),向量數(shù)據(jù)庫(kù)也可以作為“外部知識(shí)庫(kù)”,給大模型輸送最新、最全面的信息,應(yīng)對(duì)有時(shí)效性的問(wèn)答;并且讓大模型擁有長(zhǎng)期記憶,避免聊天時(shí)“斷片”。可以說(shuō)是大模型的“最佳拍檔”。AI驅(qū)動(dòng)產(chǎn)業(yè)變革的時(shí)代正在到來(lái),作為支撐大模型的重要基礎(chǔ)設(shè)施,向量數(shù)據(jù)庫(kù)也會(huì)從一個(gè)“領(lǐng)域型數(shù)據(jù)庫(kù)”,變成覆蓋廣闊場(chǎng)景的“通用型數(shù)據(jù)庫(kù)”,甚至是“數(shù)據(jù)樞紐”,前景廣闊。騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

05產(chǎn)品價(jià)值——向量數(shù)據(jù)庫(kù)是AGI時(shí)代的數(shù)據(jù)樞紐優(yōu)質(zhì)的向量數(shù)據(jù)庫(kù)應(yīng)該符合怎樣的標(biāo)準(zhǔn)?中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所大數(shù)據(jù)與區(qū)塊鏈部主任

姜春宇隨著人工智能時(shí)代到來(lái),一些非結(jié)構(gòu)化數(shù)據(jù)需要通過(guò)機(jī)器學(xué)習(xí)算法從中提取出以向量為表示形式的“特征”,向量數(shù)據(jù)庫(kù)的興起便是為了解決對(duì)這些向量進(jìn)行存儲(chǔ)與計(jì)算的問(wèn)題。相比其他類型數(shù)據(jù)庫(kù),向量數(shù)據(jù)庫(kù)具有8大關(guān)鍵技術(shù)能力:分布式與并行計(jì)算能力實(shí)時(shí)處理能力提升高級(jí)查詢功能硬件加速更高效的分布式與并行計(jì)算可以讓大規(guī)模向量數(shù)據(jù)在多個(gè)計(jì)算節(jié)點(diǎn)間進(jìn)行分配,使得查詢、排序等操作能夠并發(fā)進(jìn)行,大大縮短了計(jì)算時(shí)間。許多AI應(yīng)用需求求向量數(shù)據(jù)庫(kù)有高效的實(shí)時(shí)處理能力,即使是對(duì)大規(guī)模的向量數(shù)據(jù),也能在最短的時(shí)間內(nèi)找到最匹配的結(jié)果。高級(jí)查詢功能,如范圍查詢、最近鄰查詢,甚至基于語(yǔ)義的查詢等,將是向量數(shù)據(jù)庫(kù)的必備功能。為了更高效地處理數(shù)據(jù),硬件加速將是一種有效的解決方案。利用GPU的強(qiáng)大并行計(jì)算能力,或者利用定制的AI芯片,都可以大大提高向量數(shù)據(jù)庫(kù)的處理能力。不同大模型的性能優(yōu)化多模態(tài)數(shù)據(jù)處理能力提升通用性和易用性與大模型的深度融合不同類型的大模型對(duì)數(shù)據(jù)的處理和計(jì)算需求可能會(huì)有所不同。向量數(shù)據(jù)庫(kù)需要能夠針對(duì)這些差異進(jìn)行優(yōu)化,以提供最佳的性能。隨著大模型向多模態(tài)發(fā)展,如圖文混合模型、音視頻混合模型等,對(duì)應(yīng)的數(shù)據(jù)也

將會(huì)更為復(fù)雜多元。向量數(shù)據(jù)庫(kù)需要能夠有效地處理這些多模態(tài)數(shù)據(jù)。隨著向量數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景不斷拓寬,提升其通用性和易用性成為一項(xiàng)重要任務(wù)。這包括提供更簡(jiǎn)單的數(shù)據(jù)導(dǎo)入導(dǎo)出,提供更易用的查詢接口,以及提供更靈活的數(shù)據(jù)管理功能。未

來(lái),向量

數(shù)

據(jù)庫(kù)

將和深度學(xué)習(xí)、大模型更緊密地結(jié)合,共同推動(dòng)AI的發(fā)展。向量數(shù)據(jù)庫(kù)需要能夠理解大模型的需求,為其提供最合適的數(shù)據(jù)服務(wù)。而大模型也需要能夠利用向量數(shù)據(jù)庫(kù)的能力,以提高自身的效率和效果。對(duì)此,信通院聯(lián)合騰訊云等多家關(guān)鍵廠商制定《向量數(shù)據(jù)庫(kù)技術(shù)要求》,針對(duì)七大能力域、三十二個(gè)能力項(xiàng)制定向量數(shù)據(jù)庫(kù)行業(yè)標(biāo)準(zhǔn)。七大能力域、三十二個(gè)能力項(xiàng)27必選項(xiàng)+20可選項(xiàng)基本功能運(yùn)維管理稠密向量向量數(shù)據(jù)類型近似檢索稀疏向量半結(jié)構(gòu)化數(shù)據(jù)類型精確檢索向量維度基礎(chǔ)標(biāo)量數(shù)值類型向量數(shù)據(jù)存儲(chǔ)壓縮部署方式監(jiān)控巡檢備份與恢復(fù)參數(shù)配置升級(jí)單行數(shù)據(jù)支持多個(gè)向量字段運(yùn)維管理接口故障節(jié)點(diǎn)恢復(fù)系統(tǒng)日志標(biāo)量與向量的融合查詢游標(biāo)讀取主鍵查詢兼容性CPU兼容性編程接口...標(biāo)量的增刪改查向量的增刪改查安全性高可用權(quán)限管理數(shù)據(jù)加密審計(jì)日志擴(kuò)展性節(jié)點(diǎn)動(dòng)態(tài)擴(kuò)容節(jié)點(diǎn)動(dòng)態(tài)縮容高可用工具生態(tài)多模態(tài)數(shù)據(jù)向量化能力大模型工具集成騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

06產(chǎn)品價(jià)值——向量數(shù)據(jù)庫(kù)是AGI時(shí)代的數(shù)據(jù)樞紐騰訊云向量數(shù)據(jù)庫(kù)的具體優(yōu)勢(shì)及實(shí)踐騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理兼向量數(shù)據(jù)庫(kù)負(fù)責(zé)人

羅云騰訊云將向量數(shù)據(jù)庫(kù)定義為AGI時(shí)代的數(shù)據(jù)樞紐,其需要具備“企業(yè)化”及“智能化”兩項(xiàng)關(guān)鍵能力:前者需要滿足企業(yè)對(duì)分布式、高性能、高可用、安全性、可靠性及成本可控六個(gè)關(guān)鍵能力;后者則需要實(shí)現(xiàn)借口、計(jì)算、存儲(chǔ)三個(gè)關(guān)鍵領(lǐng)域的智能化。一、企業(yè)化能力:千億級(jí)數(shù)據(jù)規(guī)模、500萬(wàn)QPS、99.99%可用性二、智能化能力:內(nèi)容召回率提升30%,推理速度大幅提升upsertsearchtexts原始文本數(shù)據(jù)向量數(shù)據(jù)庫(kù)Embessing模型vectors集成Embedding,實(shí)現(xiàn)自然語(yǔ)言查詢AI套件:端到端的RAG應(yīng)用檢索方案三、實(shí)踐成果:集團(tuán)內(nèi)部40+業(yè)務(wù)接入,1600億次請(qǐng)求/天;1000+外部用戶接入集團(tuán)內(nèi)部外部用戶騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

07P

A

R

T02行業(yè)實(shí)踐向量數(shù)據(jù)庫(kù)解決各行各業(yè)智能化場(chǎng)景痛點(diǎn)行業(yè)實(shí)踐——向量數(shù)據(jù)庫(kù)解決各行各業(yè)智能化場(chǎng)景痛點(diǎn)解決大模型企業(yè)的數(shù)據(jù)大規(guī)模與高性能需求客戶場(chǎng)景:搜索增強(qiáng)百川智能是一家為客戶提供大模型服務(wù)的能力,基于搜索與輸入法多年積累,以RAG框架為原型融合企業(yè)私有數(shù)據(jù)、實(shí)時(shí)性數(shù)據(jù)。為客戶提供搜索增強(qiáng)的能力,一方面基于搜索經(jīng)驗(yàn)優(yōu)化大模型,另一方面基于搜索模型補(bǔ)齊大模型短板,解決大模型應(yīng)用常見(jiàn)的模型幻覺(jué)與數(shù)據(jù)時(shí)效性問(wèn)題。大模型+搜索增強(qiáng)架構(gòu)搜索經(jīng)驗(yàn):幫助大模型優(yōu)化數(shù)據(jù)增強(qiáng)算法調(diào)優(yōu)算力構(gòu)建ScoreboardSearchresult[1]:ChatGPTisGPT...InstructionClassifierTimelinessAnalysisFrom

idx

scoreUserQuestion:What'schatgpt?Searchresult[2]:ChatGpTisa

LlMcreatedbyOpenAI...WebWeb12-0.50.9超大規(guī)模數(shù)據(jù)獲取與清洗算法與工廠調(diào)優(yōu)搭建大規(guī)模推理服務(wù)Searchresult[3]:ChatGpTistransformer...TaskPlanningQueryWebSearchPluginWebDB312-0.40.7QueryGeneratorResponse搜索能力:補(bǔ)齊大模型短板Databaseindex[1]:ThemainideaofGPT...fine-tunedBaichuanLLMDB-1.2Databaseindex[2]:Deeplearningmethod...幻覺(jué)問(wèn)題時(shí)效性問(wèn)題

安全性問(wèn)題ReferenceEnhancePromptAugmentLLMwithRelevanceLLMwithSearchKnowledgedomainDatabaseEnhancedHyperparamTunerKnowledgeRefinement結(jié)合事實(shí)不瞎說(shuō)分鐘更新不老化技術(shù)融合不造謠SearchEnhancedGeneratorIntent

UnderstandingIntelligent

Search場(chǎng)景痛點(diǎn)百川智能作為模型服務(wù)提供商,數(shù)據(jù)規(guī)模在億級(jí)以上。使用向量數(shù)據(jù)庫(kù)方案之前主要以“開(kāi)源向量算法”支撐,其面臨兩個(gè)主要痛點(diǎn):1.可用性較弱。作為算法級(jí)別的功能,在分布式系統(tǒng)下會(huì)存在擴(kuò)展性、可用性等方面問(wèn)題。2.消耗大量人力做二次開(kāi)發(fā)。因?yàn)闆](méi)有成熟體系化,需要消耗大量人力做二次定制開(kāi)發(fā)。比如說(shuō)向量數(shù)據(jù)的格式組織及管理,數(shù)

據(jù)

分片、導(dǎo)入、管

理、刪除、索引等。騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

09行業(yè)實(shí)踐——向量數(shù)據(jù)庫(kù)解決各行各業(yè)智能化場(chǎng)景痛點(diǎn)解決方案:向量數(shù)據(jù)庫(kù)的統(tǒng)一技術(shù)棧支持一、管理個(gè)性化知識(shí):在企業(yè)知識(shí)文檔上傳時(shí)統(tǒng)一化存儲(chǔ)管理傳統(tǒng)ES數(shù)據(jù)庫(kù)是為關(guān)系型結(jié)構(gòu)數(shù)據(jù)設(shè)計(jì),向量數(shù)據(jù)庫(kù)基于AI而生集成Embeding服務(wù)進(jìn)行向量化處理——把原始長(zhǎng)文本內(nèi)容分割為表征能力更強(qiáng)的短文本通過(guò)Embedding模型生成向量化數(shù)據(jù)將向量化數(shù)據(jù)在數(shù)據(jù)庫(kù)內(nèi)分區(qū)管理運(yùn)用可視化數(shù)據(jù)管理平臺(tái)在線執(zhí)行互表操作二、問(wèn)答個(gè)性化知識(shí):在問(wèn)答企業(yè)知識(shí)問(wèn)題時(shí)實(shí)現(xiàn)搜索增強(qiáng)當(dāng)大模型面對(duì)企業(yè)級(jí)數(shù)據(jù)問(wèn)答時(shí),如果不能融合企業(yè)私有數(shù)據(jù)及實(shí)時(shí)性數(shù)據(jù)即會(huì)出現(xiàn)常見(jiàn)的幻覺(jué)問(wèn)題。向量數(shù)據(jù)庫(kù)提供端到端的RAG檢索方案。當(dāng)外部用戶向模型起初問(wèn)題時(shí)——基于Embedding對(duì)問(wèn)題結(jié)合其聊天歷史向量化解析通過(guò)在線及離線方式檢索融合知識(shí)庫(kù)及網(wǎng)頁(yè)端內(nèi)容基于相關(guān)性模型進(jìn)行精排再求解輸出大模型基于更全面與實(shí)時(shí)數(shù)據(jù)推理答案并召回?cái)?shù)據(jù)騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

10行業(yè)實(shí)踐——向量數(shù)據(jù)庫(kù)解決各行各業(yè)智能化場(chǎng)景痛點(diǎn)向量數(shù)據(jù)庫(kù)在智能CRM的實(shí)踐客戶背景銷(xiāo)售易將AIGC能力無(wú)縫融入CRM的銷(xiāo)售及服務(wù)場(chǎng)景中,為客戶提供“智能銷(xiāo)售”與“智能服務(wù)”功能,前者包括:智能銷(xiāo)售助理、日程會(huì)議紀(jì)要、客戶畫(huà)像標(biāo)簽、推薦解決方案、推薦潛在客戶;后者包括:智能客服機(jī)器人、坐席輔助、智能會(huì)話質(zhì)檢、生成知識(shí)條目、工單創(chuàng)建分配。場(chǎng)景痛點(diǎn)企業(yè)服務(wù)市場(chǎng)應(yīng)用大模型的主要門(mén)檻是滿足企業(yè)業(yè)務(wù)數(shù)據(jù)的安全性與時(shí)效性——1.數(shù)據(jù)安全:企業(yè)的業(yè)務(wù)數(shù)據(jù)需要滿足安全合規(guī)要求,不能直接用于大模型訓(xùn)練2.快速變化:企業(yè)時(shí)刻都在產(chǎn)生大量的數(shù)據(jù),如何適應(yīng)業(yè)務(wù)數(shù)據(jù)快速變化的需求3.實(shí)時(shí)響應(yīng):業(yè)務(wù)系統(tǒng)對(duì)實(shí)時(shí)響應(yīng)要求很高,需要從海量數(shù)據(jù)中迅速檢索問(wèn)題答案4.場(chǎng)景落地:銷(xiāo)售和服務(wù)場(chǎng)景眾多,如何將數(shù)據(jù)結(jié)合大模型來(lái)解決實(shí)際業(yè)務(wù)問(wèn)題原來(lái)的關(guān)系型數(shù)據(jù)庫(kù)因?yàn)槠鋽?shù)據(jù)結(jié)構(gòu)原因,更多應(yīng)用于表單級(jí)系統(tǒng),無(wú)法支撐智能化需求,主要因?yàn)椤?.其檢索時(shí)依賴于關(guān)鍵詞文本搜索而非語(yǔ)義搜索,需要做大量分詞的詞庫(kù)詞法維護(hù)2.其推薦時(shí)無(wú)法理解自然語(yǔ)言描述文本,無(wú)法做智能化推薦騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

11行業(yè)實(shí)踐——向量數(shù)據(jù)庫(kù)解決各行各業(yè)智能化場(chǎng)景痛點(diǎn)銷(xiāo)售易主要應(yīng)用向量數(shù)據(jù)庫(kù)于底層知識(shí)庫(kù)生成與檢索銷(xiāo)售易智能架構(gòu)微信企微官網(wǎng)APP電話郵件向量數(shù)據(jù)庫(kù)應(yīng)用銷(xiāo)售易智能應(yīng)用智能機(jī)器人銷(xiāo)售助理智能推薦智能工單智能BI銷(xiāo)售易CRM銷(xiāo)售易智能平臺(tái)客戶知識(shí)庫(kù)文檔商機(jī)工單圖片騰訊云向量數(shù)據(jù)庫(kù)騰訊混元大模型BI報(bào)表音視頻基于向量數(shù)據(jù)庫(kù),智能機(jī)器人可以實(shí)現(xiàn)——1.意圖識(shí)別:通過(guò)語(yǔ)義分析和識(shí)別,在問(wèn)題描述模糊的情況下,精準(zhǔn)識(shí)別用戶意圖,結(jié)合知識(shí)庫(kù)資源,準(zhǔn)確解答問(wèn)題2.檢索信息:自然語(yǔ)言描述問(wèn)題和需求,利用語(yǔ)義相關(guān)性檢索知識(shí)庫(kù)和CRM系統(tǒng)數(shù)據(jù),綜合內(nèi)容生成結(jié)果3.多輪對(duì)話:對(duì)多輪對(duì)話和上下文理解,讓用戶感受到擬人化的服務(wù)體驗(yàn),實(shí)現(xiàn)了自然、流暢的對(duì)話。4.創(chuàng)建信息:自主調(diào)用CRM系統(tǒng)API,創(chuàng)建CRM線索記錄,保存潛在用戶的信息;或創(chuàng)建服務(wù)工單,記錄用戶問(wèn)題?;谙蛄繑?shù)據(jù)庫(kù),全內(nèi)容語(yǔ)義檢索和推薦相似客戶——知識(shí)庫(kù)文檔與語(yǔ)義搜索:知識(shí)庫(kù)、文檔、附件CRM數(shù)據(jù)相關(guān)性搜索:檢索對(duì)象、會(huì)議紀(jì)要、活動(dòng)記錄推薦相似客戶:基于相似特征及內(nèi)容(而不是傳統(tǒng)表單關(guān)鍵詞檢索)向量數(shù)據(jù)庫(kù)在SaaS領(lǐng)域的應(yīng)用優(yōu)勢(shì)1.高性能大規(guī)模:企業(yè)的業(yè)務(wù)數(shù)據(jù)需要滿足安全合規(guī)要求,不能直接用于大模型訓(xùn)練2.支持向量和標(biāo)量:支持向量和標(biāo)量字段的混合存儲(chǔ)和檢索,是文檔內(nèi)容和結(jié)構(gòu)化字段之間的橋梁。3.運(yùn)維輕量簡(jiǎn)便:按照幫助手冊(cè)簡(jiǎn)單接入,無(wú)需安裝、部署和運(yùn)維,有效減少運(yùn)維成本和人力成本。4.專家級(jí)服務(wù)支持:騰訊云數(shù)據(jù)庫(kù)團(tuán)隊(duì)提供專家級(jí)的技術(shù)方案指導(dǎo),賦能研發(fā)團(tuán)隊(duì)加速產(chǎn)品和架構(gòu)落地。騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

12P

A

R

T03用戶聲音開(kāi)發(fā)者的產(chǎn)品實(shí)測(cè)報(bào)告用戶聲音——開(kāi)發(fā)者的產(chǎn)品實(shí)測(cè)報(bào)告用向量數(shù)據(jù)庫(kù)構(gòu)建圖搜圖系統(tǒng)碼農(nóng)學(xué)習(xí)聯(lián)盟以圖搜圖案例下面我們使用

PyTorch

和騰訊云向量數(shù)據(jù)庫(kù)構(gòu)建一個(gè)以圖搜圖(ReverseImageSearch)系統(tǒng)。該系統(tǒng)以圖片作為輸入,基于圖片的內(nèi)容檢索出最相似的圖片。其背后的基本思想是利用預(yù)訓(xùn)練的深度學(xué)習(xí)模型提取出每個(gè)圖片的特征,并將其表示為一個(gè)嵌入向量(Embedding)。然后,通過(guò)存儲(chǔ)和比較這些圖片嵌入向量,實(shí)現(xiàn)圖片的檢索。工作流程如右圖:首先,使用

PyTorch

對(duì)輸入圖片進(jìn)行預(yù)處理并提取特征,得到圖片的嵌入向量。然后,將這個(gè)嵌入向量存入向量數(shù)據(jù)庫(kù)中。當(dāng)需要檢索圖片時(shí),同樣先對(duì)查詢圖片進(jìn)行預(yù)處理和特征提取,得到查詢圖片的嵌入向量。在向量數(shù)據(jù)庫(kù)中對(duì)該向量進(jìn)行相似性檢索,向量數(shù)據(jù)庫(kù)會(huì)返回與該向量相似的topk個(gè)向量。PyTorch

生態(tài)包括

torch

torchvision

兩個(gè)重要的庫(kù)。torch

包括了各種有用的數(shù)學(xué)函數(shù),以及用于創(chuàng)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的工具。torchvision

庫(kù)構(gòu)建項(xiàng)目專門(mén)用于處理圖像數(shù)據(jù)。下面會(huì)對(duì)重要的代碼部分做詳解,最終的demo代碼,可以在文末獲取,代碼拉到本地就可以運(yùn)行,對(duì)新手很友好。1.創(chuàng)建一個(gè)新的項(xiàng)目目錄:2.創(chuàng)建一個(gè)新的Python

虛擬環(huán)境(可選,但推薦):創(chuàng)建一個(gè)新的

Python

虛擬環(huán)境能有效地隔離項(xiàng)目依賴,簡(jiǎn)化依賴管理。3.安裝需要的

Python

包:激活這個(gè)虛擬環(huán)境:Linux/macOS這個(gè)命令會(huì)將torch、torchvision、Pillow、tcvectordb庫(kù)安裝到上面創(chuàng)建的虛擬目錄venv中。Windows準(zhǔn)備數(shù)據(jù)這里我們使用了

ImageNet

數(shù)據(jù)集的一個(gè)子集(100

個(gè)類

別)。示例數(shù)據(jù)可在

Github上獲取。目錄結(jié)構(gòu)如下:ImageNet

數(shù)據(jù)集是深度學(xué)習(xí)領(lǐng)域中廣泛使用的大規(guī)模視覺(jué)數(shù)據(jù)集,用于圖片分類和物體檢測(cè)任務(wù)。在本文中,所使用的數(shù)據(jù)集是

ImageNet

的一個(gè)子集,這個(gè)子集為模型訓(xùn)練和驗(yàn)證提供了適當(dāng)規(guī)模和復(fù)雜度的數(shù)據(jù)。1.train:包含候選圖片的目錄,有

100個(gè)不同的類別,每個(gè)類別包含

10

張圖片。2.test:包含查詢圖片的目錄,與訓(xùn)練集同樣的

100個(gè)類別,但每個(gè)類別只有

1張圖片。3.reverse_image_search.csv:一個(gè)csv文件,包含每個(gè)訓(xùn)練集圖片的

id、路徑和標(biāo)簽。候選圖片是指可能會(huì)被檢索的圖片,查詢圖片是指用于檢索的圖片。騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

14用戶聲音——開(kāi)發(fā)者的產(chǎn)品實(shí)測(cè)報(bào)告連接數(shù)據(jù)庫(kù)并新建Collection連接

TencentVectorDB

很簡(jiǎn)單,官方提供了多種語(yǔ)言的

SDK,本文使用

Python

SDK:tcvectordb操作向量數(shù)據(jù)。1.首先利用

tcvectordbsdk編寫(xiě)連接向量數(shù)據(jù)庫(kù)的客戶端代碼:

2.然后調(diào)用TcvdbClient構(gòu)建客戶端:上面的HOST和PORT、USERNAME

和PASSWORD是申請(qǐng)向量數(shù)據(jù)庫(kù)后獲取到的。在向量數(shù)據(jù)庫(kù)中創(chuàng)建DB

和Collection:上面代碼創(chuàng)建一個(gè)Collection,并在這個(gè)

Collection中添加了三個(gè)索引。在向量數(shù)據(jù)庫(kù)中,Collection

是用來(lái)存儲(chǔ)和檢索向量的主要結(jié)構(gòu),創(chuàng)建索引的字段在檢索時(shí)可以用作過(guò)濾(filter)。1.vector:索引有2048向量維度。維度越高,向量可以表達(dá)的信息越多,但同時(shí)計(jì)算復(fù)雜度也越高,存儲(chǔ)需求也越大。2.IndexType.HNSW索引的類型。這是一種近似最近鄰搜索算法,用來(lái)加速高維向量的搜索。3.MetricType.COSINE是余弦相似度,它可以衡量?jī)蓚€(gè)向量之間的角度,通常用于衡量高維向量的相似性。4.id是主鍵索引,用來(lái)唯一標(biāo)識(shí)每個(gè)向量。5.path是過(guò)濾索引,用來(lái)加速基于

path字段的查詢。DMC

訪問(wèn)入口:/新建之后,可以通過(guò)

DMC(數(shù)據(jù)庫(kù)管理)方便的查看、管理向量數(shù)據(jù)庫(kù)的數(shù)據(jù)。右側(cè)是剛剛創(chuàng)建的DB

和集合:Embedding:圖片轉(zhuǎn)向量、入庫(kù)在機(jī)器學(xué)習(xí)領(lǐng)域中,把文本、圖片,音頻等其他類型原始輸入數(shù)據(jù)轉(zhuǎn)換為一種更適合機(jī)器學(xué)習(xí)的形式,即將復(fù)雜的數(shù)據(jù)結(jié)構(gòu)(如圖片、文本等)轉(zhuǎn)換為固定長(zhǎng)度的向量的過(guò)程成為

Embedding。右側(cè)利用Pytorch

實(shí)現(xiàn)圖片的特征提?。阂陨洗a段中,models.resnet50(weights=ResNet50_Weights.IMAGENET1K_V2)將會(huì)下載resnet50

模型到$HOME/.cache/torch/hub/checkpoints/目錄下,下載完成后會(huì)初始化模型。只有當(dāng)

checkpoints

目錄下不存在時(shí)才會(huì)下載。預(yù)訓(xùn)練的

resnet50

模型,可以將圖片轉(zhuǎn)換為向量。ResNet50

是一種深度卷積神經(jīng)網(wǎng)絡(luò),它在許多圖像識(shí)別任務(wù)中表現(xiàn)出色。此模型通過(guò)學(xué)習(xí)圖片的重要特征,并將這些特征嵌入到一個(gè)高維向量中,稱為嵌入向量(embeddingvector)。model.eval()將模型設(shè)置為評(píng)估模式。通常來(lái)說(shuō),在進(jìn)行模型驗(yàn)證、測(cè)試時(shí),我們將模型設(shè)置為評(píng)估模式。騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

15用戶聲音——開(kāi)發(fā)者的產(chǎn)品實(shí)測(cè)報(bào)告ResNet50

默認(rèn)會(huì)輸出

1000

維的特征向量(對(duì)應(yīng)于

ImageNet

1000

個(gè)類

別)。然而,torch.nn.Sequential(*(list(model.children())[:-1]))

可以將模型的最后一層移除,保留其他所有的層,我們可以得到一個(gè)2048維的特征向量。這個(gè)特征向量包含了圖像的更抽象的信息,在實(shí)際應(yīng)用中(例如圖像檢索,圖像聚類等)表現(xiàn)會(huì)更好。extract_features(image_path)

函數(shù)利用

PyTorch的

transforms

模塊和預(yù)訓(xùn)練的模型ResNet50將一張輸入圖像轉(zhuǎn)化為一個(gè)特征向量。然后我們對(duì)

reverse_image_search.csv

文件中的圖片路徑數(shù)據(jù)進(jìn)行循環(huán)提取特征向量:最終會(huì)將生成的向量調(diào)用

TcvdbClient的upsert

方法,插入到向量數(shù)據(jù)庫(kù)中:可以在

DMC

中,用剛剛創(chuàng)建了索引的字段進(jìn)行過(guò)濾,精確查詢到入庫(kù)后的數(shù)據(jù),例如搜索:path="./train/goldfish/n01443537_1903.JPEG":由于向量數(shù)據(jù)一般很大,默認(rèn)不會(huì)返回。如果要返回向量字段需要勾選retrieveVector。搜索相似圖以上部分已經(jīng)完成了將候選圖片提取為特征向量存入到向量數(shù)據(jù)庫(kù)中。下面將完成對(duì)查詢圖片的最相似圖片的檢索。TcvdbClient

search

方法用來(lái)搜索與

query

向量參數(shù)最相似的數(shù)據(jù):將搜索結(jié)果存儲(chǔ)在

result中,其中包括:1.path:相似度較高的

候選圖片

的路徑。2.score:表示兩個(gè)向量之間的相似度。因?yàn)槲覀兪褂昧擞嘞蚁嗨贫龋詓core越接近1,表示兩個(gè)向量越相似。search_similar_image

函數(shù)接收一個(gè)圖像路徑,然后對(duì)每個(gè)匹配的圖像提取特征,在騰訊云向量數(shù)據(jù)庫(kù)中進(jìn)行搜索,找出與其最相似的圖像。將查詢到的結(jié)果取

path字段,存儲(chǔ)在

pred中。騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”

16用戶聲音——開(kāi)發(fā)者的產(chǎn)品實(shí)測(cè)報(bào)告對(duì)圖片

test/Afghan_hound/n02088094_4261.JPEG

的相似圖進(jìn)行搜索時(shí),打印出10條結(jié)果如下:同樣的,如果知道了一張圖片的向量,可以在

DMC

中用向量檢索相似的圖片信息,查詢到的結(jié)果默認(rèn)按照

score

由高到低排序,越大表示相似度越高。集成Gradio覺(jué)得上述示例中的代碼演示對(duì)于非技術(shù)用戶來(lái)說(shuō)不夠友好?我們可以使用

Gradio提供的Web

UI,以更直觀、更互動(dòng)的方式來(lái)展示上述的查詢和結(jié)果。幾秒鐘內(nèi)就可以將上述工作流程以

Web

UI

的形式呈現(xiàn)出來(lái)。這樣,用戶可以直接通過(guò)上傳圖片來(lái)進(jìn)行搜索,在界面上展示出相似的圖片。出于演示目的,下面將通過(guò)輸入圖片路徑,查詢并展示相似的圖片。search_similar_image會(huì)返回類似下面的數(shù)據(jù),最終這些圖片路徑會(huì)被展示到

WebUI上。啟動(dòng)項(xiàng)目。用瀏覽器打開(kāi)

:7860

即可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論