版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
......2018年的33ZB,增長(zhǎng)到2025年的175ZB。Q數(shù)據(jù)貫穿于A(yíng)I應(yīng)用的整個(gè)鏈路數(shù)據(jù)治理–AI應(yīng)用中不可或缺的部分https://www.llamaindex.ai/blog/introducing-llamacloud-and-llamaparse-af8cedf9006b?GDPR、CCPA等要求CONFLUENTCONFLUENT"----------h、---------"新業(yè)務(wù)和LLM需要一種統(tǒng)一的方式來(lái)訪(fǎng)問(wèn)所有數(shù)據(jù)。Technical&BusinessDataConnecttotheDataThatMattersMost.ConnecttotheDataThatMattersMost.Automaticallyfind,classify,andmapallofyourdata-everywhere.allofyourdata-everywhere.Automateend-to-enddatarightsrequestsandreporting.Automateend-to-enddatarightsrequestsandreporting.Enrichtechnicalmetadatawithbusinessandoperationalmetadataforfullvisibility.AutomaticallyclassifymoretypesofdatainAutomaticallyclassifymoretypesofdatainmoreplaces.IPDataSimplifyandautomatedatalifecyclemanagementfromcollectiontodestruction.DataScience/AIScience/AIStreamingAnalyticsWarehouseBusinessIntelligenDataOrchestrationDataOrchestrationAAB組織壁壘技術(shù)壁壘安全壁壘管理壁壘trino鄉(xiāng)stor數(shù)據(jù)智能調(diào)優(yōu)統(tǒng)一權(quán)限管控統(tǒng)一數(shù)據(jù)管控面,旨在幫助用戶(hù)快速構(gòu)建和管理湖倉(cāng)架構(gòu),實(shí)現(xiàn)全方位湖倉(cāng)管理數(shù)據(jù)智能調(diào)優(yōu)統(tǒng)一權(quán)限管控統(tǒng)一數(shù)據(jù)/元數(shù)據(jù)管理視圖從元數(shù)據(jù)層面上達(dá)到SSOT↓頻等Metastore數(shù)據(jù)倉(cāng)庫(kù)實(shí)時(shí)消息數(shù)據(jù)湖Next-GenDataCatalogistheCoreinNewOpenDataArchitecture/ Tabulardata…}….}Non-tabulardata…}….}TechnologyTechnologyCommunicationCommunicationDataDataternetofternetofthingsAutomatioAutomationNetworkingNetworkingDataDataEngineerDataIngestionDataIngestionSparkSparkHDFSHDFSClientS3S3SDKutomatioutomationCopyCopyStructuredUnstructuredTraining/Checkpoint/Training/Checkpoint/Metrics/ModelData統(tǒng)一元數(shù)據(jù)治理前統(tǒng)一元數(shù)據(jù)治理后數(shù)據(jù)導(dǎo)出容易造成信息泄漏;數(shù)據(jù)使用無(wú)法跟蹤統(tǒng)一數(shù)據(jù)查找和訪(fǎng)問(wèn);統(tǒng)一安全模型和數(shù)據(jù)訪(fǎng)問(wèn)DataScientistAIEngineerDataScientistAIEngineerTechnologyDataEngineerDataIngestionTensorflowCommunicationSparkTensorflowPytorchPytorchHDFSClientETLETLDataS3SDKternetofthingsGravitino!WriteDataReadDataAWriteDataGravitinoACLUnifiedAccessControlGravitinoDatasetUnstructuredDataScientistAIEngineerDataScientistAIEngineerTechnologyDataEngineerDataIngestionTensorflowCommunicationSparkTensorflowPytorchPytorchHDFSClientETLETLDataS3SDKternetofthingsGravitino!WriteDataReadDataAWriteDataGravitinoACLUnifiedAccessControlGravitinoDatasetUnstructuredDataUnstructuredDataStructuredDataDataDataNetworking生成式大語(yǔ)言模型(LLM)的功能相結(jié)合。由決策引擎選擇RAG方法;使用多種數(shù)據(jù)源/知識(shí)庫(kù)結(jié)合關(guān)鍵字和語(yǔ)義檢索的結(jié)果;檢索前后進(jìn)行一定預(yù)處理;基于向量的檢索;易于實(shí)現(xiàn),有限的數(shù)據(jù),缺少對(duì)查詢(xún)和結(jié)果進(jìn)行校驗(yàn)KB等)?框架(LangChain,LlamaIndex?基礎(chǔ)模型/Embedding模型?不能提供針對(duì)某個(gè)用戶(hù)的準(zhǔn)確信息在Retrieval前:在Retrieval前:-TextToSQL(或其它查詢(xún)語(yǔ)法)-改寫(xiě)問(wèn)題(通過(guò)LLM)-對(duì)查詢(xún)結(jié)果進(jìn)行re-ranking--提供更多的上下文信息和一定的推理??更進(jìn)一步,在Retrieval前進(jìn)行查詢(xún)路由:-在不同KB之間選擇-在不同retrieve方式之間選擇-使用LLM判斷在RAG框架中為每個(gè)數(shù)據(jù)庫(kù)、每種數(shù)據(jù)源開(kāi)發(fā)連接器/reader、獲取其描述信息、獲得prompt模版、進(jìn)行NL2SQL/QL、查詢(xún)數(shù)據(jù)、輸入給LLMn每個(gè)數(shù)據(jù)源/存儲(chǔ)都需流程打通、產(chǎn)品打通非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)地圖與資產(chǎn)治理傳統(tǒng)機(jī)器學(xué)習(xí)大模型預(yù)訓(xùn)練/微調(diào)支持設(shè)置TTL與TTV數(shù)據(jù)處理流程A流程數(shù)據(jù)加工spark/Flink數(shù)據(jù)分析OLAP數(shù)據(jù)探查數(shù)據(jù)加工spark/Flink數(shù)據(jù)分析OLAP數(shù)據(jù)探查Notebook模型訓(xùn)練LLM模型部署數(shù)據(jù)集成集成引擎根據(jù)血緣推薦TTL、TTV管理前降本40%管理后!降本40%管理后特征分析特征分析pytorchpandas模型訓(xùn)練pytorchpandas模型訓(xùn)練模型部署提取特征sparkModel數(shù)據(jù)落倉(cāng)模型部署提取特征sparkModel數(shù)據(jù)落倉(cāng)TaloslcebergFileset模型校驗(yàn)TaloslcebergFileset模型校驗(yàn)數(shù)據(jù)分析數(shù)據(jù)分析python微調(diào)/預(yù)訓(xùn)練Dockersparkpython用戶(hù)問(wèn)答語(yǔ)料數(shù)據(jù)選取微調(diào)數(shù)據(jù)微調(diào)/預(yù)訓(xùn)練Dockersparkpython用戶(hù)問(wèn)答語(yǔ)料數(shù)據(jù)選取微調(diào)數(shù)據(jù)FilesetlcebergHive/lceberglcebergpythonpython部署/在線(xiàn)推理校驗(yàn)/離線(xiàn)推理Docker測(cè)試數(shù)據(jù)部署/在線(xiàn)推理校驗(yàn)/離線(xiàn)推理Docker測(cè)試數(shù)據(jù)Fileset實(shí)踐2:某互聯(lián)網(wǎng)社交平臺(tái)業(yè)務(wù)側(cè)耦合度高:元數(shù)據(jù)使用方調(diào)用異構(gòu)數(shù)據(jù)源方式多種多樣數(shù)據(jù)治理能力有限:無(wú)法提供統(tǒng)一的審計(jì)、權(quán)限管理、TTL能力半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源缺乏管理跨源數(shù)據(jù)Schema維護(hù)成本高OneMeta:集成Gravitino提供定制化接口:dropPartitiosByFilter/loadFileDetail/loadFiles......提供定制化catalog實(shí)現(xiàn):BiliIcebergCatalog/BiliKafkaCatalog/BiliDatabusCatalog......降低代碼的侵入性,便于同步社區(qū)最新代碼解耦業(yè)務(wù)方復(fù)雜依賴(lài),降低元數(shù)據(jù)使用成本解決由于引擎間差異、數(shù)據(jù)源差異造成的元數(shù)據(jù)不一致問(wèn)題解決由于HiveMetaStore造成的性能瓶頸Fileset文件治理主要流程:1.數(shù)據(jù)治理平臺(tái)制定治理策略TTL
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東松山職業(yè)技術(shù)學(xué)院《人力資源戰(zhàn)略與規(guī)劃》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東生態(tài)工程職業(yè)學(xué)院《材料表界面》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東青年職業(yè)學(xué)院《抽樣技術(shù)與應(yīng)用(實(shí)驗(yàn))》2023-2024學(xué)年第一學(xué)期期末試卷
- 七年級(jí)上冊(cè)《3.2.1 代數(shù)式的值》課件與作業(yè)
- 廣東南華工商職業(yè)學(xué)院《比較公共行政學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名幼兒師范專(zhuān)科學(xué)?!队變好佬g(shù)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名農(nóng)林科技職業(yè)學(xué)院《趣味素描》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東嶺南職業(yè)技術(shù)學(xué)院《馬克思主義政治經(jīng)濟(jì)學(xué)原理》2023-2024學(xué)年第一學(xué)期期末試卷
- -業(yè)務(wù)員月工作總結(jié)簡(jiǎn)短
- 大學(xué)生公民素質(zhì)教育(南京師范大學(xué))學(xué)習(xí)通測(cè)試及答案
- 醫(yī)院自助機(jī)培訓(xùn)
- 2024年支原體肺炎治療
- 棟號(hào)長(zhǎng)年度述職報(bào)告
- 無(wú)人機(jī)安全飛行承諾書(shū)
- 四川省成都市九縣區(qū)2023-2024學(xué)年高一下學(xué)期期末調(diào)研考試化學(xué)試題(解析版)
- 成品油零售經(jīng)營(yíng)資格申請(qǐng)表
- 《網(wǎng)頁(yè)設(shè)計(jì)與制作案例實(shí)戰(zhàn)教程》全套教學(xué)課件
- 產(chǎn)品創(chuàng)意設(shè)計(jì)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 協(xié)議書(shū)范文離婚書(shū)范本模板
- 保險(xiǎn)代理公司培訓(xùn)
- 關(guān)于水滸傳的題目單選題100道及答案解析
評(píng)論
0/150
提交評(píng)論