![AI時代的數(shù)據(jù)處理技術(shù)_第1頁](http://file4.renrendoc.com/view12/M00/03/35/wKhkGWb2StmANmXTAAFKCF7swys094.jpg)
![AI時代的數(shù)據(jù)處理技術(shù)_第2頁](http://file4.renrendoc.com/view12/M00/03/35/wKhkGWb2StmANmXTAAFKCF7swys0942.jpg)
![AI時代的數(shù)據(jù)處理技術(shù)_第3頁](http://file4.renrendoc.com/view12/M00/03/35/wKhkGWb2StmANmXTAAFKCF7swys0943.jpg)
![AI時代的數(shù)據(jù)處理技術(shù)_第4頁](http://file4.renrendoc.com/view12/M00/03/35/wKhkGWb2StmANmXTAAFKCF7swys0944.jpg)
![AI時代的數(shù)據(jù)處理技術(shù)_第5頁](http://file4.renrendoc.com/view12/M00/03/35/wKhkGWb2StmANmXTAAFKCF7swys0945.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
AI
時代的數(shù)據(jù)處理技術(shù)陳文光清華大學(xué)
/
螞蟻技術(shù)研究院大數(shù)據(jù):數(shù)據(jù)量,數(shù)據(jù)生成的速度和多模態(tài)數(shù)據(jù)量(Volume)
和數(shù)據(jù)生成速度(Velocity)圖片,文檔,圖,時序,交易物聯(lián)網(wǎng)、邊緣設(shè)備和用戶行為產(chǎn)生大量數(shù)據(jù)多模態(tài)數(shù)據(jù)
(Variety)(in
zettabytes)Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025?Statista
2021https:///statistics/871513/worldwide-data-created/數(shù)據(jù)處理的深度也在增加/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007大模型崛起引領(lǐng)大數(shù)據(jù)新需求高質(zhì)量訓(xùn)練數(shù)據(jù)是進(jìn)一步提升基礎(chǔ)模型性能的關(guān)鍵模型發(fā)布時間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量GPT-12018年6?1.17億約5
GBGPT-22019年2?15億40
GBGPT-32020年5?1750億45
TBGPT-3.5(ChatGPT)2022年11?千億級百
TB
級?GPT-42023年3?萬億級(估)未披露大模型需要大數(shù)據(jù)如何獲得更多數(shù)據(jù)?如何提升數(shù)據(jù)質(zhì)量?如何高效處理海量數(shù)據(jù)?80%
Data20%
Model+ =Better
AI吳恩達(dá)(Andrew
Ng.)吳恩達(dá)的“二八定律”:深度學(xué)習(xí)應(yīng)當(dāng)從
Model-centric
向
Data-centric
轉(zhuǎn)變向量數(shù)據(jù)庫是提升模型服務(wù)能力的核心技術(shù)搜索增強的內(nèi)容生成:RAGVector
databaseQuestion?PromptNearest
neighborsAnswerUser大模型崛起引領(lǐng)大數(shù)據(jù)新趨勢在線離線一體化向量數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫一體化數(shù)據(jù)處理與AI計算一體化趨勢一:在線離線一體化AppsDatabase(MySQL)Queue(Kafka)RealTime
ETL(Flink,SPARK)OLTP(Hbase,
KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts實時鏈路離線鏈路Online
ModelUpdate(PyTorch,TF)Model
Serving(PyTorch,TF)Batch
Training/Test(PyTorch,TF)問
題在線模型(策略)表現(xiàn)與離線不一致數(shù)據(jù)不一致模型效果不一致2-in-1
Architecture:
TP
&
AP
一體化HTAP引擎(TP
+AP)SQL優(yōu)化器并行執(zhí)行存儲過程用于事務(wù)和分析工作負(fù)載的一份數(shù)據(jù)副本雙計算引擎原生多租戶架構(gòu)Oracle
兼容性MySQL
兼容性與多租戶高度兼容,實現(xiàn)資源隔離兼容
MySQL
和
Oracle單機分布式一體化架構(gòu)分布式存儲分布式事務(wù)分布式調(diào)度可以獨立部署,也可以分布式部署架構(gòu)創(chuàng)新Zhifeng
Yang,
Quanqing
Xu,
Shanyan
Gao,
Chuanhui
Yang,
Guoping
Wang,
Yuzhong
Zhao,
Fanyu
Kong,
Hao
Liu,
Wanhong
Wang,
Jinliang
Xiao.
OceanBase
Paetica:
A
Hybrid
Shared-nothing/Shared-everythingDatabase
for
Supporting
Single
Machine
and
Distributed
Cluster.
PVLDB,
16(12):
3728
-
3740,
2023.OceanBase
:
分布式
HTAP
數(shù)據(jù)庫實時數(shù)據(jù)分析和決策對于企業(yè)來說非常重要:OceanBase
采用分布式架構(gòu),具有優(yōu)異的
TP
性能,同時支持分析和批處理(AP)復(fù)雜查詢優(yōu)化自動計劃不斷演變線性化實時
OLAP
處理能力水平可擴展性(數(shù)百億條數(shù)據(jù)記錄)和低延遲(秒)TP
&
AP同一套引擎同時處理TP和AP查詢集群級別的并發(fā)控制優(yōu)化資源分配和流量控制的靈活策略,混合負(fù)載Traditional
processingHTAP
processingStep2
OLAPrequestsOceanBaseclusterOLTP+OLAPrequestsStep1
OLTPrequestsTP&
AP
同一套引擎HTAP+
DBaaS:
成本優(yōu)化和簡化維護HTAP
引擎成本優(yōu)化,維護方便OLTP
workloadOLTP
systemOLAP
systemOLAP
workload圖風(fēng)控方案中的在線離線一體化:問題分布式圖數(shù)據(jù)庫,支持自定義圖查詢語言
GQueryTuGraph
DB流圖計算系統(tǒng),支持
GremlinTuGraph
Dataflow在線近線數(shù)據(jù)不一致模型效果不一致TuGraphDBMessage
QueueTuGraphDataflowTuGraphDataflowDecision
EngineStreamingWriteRule
basedServingDataServingDecision
MakingHistoricalPlaybackApplication以在線數(shù)據(jù)庫內(nèi)容為準(zhǔn),同步到近線系統(tǒng)保證在線近線數(shù)據(jù)一致避免不同語言語義的不一致性很多細(xì)節(jié),比如
Nodelimit在線近線系統(tǒng)使用同樣的查詢語言TuGraph
DB
:分布式圖數(shù)據(jù)庫,支持國際標(biāo)準(zhǔn)圖查詢語言ISO-GQLTuGraph
Dataflow:
流圖計算系統(tǒng),支持國際標(biāo)準(zhǔn)圖查詢語言
ISO-GQLTuGraphDBMessage
QueueTuGraphDataflowTuGraphDataflowDecision
EngineStreamingWriteRule
basedServingDataServingDecision
MakingHistoricalPlaybackApplication圖風(fēng)控方案中的在線離線一體化:解決方案趨勢二:向量數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫一體化存儲引擎事務(wù)引擎SQL引擎向量索引向量搜索引擎向量存儲SQL查詢向量查詢OceanBase螞蟻VSAG庫查詢處理器查詢請求應(yīng)用場景一體化的優(yōu)點OceanBase
以插件形式實現(xiàn)向量數(shù)據(jù)庫指將向量數(shù)據(jù)處理能力和關(guān)系型數(shù)據(jù)管理能力結(jié)合在一起的技術(shù)策略螞蟻
VSAG提供通用向量檢索和構(gòu)建接口(與
Faiss
形式類似)Add
/
Build:增量/批量
構(gòu)建向量索引KnnSearch/RangeSearch:向量檢索(返回行號和距離)Serialize
/
Deserialize:向量索引
序列化/反序列化VSAG
是面向螞蟻的通用向量索引庫提供最佳實現(xiàn)的HNSW生產(chǎn)可用的DiskANN支持
INT8
類型向量檢索(非SQ/PQ)PQ(進(jìn)行中)包含目前主流的向量索引實現(xiàn)自適應(yīng)指令集加速(SIMD
指令集加速)索引分區(qū)Top1/TopK
召回優(yōu)化向量間距離計算優(yōu)化針對場景的優(yōu)化VSAG
與
Faiss
的區(qū)別VSAGFAISS提供最佳實現(xiàn)的
HNSW提供生產(chǎn)可用的
DiskANN支持
INT8
類型向量檢索(非
SQ/PQ)提供
x86、ARM
平臺編譯和
SIMD
運行提供大量
low
level
的算法,可自由組合(IVF、PQ、SQ、Refine)提供最佳實現(xiàn)的
GPU
支持提供
Binary
向量索引算法IVF
算法對于批量搜索有很大加速低門檻使用,無需算法專業(yè)知識,不需要算法選型,直接通過簡單接入,可以快速獲得向量檢索能力,擁有內(nèi)存和磁盤兩個場景下極致解決方案的索引庫向量檢索工具箱,可以深度定制向量檢索算法,對于特定的場景/workload
可以有更好的性能,需要用戶對于檢索算法/參數(shù)非常了解,有最好的
GPU
算法實現(xiàn),面對高寫入/高
QPS
場景有巨大優(yōu)勢在
OceanBase
中集成
VSAGOceanBase
提供模塊化機制引入
VSAGVector
Search
RequestVSAG
LibOceanBase
NodeExtensionsVSAG
LibOceanBase
NodeExtensionsVSAG
LibOceanBase
NodeExtensionsOOcOeceaeananBnBaBasasesePePrPororxoxyxy檢索過程與分析型索引類似針對所有
OceanBase
節(jié)點進(jìn)行檢索對所有節(jié)點結(jié)果進(jìn)行合并OceanBase
新增向量二級索引與
OceanBase
中的本地二級索引類似趨勢三:
數(shù)據(jù)處理與AI
計算一體化大數(shù)據(jù)流程AI
流程CCNet流程大模型訓(xùn)練數(shù)據(jù)處理——Data+AI
典型場景Common
Crawl
是一個海量的、非結(jié)構(gòu)化的、多語言的網(wǎng)頁數(shù)據(jù)集,包含近
10
年的隨機網(wǎng)絡(luò)數(shù)據(jù),PB級規(guī)模,可從
Amazon
S3
上免費獲取。GPT-3
訓(xùn)練數(shù)據(jù)的
60%來自
Common
Crawl。CCNet
是
發(fā)布的數(shù)據(jù)清洗流程,希望從Common
Crawl
中能夠提取出高質(zhì)量的文本數(shù)據(jù)集。刪冗以正則化后的文檔哈希值為鍵,保留首次出現(xiàn)的文檔分詞基于
SentencePiece
分詞器,支持48種語言質(zhì)量評估使用
KenLM
庫中的一個文本質(zhì)量模型評估perplexity過濾分桶根據(jù)用戶提供的語言白名單、黑名單過濾,根據(jù)質(zhì)量分桶語言分類基于
fastText
的預(yù)訓(xùn)練語言分類模型(126MB)解析從
WARC
中分離
HTML請求與響應(yīng)頭、HTML
內(nèi)容。Common
Crawl原始數(shù)據(jù)清洗后高質(zhì)量文本數(shù)據(jù)AI
和大數(shù)據(jù)處理在硬件層面也有很大差別數(shù)據(jù)處理與
AI
融合問題處理器網(wǎng)絡(luò)主要編程語言編程框架NVLink
+
IB/100Gbps+10Gbps
–25Gbps-PythonJava
/
ScalaPythonPyTorch,Tensorflow,PaddlePaddleSQL,Spark,DataFramePandas,NumpySciPy,NotepadAIGPU
或
AI
加速器大數(shù)據(jù)處理通用
CPU小數(shù)據(jù)處理CPUAI
計算在數(shù)據(jù)中心的比例將持續(xù)顯著增加,主要是Python生態(tài)分布式大數(shù)據(jù)處理主要是
Java
生態(tài)“小數(shù)據(jù)”處理主要是
Python
生態(tài)數(shù)據(jù)與
AI
獨立生態(tài)的問題SparkTF/PyTorchSpark預(yù)處理神經(jīng)網(wǎng)絡(luò)后處理1.
兩類軟硬件生態(tài)的開發(fā)、調(diào)試、部署和維護都更加復(fù)雜2.
系統(tǒng)間數(shù)據(jù)傳輸開銷降低性能3.
需要招聘兩類程序員,或精通兩者的程序員問
題只支持
CPU,不支持
GPU
和異構(gòu)加速器重新開發(fā)深度學(xué)習(xí)模塊,不能復(fù)用
TF
中的功能Spark
本身性能有缺陷一種嘗試:BigDL
*
深度學(xué)習(xí)的
Java
化*Dai,
J.
J.,
Wang,
Y.,
Qiu,
X.,
Ding,
D.,
Zhang,
Y.,
Wang,
Y.,
...
&
Wang,
J.
(2019,
November).
Bigdl:
A
distributed
deep
learning
framework
for
big
data.
SoCC
2019另一種嘗試:Spark
的
Python
化Koalas
EvolutionLaunched
at
Spark+Al
Summit
2019Now~3
million
PyPI
downloadspermont
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit2 What is your hobby?Lesson 7(說課稿)-2024-2025學(xué)年人教精通版英語六年級上冊001
- 2025合同模板股東協(xié)議 范本
- 25《憶讀書》說課稿-2024-2025學(xué)年五年級上冊語文統(tǒng)編版
- 8空氣和我們的生活 說課稿-2024-2025學(xué)年科學(xué)三年級上冊教科版
- 8 網(wǎng)絡(luò)新世界說課稿-2024-2025學(xué)年道德與法治四年級上冊統(tǒng)編版
- Unit 3 Asking the way(說課稿)-2023-2024學(xué)年譯林版(三起)英語五年級下冊
- 修理廠與公司車合同范例
- Module 7 單元整體(說課稿)-2024-2025學(xué)年外研版(三起)英語六年級上冊
- 上海供電合同范例
- 2024-2025學(xué)年高中歷史 第5單元 近代中國的思想解放潮流 第14課 從“師夷長技”到維新變法 說課稿 新人教版必修3
- 2025年中國高價HPV疫苗行業(yè)競爭格局分析及投資規(guī)劃研究報告
- 2025年春新北師大版物理八年級下冊課件 第七章 運動和力 第四節(jié) 同一直線上二力的合成
- 《肝硬化的臨床表現(xiàn)》課件
- 新增值稅法學(xué)習(xí)課件
- 飛書項目管理
- 醫(yī)院醫(yī)共體2025年度工作計劃
- 決戰(zhàn)朝鮮課件
- 《酶聯(lián)免疫分析技術(shù)》課件
- 鮮棗貯藏技術(shù)規(guī)程
- DB23T 3838-2024商貿(mào)行業(yè)有限空間個體防護裝備配備規(guī)范
- 2024年循環(huán)水操作工(中級)職業(yè)鑒定理論考試題庫((含答案))
評論
0/150
提交評論