數(shù)據(jù)集成工具:Azure Data Factory:連接到各種數(shù)據(jù)源_第1頁
數(shù)據(jù)集成工具:Azure Data Factory:連接到各種數(shù)據(jù)源_第2頁
數(shù)據(jù)集成工具:Azure Data Factory:連接到各種數(shù)據(jù)源_第3頁
數(shù)據(jù)集成工具:Azure Data Factory:連接到各種數(shù)據(jù)源_第4頁
數(shù)據(jù)集成工具:Azure Data Factory:連接到各種數(shù)據(jù)源_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)集成工具:AzureDataFactory:連接到各種數(shù)據(jù)源1數(shù)據(jù)源連接概述1.1AzureDataFactory支持的數(shù)據(jù)源AzureDataFactory(ADF)是一個云端數(shù)據(jù)整合服務(wù),用于創(chuàng)建和調(diào)度數(shù)據(jù)驅(qū)動的工作流。它支持多種數(shù)據(jù)源,包括但不限于:SQLServerAzureSQLDatabaseAzureCosmosDBAzureBlobStorageAzureDataLakeStorageAmazonS3OracleDatabaseMongoDBAzureSynapseAnalyticsAzureTableStorageAzureCosmosDBSQLAPIAzureCosmosDBMongoDBAPIAzureSQLManagedInstancePostgreSQLMySQLTeradataSAPHANASAPBWSalesforceGoogleBigQueryHadoopHDFSHadoopHiveHadoopPigHadoopMapReduceHadoopStreamingHadoopDistCpHadoopImpalaHadoopSparkHadoopHiveonHDInsightHadoopPigonHDInsightHadoopMapReduceonHDInsightHadoopStreamingonHDInsightHadoopDistCponHDInsightHadoopImpalaonHDInsightHadoopSparkonHDInsightAzureEventHubsAzureQueueStorageAzureSearchAzureEventHubsCaptureAzureStreamAnalyticsAzureAnalysisServicesAzureDatabricksAzureDatabaseforMySQLAzureDatabaseforPostgreSQLAzureDatabaseforMariaDBAzureDatabaseforSQLServerAzureDatabaseforPostgreSQL-FlexibleServerAzureDatabaseforMySQL-FlexibleServerAzureDatabaseforMariaDB-FlexibleServerAzureDatabaseforSQLServer-ManagedInstanceAzureDatabaseforPostgreSQL-SingleServerAzureDatabaseforMySQL-SingleServerAzureDatabaseforMariaDB-SingleServerAzureDatabaseforSQLServer-SingleServerAzureDatabaseforPostgreSQL-HyperscaleAzureDatabaseforMySQL-HyperscaleAzureDatabaseforMariaDB-HyperscaleAzureDatabaseforSQLServer-HyperscaleAzureDatabaseforPostgreSQL-ServerlessAzureDatabaseforMySQL-ServerlessAzureDatabaseforMariaDB-ServerlessAzureDatabaseforSQLServer-ServerlessAzureDatabaseforPostgreSQL-ManagedInstanceAzureDatabaseforMySQL-ManagedInstanceAzureDatabaseforMariaDB-ManagedInstanceAzureDatabaseforSQLServer-ManagedInstanceAzureDatabaseforPostgreSQL-DedicatedAzureDatabaseforMySQL-DedicatedAzureDatabaseforMariaDB-DedicatedAzureDatabaseforSQLServer-DedicatedAzureDatabaseforPostgreSQL-GeneralPurposeAzureDatabaseforMySQL-GeneralPurposeAzureDatabaseforMariaDB-GeneralPurposeAzureDatabaseforSQLServer-GeneralPurposeAzureDatabaseforPostgreSQL-MemoryOptimizedAzureDatabaseforMySQL-MemoryOptimizedAzureDatabaseforMariaDB-MemoryOptimizedAzureDatabaseforSQLServer-MemoryOptimized這些數(shù)據(jù)源可以通過ADF的連接器進(jìn)行集成,實現(xiàn)數(shù)據(jù)的復(fù)制、轉(zhuǎn)換和加載。1.2連接器的類型和功能1.2.1SQLServer連接器原理SQLServer連接器用于從本地或Azure虛擬機(jī)上的SQLServer讀取數(shù)據(jù),或向其寫入數(shù)據(jù)。它使用SQLServer驅(qū)動程序通過ODBC或JDBC連接到數(shù)據(jù)庫。示例{

"name":"SqlServerConnection",

"properties":{

"type":"SqlServer",

"typeProperties":{

"server":"<your_server_name>",

"database":"<your_database_name>",

"authenticationType":"Basic",

"username":"<your_username>",

"password":{

"type":"SecureString",

"value":"<your_password>"

}

},

"connectVia":{

"referenceName":"<your_integration_runtime>",

"type":"IntegrationRuntimeReference"

}

}

}server:SQLServer的名稱或IP地址。database:要連接的數(shù)據(jù)庫名稱。authenticationType:認(rèn)證類型,可以是基本認(rèn)證或Windows認(rèn)證。username和password:數(shù)據(jù)庫的登錄憑證。connectVia:指定的集成運行時,用于處理本地或虛擬機(jī)上的數(shù)據(jù)源。1.2.2AzureSQLDatabase連接器原理AzureSQLDatabase連接器用于連接到AzureSQLDatabase,它使用SQLServer驅(qū)動程序通過ODBC或JDBC進(jìn)行連接。示例{

"name":"AzureSqlDatabaseConnection",

"properties":{

"type":"AzureSqlDatabase",

"typeProperties":{

"server":"<your_server_name>.",

"database":"<your_database_name>",

"authentication":{

"type":"ManagedIdentity",

"managedIdentityResourceId":"<your_managed_identity_resource_id>"

}

}

}

}server:AzureSQLDatabase的服務(wù)器名稱。database:數(shù)據(jù)庫名稱。authentication:使用托管身份進(jìn)行認(rèn)證,無需存儲用戶名和密碼。1.2.3AzureCosmosDB連接器原理AzureCosmosDB連接器用于連接到AzureCosmosDB,支持SQLAPI和MongoDBAPI。它使用CosmosDB的SDK進(jìn)行連接。示例{

"name":"CosmosDbConnection",

"properties":{

"type":"CosmosDb",

"typeProperties":{

"connectionString":{

"type":"SecureString",

"value":"AccountEndpoint=<your_account_endpoint>;AccountKey=<your_account_key>;Database=<your_database_name>"

}

}

}

}connectionString:包含賬戶端點、賬戶密鑰和數(shù)據(jù)庫名稱的連接字符串。1.2.4使用連接器進(jìn)行數(shù)據(jù)復(fù)制原理使用ADF的復(fù)制活動,可以從一個數(shù)據(jù)源讀取數(shù)據(jù)并將其寫入另一個數(shù)據(jù)源。這需要在源和接收器之間定義連接器。示例{

"name":"CopyFromSQLToCosmosDB",

"properties":{

"activities":[

{

"name":"CopySQLtoCosmosDB",

"type":"Copy",

"inputs":[

{

"referenceName":"SqlServerConnection",

"type":"DatasetReference"

}

],

"outputs":[

{

"referenceName":"CosmosDbConnection",

"type":"DatasetReference"

}

],

"typeProperties":{

"source":{

"type":"SqlSource",

"sqlReaderQuery":"SELECT*FROM<your_table_name>"

},

"sink":{

"type":"CosmosDbSink",

"writeBehavior":"insert"

}

}

}

]

}

}source:定義SQLServer數(shù)據(jù)源的讀取方式。sink:定義AzureCosmosDB數(shù)據(jù)接收器的寫入方式。1.2.5總結(jié)通過上述連接器和示例,可以理解如何在AzureDataFactory中連接和操作各種數(shù)據(jù)源。這為數(shù)據(jù)工程師提供了強(qiáng)大的工具,以實現(xiàn)數(shù)據(jù)的高效集成和處理。2數(shù)據(jù)集成工具:AzureDataFactory連接到SQLServer2.1配置SQLServer連接在AzureDataFactory中,連接到SQLServer數(shù)據(jù)源需要創(chuàng)建一個鏈接服務(wù)。鏈接服務(wù)定義了數(shù)據(jù)工廠與數(shù)據(jù)源之間的連接屬性。以下是創(chuàng)建SQLServer鏈接服務(wù)的步驟:打開AzureDataFactory:登錄Azure門戶,選擇你的數(shù)據(jù)工廠,然后在“數(shù)據(jù)工廠”菜單中選擇“數(shù)據(jù)集成”>“數(shù)據(jù)工廠”>“編輯”。創(chuàng)建鏈接服務(wù):在左側(cè)菜單中,選擇“鏈接服務(wù)”,然后點擊“新建鏈接服務(wù)”。選擇數(shù)據(jù)源類型:在“新建鏈接服務(wù)”窗口中,選擇“SQLServer”。輸入連接屬性:服務(wù)器名稱:輸入SQLServer的服務(wù)器名稱。數(shù)據(jù)庫名稱:輸入SQLServer的數(shù)據(jù)庫名稱。身份驗證類型:選擇身份驗證類型,如“基本”或“Windows”。用戶名:輸入用于連接SQLServer的用戶名。密碼:輸入用于連接SQLServer的密碼。連接字符串:可選,直接輸入連接字符串。測試連接:點擊“測試連接”按鈕,確保連接成功。保存鏈接服務(wù):輸入鏈接服務(wù)的名稱,然后點擊“保存”。2.1.1示例代碼:創(chuàng)建SQLServer鏈接服務(wù){(diào)

"name":"SqlServer1",

"properties":{

"type":"SqlServer",

"typeProperties":{

"server":"",

"database":"yourdatabase",

"authenticationType":"Basic",

"username":"yourusername",

"password":"yourpassword"

},

"connectVia":{

"referenceName":"IntegrationRuntime1",

"type":"IntegrationRuntimeReference"

}

}

}2.2使用SQLServer數(shù)據(jù)源的活動一旦創(chuàng)建了SQLServer的鏈接服務(wù),你就可以在數(shù)據(jù)工廠的管道中使用它來執(zhí)行各種活動,如復(fù)制數(shù)據(jù)、查詢數(shù)據(jù)等。2.2.1復(fù)制數(shù)據(jù)活動示例假設(shè)你有一個SQLServer數(shù)據(jù)庫,你想要將其中的數(shù)據(jù)復(fù)制到AzureBlob存儲中。創(chuàng)建管道:在“編輯”界面中,選擇“管道”,然后點擊“新建”。添加復(fù)制數(shù)據(jù)活動:從“活動”工具箱中,拖拽“復(fù)制數(shù)據(jù)”活動到畫布上。配置復(fù)制數(shù)據(jù)活動:源數(shù)據(jù)集:選擇或創(chuàng)建一個SQLServer數(shù)據(jù)集,與你的SQLServer鏈接服務(wù)關(guān)聯(lián)。接收數(shù)據(jù)集:選擇或創(chuàng)建一個AzureBlob存儲數(shù)據(jù)集。源數(shù)據(jù)源:選擇你之前創(chuàng)建的SQLServer鏈接服務(wù)。接收數(shù)據(jù)源:選擇你的AzureBlob存儲鏈接服務(wù)。設(shè)置查詢:在“復(fù)制數(shù)據(jù)”活動的“源”設(shè)置中,你可以設(shè)置一個SQL查詢來指定要復(fù)制的數(shù)據(jù)。2.2.2示例代碼:復(fù)制數(shù)據(jù)活動{

"name":"CopyFromSQLServerToBlob",

"properties":{

"activities":[

{

"name":"CopySQLServerToBlob",

"type":"Copy",

"inputs":[

{

"referenceName":"SQLServerDataset",

"type":"DatasetReference"

}

],

"outputs":[

{

"referenceName":"BlobDataset",

"type":"DatasetReference"

}

],

"typeProperties":{

"source":{

"type":"SqlSource",

"sqlReaderQuery":"SELECT*FROMyourtable"

},

"sink":{

"type":"BlobSink"

}

}

}

]

}

}2.2.3解釋在上述代碼中,我們定義了一個管道,其中包含一個復(fù)制數(shù)據(jù)活動。該活動從SQLServer數(shù)據(jù)源讀取數(shù)據(jù),并將其復(fù)制到AzureBlob存儲中。我們通過設(shè)置sqlReaderQuery來指定要從SQLServer中復(fù)制的數(shù)據(jù)表。通過這些步驟和示例,你可以有效地在AzureDataFactory中配置SQLServer的連接,并使用它來執(zhí)行數(shù)據(jù)集成任務(wù)。這為從SQLServer數(shù)據(jù)庫中提取、轉(zhuǎn)換和加載數(shù)據(jù)提供了強(qiáng)大的工具。3連接到AzureSQL數(shù)據(jù)庫3.1創(chuàng)建AzureSQL數(shù)據(jù)庫連接在使用AzureDataFactory進(jìn)行數(shù)據(jù)集成時,連接到AzureSQL數(shù)據(jù)庫是關(guān)鍵步驟之一。以下是如何在AzureDataFactory中創(chuàng)建AzureSQL數(shù)據(jù)庫連接的詳細(xì)步驟:登錄Azure門戶:首先,登錄到Azure門戶(/)。訪問DataFactory:在Azure門戶的左側(cè)菜單中,選擇“所有服務(wù)”,然后搜索并選擇“DataFactory”。找到你的DataFactory實例并點擊進(jìn)入。創(chuàng)建連接:在DataFactory實例的左側(cè)菜單中,選擇“連接”選項。點擊“新建連接”按鈕。選擇數(shù)據(jù)源類型:在“新建連接”窗口中,選擇“AzureSQL數(shù)據(jù)庫”作為數(shù)據(jù)源類型。輸入連接詳細(xì)信息:在“連接詳細(xì)信息”部分,輸入你的AzureSQL數(shù)據(jù)庫的詳細(xì)信息,包括服務(wù)器名稱、數(shù)據(jù)庫名稱、用戶名和密碼。確保這些信息是正確的,以便成功連接。測試連接:輸入完詳細(xì)信息后,點擊“測試連接”按鈕,以驗證連接設(shè)置是否正確。保存連接:如果測試成功,點擊“創(chuàng)建”按鈕保存連接?,F(xiàn)在,你可以在DataFactory的管道中使用這個連接了。3.2執(zhí)行AzureSQL數(shù)據(jù)庫查詢一旦創(chuàng)建了AzureSQL數(shù)據(jù)庫的連接,你就可以在AzureDataFactory的管道中執(zhí)行查詢,以讀取、寫入或更新數(shù)據(jù)。以下是如何在管道中使用AzureSQL數(shù)據(jù)庫連接執(zhí)行查詢的步驟:創(chuàng)建管道:在DataFactory實例中,選擇“創(chuàng)建和監(jiān)控”選項,然后點擊“創(chuàng)建管道”。添加源數(shù)據(jù)集:在管道設(shè)計畫布中,點擊“源”圖標(biāo),選擇“AzureSQL數(shù)據(jù)庫”。在“新建數(shù)據(jù)集”窗口中,選擇你之前創(chuàng)建的AzureSQL數(shù)據(jù)庫連接。配置查詢:在數(shù)據(jù)集配置窗口中,選擇“表”或“SQL查詢”作為數(shù)據(jù)源類型。如果選擇“SQL查詢”,你可以在“SQL查詢”字段中輸入自定義的SQL查詢語句。例如,假設(shè)你有一個名為Sales的表,你可以使用以下SQL查詢來讀取數(shù)據(jù):SELECT*FROMSalesWHERESaleDate>='2023-01-01'添加接收器:在管道設(shè)計畫布中,添加一個接收器,例如“AzureBlob存儲”或“AzureSQL數(shù)據(jù)庫”,以將數(shù)據(jù)寫入或更新到目標(biāo)位置。創(chuàng)建數(shù)據(jù)流:將源數(shù)據(jù)集拖放到接收器上,創(chuàng)建數(shù)據(jù)流。在數(shù)據(jù)流中,你可以進(jìn)行數(shù)據(jù)轉(zhuǎn)換,如篩選、映射字段等。配置接收器:在接收器配置窗口中,選擇目標(biāo)位置和寫入模式。如果目標(biāo)是另一個AzureSQL數(shù)據(jù)庫,你可以選擇“表”或“SQL命令”來寫入數(shù)據(jù)。例如,將數(shù)據(jù)寫入名為SalesSummary的表中,你可以使用以下SQL命令:INSERTINTOSalesSummary(TotalSales,SaleDate)

SELECTSUM(SaleAmount),SaleDateFROMSalesGROUPBYSaleDate保存并發(fā)布管道:完成管道設(shè)計后,點擊“保存”按鈕,然后在“創(chuàng)建和監(jiān)控”頁面中,點擊“發(fā)布所有內(nèi)容”以發(fā)布管道。觸發(fā)管道執(zhí)行:在“創(chuàng)建和監(jiān)控”頁面中,選擇“觸發(fā)器”,然后創(chuàng)建一個新的觸發(fā)器來自動執(zhí)行管道,或手動觸發(fā)管道執(zhí)行。通過以上步驟,你可以在AzureDataFactory中創(chuàng)建AzureSQL數(shù)據(jù)庫的連接,并使用這些連接來執(zhí)行復(fù)雜的SQL查詢,從而實現(xiàn)數(shù)據(jù)的讀取、寫入和更新。這為數(shù)據(jù)集成和處理提供了強(qiáng)大的工具,使你能夠輕松地在不同的數(shù)據(jù)源之間移動和轉(zhuǎn)換數(shù)據(jù)。4連接到AzureCosmosDB4.1理解CosmosDB連接器AzureDataFactory(ADF)提供了CosmosDB連接器,用于在ADF管道中讀取和寫入AzureCosmosDB數(shù)據(jù)。CosmosDB是一個全球分布式、多模型數(shù)據(jù)庫服務(wù),為應(yīng)用程序提供低延遲、高吞吐量和高可用性。ADF的CosmosDB連接器支持SQLAPI和MongoDBAPI,允許你使用ADF的復(fù)制活動或查詢活動來處理數(shù)據(jù)。4.1.1特性低延遲訪問:CosmosDB連接器利用CosmosDB的高性能,提供毫秒級的延遲。數(shù)據(jù)復(fù)制:可以將數(shù)據(jù)從CosmosDB復(fù)制到其他數(shù)據(jù)存儲,或從其他數(shù)據(jù)存儲復(fù)制到CosmosDB。數(shù)據(jù)查詢:使用SQL查詢或MongoDB命令查詢CosmosDB數(shù)據(jù)。4.1.2支持的活動復(fù)制活動:從CosmosDB讀取數(shù)據(jù)并寫入到另一個數(shù)據(jù)存儲。查詢活動:執(zhí)行SQL查詢或MongoDB命令,獲取結(jié)果并進(jìn)行后續(xù)處理。4.2配置CosmosDB連接在ADF中配置CosmosDB連接涉及以下步驟:創(chuàng)建連接:在ADF的“連接”區(qū)域,選擇“新建連接”,然后選擇“AzureCosmosDB”。輸入連接詳細(xì)信息:提供CosmosDB的賬戶名、密鑰、數(shù)據(jù)庫名和容器名。選擇API類型:根據(jù)你的CosmosDB實例選擇SQLAPI或MongoDBAPI。測試連接:確保連接信息正確無誤,可以成功連接到CosmosDB。4.2.1示例代碼{

"name":"CosmosDBConnection",

"properties":{

"type":"CosmosDb",

"typeProperties":{

"accountEndpoint":":443/",

"accountKey":"yourcosmosdbaccountkey==",

"database":"yourdatabase",

"container":"yourcontainer",

"preferredRegions":[

"EastUS",

"WestEurope"

]

},

"connectVia":{

"referenceName":"yourintegrationruntime",

"type":"IntegrationRuntimeReference"

}

}

}4.3使用CosmosDB進(jìn)行數(shù)據(jù)復(fù)制使用ADF的復(fù)制活動,你可以將數(shù)據(jù)從CosmosDB復(fù)制到另一個數(shù)據(jù)存儲,或反之。以下是一個使用復(fù)制活動從CosmosDB讀取數(shù)據(jù)并寫入到AzureBlob存儲的示例。4.3.1示例代碼{

"name":"CopyFromCosmosDBToBlob",

"properties":{

"activities":[

{

"name":"CopyCosmosDBToBlob",

"type":"Copy",

"inputs":[

{

"referenceName":"CosmosDBSource",

"type":"DatasetReference"

}

],

"outputs":[

{

"referenceName":"AzureBlobSink",

"type":"DatasetReference"

}

],

"typeProperties":{

"source":{

"type":"CosmosDbSource",

"query":"SELECT*FROMcWHEREc.id='123'"

},

"sink":{

"type":"BlobSink",

"writeBatchSize":0,

"writeBatchTimeout":"00:00:00"

}

}

}

],

"annotations":[]

}

}4.3.2解釋活動名稱:CopyFromCosmosDBToBlob,定義了管道的主要功能?;顒宇愋停篊opy,表示這是一個復(fù)制活動。輸入數(shù)據(jù)集:CosmosDBSource,從CosmosDB讀取數(shù)據(jù)。輸出數(shù)據(jù)集:AzureBlobSink,將數(shù)據(jù)寫入AzureBlob存儲。查詢:SELECT*FROMcWHEREc.id='123',從CosmosDB中選擇特定的數(shù)據(jù)行。寫入設(shè)置:writeBatchSize和writeBatchTimeout控制數(shù)據(jù)寫入Blob存儲的批量大小和超時時間。通過以上步驟和示例,你可以有效地在AzureDataFactory中配置和使用CosmosDB連接器,實現(xiàn)數(shù)據(jù)的高效復(fù)制和處理。5高級連接策略5.1使用數(shù)據(jù)管理網(wǎng)關(guān)連接本地數(shù)據(jù)源在AzureDataFactory中,連接本地數(shù)據(jù)源(如SQLServer)需要通過Azure數(shù)據(jù)管理網(wǎng)關(guān)(DataManagementGateway)。數(shù)據(jù)管理網(wǎng)關(guān)是一個可以在本地網(wǎng)絡(luò)中安裝的軟件組件,它充當(dāng)Azure云服務(wù)與本地數(shù)據(jù)源之間的橋梁,允許數(shù)據(jù)工廠安全地訪問本地數(shù)據(jù)。5.1.1安裝數(shù)據(jù)管理網(wǎng)關(guān)下載網(wǎng)關(guān)軟件:從Azure門戶中下載數(shù)據(jù)管理網(wǎng)關(guān)安裝程序。安裝網(wǎng)關(guān):在本地網(wǎng)絡(luò)中的一臺計算機(jī)上安裝網(wǎng)關(guān)軟件。注冊網(wǎng)關(guān):在安裝過程中,使用Azure訂閱中的資源組和數(shù)據(jù)工廠的名稱來注冊網(wǎng)關(guān)。5.1.2配置網(wǎng)關(guān)網(wǎng)關(guān)組:在AzureDataFactory中創(chuàng)建一個網(wǎng)關(guān)組,將網(wǎng)關(guān)添加到該組中。數(shù)據(jù)源連接:創(chuàng)建數(shù)據(jù)源連接時,選擇“自托管集成運行時”并關(guān)聯(lián)到相應(yīng)的網(wǎng)關(guān)組。5.1.3示例:使用數(shù)據(jù)管理網(wǎng)關(guān)從本地SQLServer復(fù)制數(shù)據(jù)到AzureSQLDatabase{

"name":"OnPremToAzureSql",

"properties":{

"activities":[

{

"name":"CopyFromOnPremSQLToAzureSQL",

"type":"Copy",

"linkedServiceName":{

"referenceName":"OnPremSQLServer",

"type":"LinkedServiceReference"

},

"inputs":[

{

"referenceName":"OnPremSQLTable",

"type":"DatasetReference"

}

],

"outputs":[

{

"referenceName":"AzureSQLTable",

"type":"DatasetReference"

}

],

"typeProperties":{

"source":{

"type":"SqlSource",

"sqlReaderQuery":"SELECT*FROMMyTable"

},

"sink":{

"type":"SqlSink",

"sqlWriterTableType":"MyTableType"

},

"dataIntegrationRuntime":{

"type":"SelfHostedIntegrationRuntime",

"name":"MyGateway"

}

}

}

]

}

}在上述示例中,OnPremSQLServer是與本地SQLServer連接的鏈接服務(wù),OnPremSQLTable和AzureSQLTable分別是本地和AzureSQL數(shù)據(jù)庫中的數(shù)據(jù)集。MyGateway是注冊的數(shù)據(jù)管理網(wǎng)關(guān)的名稱。5.2配置自托管集成運行時自托管集成運行時(Self-hostedIntegrationRuntime)是AzureDataFactory中用于處理本地數(shù)據(jù)源或私有網(wǎng)絡(luò)中數(shù)據(jù)源的數(shù)據(jù)移動和數(shù)據(jù)集成任務(wù)的組件。它可以在本地網(wǎng)絡(luò)中或虛擬網(wǎng)絡(luò)中運行,提供與Azure云服務(wù)之間的數(shù)據(jù)傳輸。5.2.1創(chuàng)建自托管集成運行時在AzureDataFactory中創(chuàng)建:通過Azure門戶,在數(shù)據(jù)工廠中創(chuàng)建一個新的自托管集成運行時。下載安裝程序:下載自托管集成運行時的安裝程序,并在本地網(wǎng)絡(luò)或虛擬網(wǎng)絡(luò)中的計算機(jī)上安裝。5.2.2配置自托管集成運行時安裝位置:選擇一個具有穩(wěn)定網(wǎng)絡(luò)連接的計算機(jī)來安裝自托管集成運行時。注冊運行時:安裝后,運行時需要注冊到AzureDataFactory中,以便數(shù)據(jù)工廠可以使用它。5.2.3示例:使用自托管集成運行時從本地文件系統(tǒng)復(fù)制數(shù)據(jù)到AzureBlob存儲{

"name":"OnPremFileSystemToAzureBlob",

"properties":{

"activities":[

{

"name":"CopyFromOnPremFileSystemToBlob",

"type":"Copy",

"linkedServiceName":{

"referenceName":"OnPremFileSystem",

"type":"LinkedServiceReference"

},

"inputs":[

{

"referenceName":"OnPremFile",

"type":"DatasetReference"

}

],

"outputs":[

{

"referenceName":"AzureBlob",

"type":"DatasetReference"

}

],

"typeProperties":{

"source":{

"type":"FileSource",

"recursive":true

},

"sink":{

"type":"BlobSink"

},

"dataIntegrationRuntime":{

"type":"SelfHostedIntegrationRuntime",

"name":"MySelfHostedIR"

}

}

}

]

}

}在本例中,OnPremFileSystem是與本地文件系統(tǒng)連接的鏈接服務(wù),OnPremFile和AzureBlob分別是本地文件和AzureBlob存儲中的數(shù)據(jù)集。MySelfHostedIR是自托管集成運行時的名稱。5.3優(yōu)化數(shù)據(jù)集成性能數(shù)據(jù)集成性能的優(yōu)化是確保數(shù)據(jù)移動和處理任務(wù)高效完成的關(guān)鍵。AzureDataFactory提供了多種策略來優(yōu)化數(shù)據(jù)集成性能,包括但不限于:并行處理:通過增加并行度,可以同時處理多個數(shù)據(jù)流,從而提高數(shù)據(jù)處理速度。數(shù)據(jù)壓縮:在數(shù)據(jù)傳輸過程中使用壓縮可以減少數(shù)據(jù)傳輸量,從而提高傳輸速度。使用分區(qū):對于大型數(shù)據(jù)集,使用分區(qū)可以提高數(shù)據(jù)加載和查詢的效率。選擇合適的集成運行時:根據(jù)數(shù)據(jù)源的位置和網(wǎng)絡(luò)狀況,選擇最合適的集成運行時。5.3.1示例:優(yōu)化從AzureSQLDatabase到AzureCosmosDB的數(shù)據(jù)復(fù)制性能{

"name":"OptimizedCopyFromAzureSQLToCosmosDB",

"properties":{

"activities":[

{

"name":"CopyFromAzureSQLToCosmosDB",

"type":"Copy",

"linkedServiceName":{

"referenceName":"AzureSQLDatabase",

"type":"LinkedServiceReference"

},

"inputs":[

{

"referenceName":"AzureSQLTable",

"type":"DatasetReference"

}

],

"outputs":[

{

"referenceName":"AzureCosmosDB",

"type":"DatasetReference"

}

],

"typeProperties":{

"source":{

"type":"SqlSource",

"sqlReaderQuery":"SELECT*FROMMyTable"

},

"sink":{

"type":"CosmosDbSink",

"writeBatchSize":1000,

"writeBatchTimeout":"02:00:00"

},

"dataIntegrationRuntime":{

"type":"ManagedIntegrationRuntime",

"name":"Azure"

},

"parallelCopies":5

}

}

]

}

}在本例中,AzureSQLDatabase和AzureCosmosDB分別是與AzureSQLDatabase和AzureCosmosDB連接的鏈接服務(wù)。AzureSQLTable和AzureCosmosDB是數(shù)據(jù)集。writeBatchSize和writeBatchTimeout用于控制CosmosDBSink的寫入批次大小和超時時間,parallelCopies用于設(shè)置并行復(fù)制的數(shù)量。5.3.2總結(jié)通過使用數(shù)據(jù)管理網(wǎng)關(guān)和自托管集成運行時,AzureDataFactory能夠安全高效地連接和處理本地數(shù)據(jù)源和私有網(wǎng)絡(luò)中的數(shù)據(jù)源。同時,通過優(yōu)化數(shù)據(jù)集成策略,可以顯著提高數(shù)據(jù)處理和移動的性能。這些策略包括并行處理、數(shù)據(jù)壓縮、使用分區(qū)以及選擇合適的集成運行時。正確配置和優(yōu)化這些組件,對于構(gòu)建高效的數(shù)據(jù)集成解決方案至關(guān)重要。6連接器的管理和監(jiān)控6.1管理連接器的生命周期在AzureDataFactory中,連接器是用于與不同數(shù)據(jù)源建立連接的關(guān)鍵組件。管理連接器的生命周期包括創(chuàng)建、更新、測試和刪除連接器。下面我們將通過具體的步驟和代碼示例來了解如何管理SQLServer、AzureSQL和CosmosDB的連接器。6.1.1創(chuàng)建連接器SQLServer連接器創(chuàng)建SQLServer連接器時,需要指定服務(wù)器名稱、數(shù)據(jù)庫名稱、用戶名和密碼。以下是一個創(chuàng)建SQLServer連接器的示例:{

"name":"SqlServerConnection",

"properties":{

"type":"SqlServer",

"typeProperties":{

"server":"<your_server_name>.",

"database":"<your_database_name>",

"authenticationType":"Basic",

"username":"<your_username>",

"password":"<your_password>"

},

"connectVia":{

"referenceName":"IntegrationRun

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論