DP-203 - Data Engineering on Microsoft Azure (CZ)

e-kurz

Základní info

Popis kurzu

V tomto kurzu se student dozví o vzorcích a postupech datového inženýrství, které se týkají práce s dávkovými a real-time analytickými řešeními pomocí technologií datové platformy Azure.

Studenti pochopí základní výpočetní a úložné technologie, které se používají k vytvoření analytického řešení. Poté prozkoumají, jak navrhnout analytické obslužné vrstvy a zaměřit se na aspekty datového inženýrství pro práci se zdrojovými soubory. Naučí se, jak interaktivně zkoumat data uložená v souborech v datovém jezeře. Naučí se různé techniky přijímání, které lze použít k načtení dat pomocí schopnosti Apache Spark nalezené v Azure Synapse Analytics nebo Azure Databricks, či jak přijímat pomocí Azure Data Factory nebo Azure Synapse potrubí. Studenti se také naučí různé způsoby, jak mohou transformovat data pomocí stejných technologií, které se používají pro příjem dat. Budou sledovat a analyzovat výkon analytického systému tak, aby mohl optimalizovat výkon datových zátěží nebo dotazů, které jsou vydávány proti systémům. Pochopí důležitost implementace zabezpečení k zajištění ochrany dat v klidu nebo při přenosu. Naučí se, jak lze data v analytickém systému použít k vytvoření řídicích panelů nebo k vytváření prediktivních modelů v Azure Synapse Analytics.

Cíle kurzu

Po absolvování tohoto kurzu budete schopni:

prozkoumat možnosti výpočtu a úložiště pro úlohy datového inženýrství v Azure
navrhnout a implementovat obslužnou vrstvu
porozumět úvahám o datovém inženýrství
spouštět interaktivní dotazy pomocí SQL serverů bez serveru
prozkoumat, transformovat a načíst data do Data Warehouse pomocí Apache Spark
provádět průzkum a transformaci dat v Azure Databricks
přijímat a načítat data do datového skladu
transformovat data pomocí Azure Data Factory nebo Azure Synapse Pipelines
integrovat data z notebooků pomocí Azure Data Factory nebo Azure Synapse Pipelines
optimalizovat výkon dotazů s vyhrazenými fondy SQL v Azure Synapse
analyzovat a optimalizovat úložiště datových skladů
podporovat hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link
provádět komplexní zabezpečení pomocí Azure Synapse Analytics
provádět Stream Stream Processing v reálném čase pomocí Stream Analytics
vytvořit Stream Processing Solution s Event Hubs a Azure Databricks
vytvářet sestavy pomocí integrace Power BI s Azure Synpase Analytics
provádět integrované procesy strojového učení v Azure Synapse Analytics

Určeno pro

Primárním publikem tohoto kurzu jsou datoví profesionálové, datoví architekti a profesionálové v oblasti business intelligence, kteří se chtějí dozvědět o datovém inženýrství a budování analytických řešení pomocí technologií datových platforem, které existují v Microsoft Azure. Sekundární publikum jsou datoví analytici a vědci, kteří pracují s analytickými řešeními postavenými na Microsoft Azure.

Obsah kurzu

Modul 1: Možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství
Tento modul poskytuje přehled možností technologie Azure compute and storage, které jsou k dispozici datovým inženýrům vytvářejícím analytické úlohy. Tento modul ukazuje způsoby, jak strukturovat datové jezero a optimalizovat soubory pro průzkum, streamování a dávkové úlohy. Student se naučí, jak uspořádat datové jezero do úrovní upřesnění dat, jak transformují soubory pomocí dávkového a streamového zpracování. Naučí se, jak vytvořit indexy v jejich datových sadách, jako jsou soubory CSV, JSON a Parquet, a použít je pro potenciální zrychlení dotazů a úloh.

Lekce

Úvod do Azure Synapse Analytics
Azure Databricks
Úvod do úložiště Azure Data Lake
Architektura Delta Lake
Práce s datovými proudy pomocí Azure Stream Analytics

Modul 2: Návrh a implementace obslužné vrstvy
Tento modul ukazuje, jak navrhovat a implementovat datová úložiště v moderním datovém skladu za účelem optimalizace analytických úloh. Student se naučí, jak navrhnout vícerozměrné schéma pro ukládání údajů o faktech a dimenzích. Jak naplnit pomalu se měnící dimenze prostřednictvím přírůstkového načítání dat z Azure Data Factory.

Lekce

Návrh vícerozměrných schémat pro optimalizaci analytických úloh
Transformace bez kódu ve velkém rozsahu s Azure Data Factory
Naplňění pomalu se měnící dimenze v kanálech Azure Synapse Analytics

Modul 3: Úvahy o datovém inženýrství pro zdrojové soubory
Tento modul zkoumá aspekty datového inženýrství, které jsou běžné při načítání dat do moderního datového skladu analyticky ze souborů uložených v Azure Data Lake, a porozumění bezpečnostní úvaze spojené s ukládáním souborů uložených v datovém jezeře.

Lekce

Návrh moderního datového skladu pomocí Azure Synapse Analytics
Zabezpečení datového skladu v Azure Synapse Analytics

Modul 4: Spouštění interaktivních dotazů pomocí fondů SQL bez serveru Azure Synapse Analytics
V tomto modulu se studenti naučí, jak pracovat se soubory uloženými v datovém jezeře a externích zdrojích souborů, a to prostřednictvím příkazů T-SQL prováděných fondem SQL bez serveru v Azure Synapse Analytics. Studenti se budou dotazovat na soubory parket uložené v datovém jezeře a soubory CSV uložené v externím úložišti dat. Dále vytvoří skupiny zabezpečení Azure Active Directory a vynutí přístup k souborům v datovém jezeře prostřednictvím RBAC (Role-Based Access Control) a seznamů řízení přístupu (ACL).

Lekce

Možnosti fondů SQL bez serveru Azure Synapse
Dotazování na data v jezeře pomocí Azure Synapse SQL serverů bez serveru
Tvorba objektů metadat ve fondech SQL bez serveru Azure Synapse
Zabezpečení dat a správa uživatele ve fondech SQL bez serveru Azure Synapse

Modul 5: Průzkum, transformace a načítání dat do Data Warehouse pomocí Apache Spark
Tento modul učí, jak prozkoumat data uložená v datovém jezeře, transformovat data a načíst je do úložiště relačních dat. Student prozkoumá soubory Parquet a JSON a použije techniky k dotazování a transformaci souborů JSON s hierarchickými strukturami. Potom pomocí Apache Spark načte data do datového skladu a spojí Parquet data v datovém jezeře s daty ve vyhrazeném fondu SQL.

Lekce

Inženýrství velkých dat s Apache Spark ve službě Azure Synapse Analytics
Příjem dat pomocí poznámkových bloků Apache Spark v Azure Synapse Analytics
Transformace dat pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
Integrace fondů SQL a Apache Spark ve službě Azure Synapse Analytics

Modul 6: Průzkum a transformace dat v Azure Databricks
Jak používat různé metody Apache Spark DataFrame k prozkoumání a transformaci dat v Azure Databricks. Student se naučí provádět standardní metody DataFrame k prozkoumání a transformaci dat. Naučí se také, jak provádět pokročilejší úkoly, jako je odstraňování duplicitních dat, manipulace s hodnotami data a času, přejmenování sloupců a agregace dat.

Lekce

Azure Databricks
Čtení a zápis dat v Azure Databricks
Práce s DataFrames v Azure Databricks
Práce s pokročilými metodami DataFrames v Azure Databricks

Modul 7: Přijímání a načítání dat do datového skladu
Tento modul učí studenty, jak přijímat data do datového skladu pomocí skriptů T-SQL a integračních kanálů Synapse Analytics. Jak načíst data do vyhrazených fondů SQL Synapse s PolyBase a COPY pomocí T-SQL. Jak používat správu úlohy spolu s aktivitou kopírování v kanálu Azure Synapse pro příjem dat v měřítku petabyte.

Lekce

Osvědčené postupy načítání dat ve službě Azure Synapse Analytics
Přijímání v měřítku petabajtů s Azure Data Factory

Modul 8: Transformace dat pomocí Azure Data Factory nebo Azure Synapse Pipelines
Jak vytvářet kanály pro integraci dat pro příjem z více zdrojů dat, transformovat data pomocí toků mapování dat a provádět pohyb dat do jednoho nebo více záchytů dat.

Lekce

Integrace dat s Azure Data Factory nebo Azure Synapse Pipelines
Transformace bez kódu v měřítku s Azure Data Factory nebo Azure Synapse Pipelines

Modul 9: Orchestrace pohybu a transformace dat v Azure Synapse Pipelines
V tomto modulu se naučíte, jak vytvořit propojené služby a orchestrovat pohyb a transformaci dat pomocí poznámkových bloků v Azure Synapse Pipelines.

Lekce

Organizace pohybu a transformace dat v Azure Data Factory

Modul 10: Optimalizace výkonu dotazů pomocí vyhrazených fondů SQL v Azure Synapse
V tomto modulu se studenti naučí strategie optimalizace ukládání a zpracování dat při použití vyhrazených fondů SQL v Azure Synapse Analytics. Jak používat funkce pro vývojáře, jako jsou okna a funkce HyperLogLog, používat osvědčené postupy načítání dat a optimalizovat a zlepšovat výkon dotazů.

Lekce

Optimalizace výkonu dotazů v datovém skladu ve službě Azure Synapse Analytics
Pochopení funkce vývojáře datového skladu Azure Synapse Analytics

Modul 11: Analýza a optimalizace úložiště datových skladů
V tomto modulu se studenti naučí, jak analyzovat a poté optimalizovat úložiště dat vyhrazených fondů SQL Azure Synapse. Naučí se techniky k pochopení využití tabulkového prostoru a podrobností úložiště sloupců. Jak porovnat požadavky na úložiště mezi stejnými tabulkami, které používají různé datové typy. Dopad zhmotněných pohledů při provádění namísto složitých dotazů a jak se vyhnout rozsáhlému protokolování optimalizací operací mazání.

Lekce

Analýza a optimalizace úložiště datového skladu ve službě Azure Synapse Analytics

Modul 12: Podpora hybridního transakčního analytického zpracování (HTAP) pomocí Azure Synapse Link
V tomto modulu se studenti naučí, jak Azure Synapse Link umožňuje bezproblémové připojení účtu Azure Cosmos DB k pracovnímu prostoru Synapse. Jak povolit a nakonfigurovat odkaz Synapse a poté, jak dotazovat analytické úložiště Azure Cosmos DB pomocí Apache Spark a SQL bez serveru.

Lekce

Návrh hybridního transakčního a analytického zpracování pomocí Azure Synapse Analytics
Konfigurace propojení Azure Synapse s Azure Cosmos DB
Dotaz na Azure Cosmos DB s fondy Apache Spark
Dotaz na Azure Cosmos DB s fondy SQL bez serveru

Modul 13: Zabezpečení typu end-to-end s Azure Synapse Analytics
V tomto modulu se studenti naučí, jak zabezpečit pracovní prostor Synapse Analytics a jeho podpůrnou infrastrukturu. Student bude sledovat administrátora služby SQL Active Directory, spravovat pravidla brány firewall IP, spravovat tajné klíče pomocí Azure Key Vault a přistupovat k těmto tajným klíčům prostřednictvím služby spojené s Key Vault a aktivit kanálu. Jak při použití vyhrazených fondů SQL implementovat zabezpečení na úrovni sloupců, zabezpečení na úrovni řádků a dynamické maskování dat.

Lekce

Zabezpečení datového skladu v Azure Synapse Analytics
Konfigurace a správa zabezpečení v Azure Key Vault
Implementace kontroly souladu s citlivými údaji

Modul 14: Zpracování streamů v reálném čase pomocí Stream Analytics
V tomto modulu se studenti naučí, jak zpracovávat streamovaná data pomocí Azure Stream Analytics. Student přijme telemetrická data vozidla do Event Hubs, poté tato data zpracuje v reálném čase pomocí různých funkcí ve službě Azure Stream Analytics. Výstup dat do Azure Synapse Analytics. Jak škálovat úlohu Stream Analytics pro zvýšení propustnosti.

Lekce

Povolení zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
Práce s datovými proudy pomocí Azure Stream Analytics
Přijímání datových toků pomocí Azure Stream Analytics

Modul 15: Vytvoření řešení zpracování proudu pomocí Event Hubs a Azure Databricks
V tomto modulu se studenti naučí, jak přijímat a zpracovávat streamovaná data v měřítku pomocí Event Hubs a Spark Structured Streaming v Azure Databricks. Naučí se klíčové funkce a použití strukturovaného streamování. Student implementuje posuvná okna pro agregaci přes velké množství dat a použije vodoznak k odstranění zastaralých dat. Nakonec se připojí k Event Hubs, aby mohl číst a zapisovat streamy.

Lekce

Zpracování streamovaných dat pomocí strukturovaného streamování Azure Databricks

Modul 16: Vytváření sestav pomocí integrace Power BI s Azure Synpase Analytics
V tomto modulu se student naučí, jak integrovat Power BI s jejich pracovním prostorem Synapse k vytváření sestav v Power BI. Student vytvoří nový zdroj dat a sestavu Power BI v Synapse Studio. Poté se student naučí, jak zlepšit výkon dotazu pomocí zhmotněných pohledů a mezipaměti sady výsledků. Nakonec prozkoumá datové jezero s fondy SQL bez serveru a vytvoří vizualizace proti těmto datům v Power BI.

Lekce

Tvorba sestavy pomocí Power BI pomocí jeho integrace s Azure Synapse Analytics

Modul 17: Integrované procesy strojového učení ve službě Azure Synapse Analytics
Tento modul zkoumá integrované komplexní prostředí Azure Machine Learning a Azure Cognitive Services v Azure Synapse Analytics. Student se naučí, jak připojit pracovní prostor Azure Synapse Analytics k pracovnímu prostoru Azure Machine Learning pomocí propojené služby a poté aktivovat automatizovaný experiment ML, který používá data z tabulky Spark. Jak používat trénované modely z Azure Machine Learning nebo Azure Cognitive Services k obohacení dat v tabulce fondů SQL a následnému poskytování výsledků předpovědí pomocí Power BI.

Lekce

Integrovaný proces strojového učení ve službě Azure Synapse Analytics

Předpoklady

Základní znalosti cloudových výpočtů, základních datových konceptů a zkušenost s datovými řešeními.

Doporučené kurzy:

AZ-900 - Azure Fundamentals
DP-900 - Microsoft Azure Data Fundamentals.

Studijní materiály

Materiály jsou v elektronické podobě.

Bližší popis na stránkách dodavatele