工程師
其他
機(jī)器學(xué)習(xí)
數(shù)據(jù)分析
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

構(gòu)建智能數(shù)據(jù)湖:現(xiàn)代數(shù)據(jù)分析與AI驅(qū)動(dòng)的數(shù)據(jù)價(jià)值釋放

課程費(fèi)用

6800.00 /人

課程時(shí)長

4

成為教練

課程簡介

理解智能數(shù)據(jù)湖的核心概念、架構(gòu)和優(yōu)勢。
掌握構(gòu)建現(xiàn)代數(shù)據(jù)湖的最新技術(shù)棧。
學(xué)習(xí)數(shù)據(jù)湖中的數(shù)據(jù)治理、安全和合規(guī)。
掌握在數(shù)據(jù)湖中進(jìn)行高效數(shù)據(jù)分析和探索的方法。
學(xué)習(xí)將AI和機(jī)器學(xué)習(xí)集成到數(shù)據(jù)湖中,實(shí)現(xiàn)智能化數(shù)據(jù)洞察。
了解數(shù)據(jù)湖的應(yīng)用場景和最佳實(shí)踐。

目標(biāo)收益

培訓(xùn)對(duì)象

數(shù)據(jù)工程師、數(shù)據(jù)架構(gòu)師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、以及對(duì)構(gòu)建智能數(shù)據(jù)湖感興趣的技術(shù)人員。

課程內(nèi)容

第一天:數(shù)據(jù)湖基礎(chǔ)與現(xiàn)代架構(gòu)
?模塊 1:數(shù)據(jù)湖概念與演進(jìn) (上午)
o數(shù)據(jù)湖的定義、特點(diǎn)和優(yōu)勢
o數(shù)據(jù)湖與數(shù)據(jù)倉庫、數(shù)據(jù)集市的對(duì)比
o傳統(tǒng)數(shù)據(jù)湖的挑戰(zhàn)與智能數(shù)據(jù)湖的演進(jìn)
o智能數(shù)據(jù)湖的關(guān)鍵特性:元數(shù)據(jù)驅(qū)動(dòng)、自動(dòng)化、AI集成
o智能數(shù)據(jù)湖的應(yīng)用場景:實(shí)時(shí)分析、數(shù)據(jù)科學(xué)、商業(yè)智能
?模塊 2:現(xiàn)代數(shù)據(jù)湖架構(gòu)設(shè)計(jì) (上午)
o數(shù)據(jù)湖架構(gòu)的構(gòu)成要素:存儲(chǔ)、計(jì)算、元數(shù)據(jù)、安全、治理
o分層數(shù)據(jù)湖架構(gòu):Raw Layer, Curated Layer, Analytics Layer
o湖倉一體 (Lakehouse) 架構(gòu):Delta Lake, Apache Iceberg, Apache Hudi
o數(shù)據(jù)網(wǎng)格 (Data Mesh) 架構(gòu):去中心化數(shù)據(jù)管理與自治域
o選擇合適的架構(gòu)模式:根據(jù)業(yè)務(wù)需求和技術(shù)棧
o動(dòng)手實(shí)踐:討論并設(shè)計(jì)符合特定場景的數(shù)據(jù)湖架構(gòu)
?模塊 3:數(shù)據(jù)湖存儲(chǔ)與計(jì)算 (下午)
o數(shù)據(jù)湖存儲(chǔ)技術(shù):對(duì)象存儲(chǔ) (Amazon S3, Azure Blob Storage, Google Cloud Storage)
o數(shù)據(jù)湖計(jì)算引擎:Apache Spark, Presto, Trino, Dask
o無服務(wù)器計(jì)算:AWS Lambda, Azure Functions, Google Cloud Functions
o選擇合適的存儲(chǔ)和計(jì)算引擎:根據(jù)數(shù)據(jù)量、查詢模式和成本
o性能優(yōu)化:數(shù)據(jù)分區(qū)、壓縮、索引、緩存
o動(dòng)手實(shí)踐:使用Spark讀取對(duì)象存儲(chǔ)中的數(shù)據(jù)并進(jìn)行簡單計(jì)算
?模塊 4:數(shù)據(jù)攝取與集成 (下午)
o數(shù)據(jù)攝取模式:批量攝取、流式攝取、增量攝取
o數(shù)據(jù)攝取工具:Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
oCDC (Change Data Capture) 技術(shù):Debezium, Maxwell
o數(shù)據(jù)格式與序列化:Parquet, Avro, ORC
o數(shù)據(jù)質(zhì)量保證:數(shù)據(jù)清洗、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)轉(zhuǎn)換
o動(dòng)手實(shí)踐:使用Kafka將流式數(shù)據(jù)攝取到數(shù)據(jù)湖中
第二天:數(shù)據(jù)治理、安全與分析
?模塊 5:數(shù)據(jù)湖元數(shù)據(jù)管理 (上午)
o元數(shù)據(jù)的重要性:數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)理解、數(shù)據(jù)治理
o元數(shù)據(jù)管理工具:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
o統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn):Apache Atlas
o數(shù)據(jù)血緣分析:追蹤數(shù)據(jù)的來源和轉(zhuǎn)換過程
o數(shù)據(jù)字典與業(yè)務(wù)術(shù)語表:定義和管理數(shù)據(jù)資產(chǎn)
o動(dòng)手實(shí)踐:使用AWS Glue Data Catalog創(chuàng)建和管理數(shù)據(jù)湖的元數(shù)據(jù)
?模塊 6:數(shù)據(jù)湖安全與合規(guī) (上午)
o數(shù)據(jù)湖安全挑戰(zhàn):數(shù)據(jù)泄露、權(quán)限控制、訪問審計(jì)
o數(shù)據(jù)湖安全措施:身份驗(yàn)證、授權(quán)、加密、數(shù)據(jù)脫敏
o訪問控制策略:基于角色 (RBAC)、基于屬性 (ABAC)
o數(shù)據(jù)審計(jì)與監(jiān)控:追蹤用戶行為、檢測異常訪問
o數(shù)據(jù)合規(guī):GDPR, CCPA, HIPAA
o動(dòng)手實(shí)踐:配置數(shù)據(jù)湖的訪問權(quán)限控制策略
?模塊 7:數(shù)據(jù)湖分析與探索 (下午)
o數(shù)據(jù)分析工具:SQL引擎 (Spark SQL, Presto, Trino), BI工具 (Tableau, Power BI, Looker)
o交互式數(shù)據(jù)探索:使用Jupyter Notebook, Zeppelin
o高級(jí)分析技術(shù):OLAP, 數(shù)據(jù)挖掘, 統(tǒng)計(jì)分析
o實(shí)時(shí)分析:使用Spark Streaming, Flink進(jìn)行流式數(shù)據(jù)分析
o動(dòng)手實(shí)踐:使用SQL引擎查詢數(shù)據(jù)湖中的數(shù)據(jù)并生成分析報(bào)告
?模塊 8:數(shù)據(jù)湖數(shù)據(jù)質(zhì)量管理 (下午)
o數(shù)據(jù)質(zhì)量維度:完整性,準(zhǔn)確性,一致性,及時(shí)性
o數(shù)據(jù)質(zhì)量監(jiān)控:設(shè)定數(shù)據(jù)質(zhì)量規(guī)則和監(jiān)控指標(biāo)
o數(shù)據(jù)質(zhì)量工具:Deequ, Great Expectations
o數(shù)據(jù)治理流程:數(shù)據(jù)質(zhì)量問題發(fā)現(xiàn),修復(fù),預(yù)防
o動(dòng)手實(shí)踐:使用Great Expectations 驗(yàn)證從新數(shù)據(jù)源攝取的數(shù)據(jù)質(zhì)量
第三天:AI驅(qū)動(dòng)的智能數(shù)據(jù)湖
?模塊 9:AI與機(jī)器學(xué)習(xí)基礎(chǔ) (上午)
o機(jī)器學(xué)習(xí)算法回顧:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)
o模型評(píng)估與選擇:準(zhǔn)確率、召回率、F1值、AUC、ROC
o特征工程:特征提取、特征選擇、特征轉(zhuǎn)換
o模型部署:在線部署、批量部署、邊緣部署
oAI平臺(tái)與工具:TensorFlow, PyTorch, Scikit-learn, MLflow, Kubeflow
?模塊 10:在數(shù)據(jù)湖中構(gòu)建AI模型 (上午)
o使用Spark MLlib構(gòu)建機(jī)器學(xué)習(xí)模型
o使用分布式深度學(xué)習(xí)框架:Horovod
o使用AutoML工具:自動(dòng)選擇模型、優(yōu)化參數(shù)、生成代碼
o模型版本管理與實(shí)驗(yàn)跟蹤:使用MLflow
o模型可解釋性:理解模型預(yù)測的原因
o動(dòng)手實(shí)踐:使用Spark MLlib構(gòu)建預(yù)測模型并進(jìn)行評(píng)估
?模塊 11:AI驅(qū)動(dòng)的數(shù)據(jù)湖智能化 (下午)
o智能數(shù)據(jù)治理:基于AI的元數(shù)據(jù)自動(dòng)標(biāo)注、數(shù)據(jù)質(zhì)量檢測
o智能數(shù)據(jù)發(fā)現(xiàn):基于AI的語義搜索和推薦
o智能異常檢測:基于AI的異常值識(shí)別和預(yù)測
o智能預(yù)測分析:基于AI的趨勢預(yù)測和風(fēng)險(xiǎn)評(píng)估
o智能推薦系統(tǒng):基于AI的個(gè)性化推薦和內(nèi)容推送
o動(dòng)手實(shí)踐:在數(shù)據(jù)湖中構(gòu)建一個(gè)智能異常檢測系統(tǒng)
?模塊 12:LLM 在智能數(shù)據(jù)湖的應(yīng)用(下午)
o探索 LLM (大型語言模型)在智能數(shù)據(jù)湖的應(yīng)用場景
o利用 LLM 進(jìn)行數(shù)據(jù)湖內(nèi)容生成,例如自動(dòng)數(shù)據(jù)描述,文檔等
o利用 LLM 生成和優(yōu)化 ETL 代碼
o利用 LLM 對(duì)現(xiàn)有數(shù)據(jù)分析代碼進(jìn)行評(píng)審
oLLM 在數(shù)據(jù)治理中的應(yīng)用,例如利用 LLM 做數(shù)據(jù)質(zhì)量檢測
o動(dòng)手實(shí)踐:使用 OpenAI API 和 Langchain 自動(dòng)生成數(shù)據(jù)質(zhì)量檢測規(guī)則
可選模塊 (根據(jù)客戶需求調(diào)整)
?實(shí)時(shí)數(shù)據(jù)湖與流處理
o使用Kafka, Flink, Spark Streaming構(gòu)建實(shí)時(shí)數(shù)據(jù)管道
o實(shí)時(shí)數(shù)據(jù)分析與監(jiān)控
o實(shí)時(shí)機(jī)器學(xué)習(xí)與在線學(xué)習(xí)
?云原生數(shù)據(jù)湖
o在AWS, Azure, GCP上構(gòu)建數(shù)據(jù)湖
o使用云廠商提供的托管服務(wù):AWS Glue, Azure Synapse Analytics, Google Cloud Dataproc
?數(shù)據(jù)湖安全與隱私高級(jí)議題
o差分隱私
o聯(lián)邦學(xué)習(xí)
o多方安全計(jì)算
工具與技術(shù):
?對(duì)象存儲(chǔ):Amazon S3, Azure Blob Storage, Google Cloud Storage
?計(jì)算引擎:Apache Spark, Presto, Trino, Dask
?數(shù)據(jù)攝取:Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
?元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog, Apache Atlas
?數(shù)據(jù)治理:Delta Lake, Apache Iceberg, Apache Hudi, Deequ, Great Expectations
?機(jī)器學(xué)習(xí):TensorFlow, PyTorch, Scikit-learn, MLlib
?AI平臺(tái):MLflow, Kubeflow
oLLM 相關(guān): OpenAI API, Langchain

活動(dòng)詳情

提交需求