課程簡介
基于開源大數(shù)據(jù)平臺數(shù)據(jù)分析和挖掘實訓課程,該是一個理論與實踐相結合的課程,闡述大數(shù)據(jù)主流的系統(tǒng)架構,數(shù)據(jù)分析和挖掘的技術、流程。
本課程包含了兩個真實數(shù)據(jù)分析和挖掘實戰(zhàn)案例,通過具體的案例了解大數(shù)據(jù)平臺常用的數(shù)據(jù)分析和挖掘技術。
本課程是目前基于大數(shù)據(jù)平臺數(shù)據(jù)分析和挖掘的主流課程,涵蓋了基于大數(shù)據(jù)平臺數(shù)據(jù)分析和挖掘的整個流程和技術
目標收益
深度了解主流大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構,組件交互,及其內核工作與運行機制;
了解大數(shù)據(jù)平臺常用的以希望數(shù)據(jù)分析和挖掘的技術,如:Hadoop、Hive、Spark等
深度了解機器學習算法,及其Spark MLlib基本算法原理,以及機器學習算法實踐與優(yōu)化。
了解目前主流的數(shù)據(jù)分析和挖掘平臺
了解基于Python數(shù)據(jù)分析和挖掘的技術棧
能夠使用Python基于Spark額mllib上面進行數(shù)據(jù)分析和挖掘。
培訓對象
具有1年及以上工作經驗,并期望掌握大數(shù)據(jù)系統(tǒng)與機器學習算法,大數(shù)據(jù)系統(tǒng)架構,機器學習算法運行機制的研發(fā)工程師,算法工程師,及其架構師。
利用大數(shù)據(jù)平臺數(shù)據(jù)分析挖掘的同學
了解基于大數(shù)據(jù)平臺常用數(shù)據(jù)分析和挖掘的流程和方法
課程大綱
第一天 Spark技術棧介紹 |
Spark-Core介紹 Spark SQL介紹 Spark Streaming介紹 Spark mllib介紹 Spark GraphX介紹 PySpark介紹 SparkR介紹 Spark3.0重要特性介紹 |
Spark編程模型和解析 |
Spark的編程模型 Spark編程模型解析 Partition實現(xiàn)機制 RDD的特點、操作、依賴關系 Transformation RDD詳解 Action RDD詳解 Spark的累加器詳解 Spark的廣播變量詳解 Spark容錯機制 —lineage和checkpoint詳解 Spark的運行方式 Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實踐 |
Spark SQL原理 Spark SQL的Catalyst優(yōu)化器 Spark SQL內核 Spark SQL和Hive連接 DataFrame和DataSet架構 Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實戰(zhàn) Spark SQL的實例和編程 Spark SQL的實例操作demo Spark SQL的編程 Spark SQL學員實操訓練 |
Spark Streaming詳解 |
Spark Streaming原理 Spark Streaming的應用場景 Windows 窗口操作 DStream詳解 Spark SQL on Spark Streaming詳解 Structured Streaming介紹 Structured Streaming的水印操作 Structured Streaming+kafka應用實戰(zhàn) 流式任務的痛點和注意點 流式任務數(shù)據(jù)延遲問題 流式任務作業(yè)性能問題 流式任務任務常見的處理方式 |
Day2 上午 Spark優(yōu)化實戰(zhàn) |
Spark DAG原理和優(yōu)化 GC垃圾回收分析 減少任務使用內存 廣播大變量 數(shù)據(jù)本地化 Spark shuffle原理和優(yōu)化 Spark內存模型設計原理 Spark堆內內存管理 Spark堆外內存管理 Spark任務執(zhí)行過程分析和資源占用詳解 sparkSQL核心配置參數(shù)詳解 |
Day2 下午 數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實戰(zhàn) |
數(shù)據(jù)分析和挖掘技術介紹 數(shù)據(jù)分析和挖掘挖掘應用場景介紹 數(shù)據(jù)分析和挖掘挖掘常用的算法介紹 數(shù)據(jù)分析和挖掘挖掘應用架構 數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹 數(shù)據(jù)分析和挖掘挖掘流程方法論介紹 數(shù)據(jù)特征工程構建方法論 |
第一天 Spark技術棧介紹 Spark-Core介紹 Spark SQL介紹 Spark Streaming介紹 Spark mllib介紹 Spark GraphX介紹 PySpark介紹 SparkR介紹 Spark3.0重要特性介紹 |
Spark編程模型和解析 Spark的編程模型 Spark編程模型解析 Partition實現(xiàn)機制 RDD的特點、操作、依賴關系 Transformation RDD詳解 Action RDD詳解 Spark的累加器詳解 Spark的廣播變量詳解 Spark容錯機制 —lineage和checkpoint詳解 Spark的運行方式 Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實踐 Spark SQL原理 Spark SQL的Catalyst優(yōu)化器 Spark SQL內核 Spark SQL和Hive連接 DataFrame和DataSet架構 Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實戰(zhàn) Spark SQL的實例和編程 Spark SQL的實例操作demo Spark SQL的編程 Spark SQL學員實操訓練 |
Spark Streaming詳解 Spark Streaming原理 Spark Streaming的應用場景 Windows 窗口操作 DStream詳解 Spark SQL on Spark Streaming詳解 Structured Streaming介紹 Structured Streaming的水印操作 Structured Streaming+kafka應用實戰(zhàn) 流式任務的痛點和注意點 流式任務數(shù)據(jù)延遲問題 流式任務作業(yè)性能問題 流式任務任務常見的處理方式 |
Day2 上午 Spark優(yōu)化實戰(zhàn) Spark DAG原理和優(yōu)化 GC垃圾回收分析 減少任務使用內存 廣播大變量 數(shù)據(jù)本地化 Spark shuffle原理和優(yōu)化 Spark內存模型設計原理 Spark堆內內存管理 Spark堆外內存管理 Spark任務執(zhí)行過程分析和資源占用詳解 sparkSQL核心配置參數(shù)詳解 |
Day2 下午 數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實戰(zhàn) 數(shù)據(jù)分析和挖掘技術介紹 數(shù)據(jù)分析和挖掘挖掘應用場景介紹 數(shù)據(jù)分析和挖掘挖掘常用的算法介紹 數(shù)據(jù)分析和挖掘挖掘應用架構 數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹 數(shù)據(jù)分析和挖掘挖掘流程方法論介紹 數(shù)據(jù)特征工程構建方法論 |