架構師
互聯(lián)網(wǎng)
大數(shù)據(jù)
機器學習
數(shù)據(jù)分析
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

大數(shù)據(jù)平臺和機器學習應用實踐

某知名電商 數(shù)據(jù)部架構負責人

目前在某知名電商公司擔任數(shù)據(jù)部架構負責人,從事大數(shù)據(jù)相關包括實時和離線計算平臺、機器學習平臺建設相關工作;推動大數(shù)據(jù)相關的技術、工具和分析在公司的應用和發(fā)展。為公司內部數(shù)百名數(shù)據(jù)分析師、BI和開發(fā)工程師提供數(shù)據(jù)分析工具和平臺。
整體機器數(shù)量超過5000臺、數(shù)據(jù)量接近100PB。深入理解大數(shù)據(jù)從產生到消費和使用整個流程中的各個環(huán)節(jié),有超過10年相關的經驗。
在大型互聯(lián)網(wǎng)公司從業(yè)多年,對大數(shù)據(jù)相關領域理解和認識非常時刻;在互聯(lián)網(wǎng)大數(shù)據(jù)行業(yè)有一定的知名度。

目前在某知名電商公司擔任數(shù)據(jù)部架構負責人,從事大數(shù)據(jù)相關包括實時和離線計算平臺、機器學習平臺建設相關工作;推動大數(shù)據(jù)相關的技術、工具和分析在公司的應用和發(fā)展。為公司內部數(shù)百名數(shù)據(jù)分析師、BI和開發(fā)工程師提供數(shù)據(jù)分析工具和平臺。 整體機器數(shù)量超過5000臺、數(shù)據(jù)量接近100PB。深入理解大數(shù)據(jù)從產生到消費和使用整個流程中的各個環(huán)節(jié),有超過10年相關的經驗。 在大型互聯(lián)網(wǎng)公司從業(yè)多年,對大數(shù)據(jù)相關領域理解和認識非常時刻;在互聯(lián)網(wǎng)大數(shù)據(jù)行業(yè)有一定的知名度。

課程費用

6800.00 /人

課程時長

2

成為教練

課程簡介

通過介紹大數(shù)據(jù)的核心計算和存儲組件,以及整個完整的大數(shù)據(jù)平臺架構,結合具體的數(shù)據(jù)分析和機器學習案例分析,讓大家了解和掌握大數(shù)據(jù)平臺、機器學習和數(shù)據(jù)分析相關知識、最新的發(fā)展趨勢和如何應用到實際項目實踐中。

目標收益

通過介紹大數(shù)據(jù)的核心計算和存儲組件,以及整個完整的大數(shù)據(jù)平臺架構,結合具體的數(shù)據(jù)分析和機器學習案例分析,讓大家了解和掌握大數(shù)據(jù)平臺、數(shù)據(jù)分析和機器學習相關知識、最新的發(fā)展趨勢,以及如何應用到實際項目實踐中。

培訓對象

課程大綱

大數(shù)據(jù)和大數(shù)據(jù)平臺概念 1. 大數(shù)據(jù)技術的發(fā)展歷程和應用背景、大數(shù)據(jù)產業(yè)鏈概況,以及大數(shù)據(jù)技術在互聯(lián)網(wǎng)等行業(yè)中的應用實踐;
2. 數(shù)據(jù)平臺的基本概念和架構:數(shù)據(jù)平臺的組成部分,功能和作用:包括數(shù)據(jù)存儲、計算、傳輸(輸入/輸出)、任務調度系統(tǒng)、開發(fā)者平臺、數(shù)據(jù)質量監(jiān)控系統(tǒng)等。以某知名互聯(lián)網(wǎng)公司數(shù)據(jù)平臺架構為例進行分享,節(jié)點2000+,存儲50PB
3. 大數(shù)據(jù)在企業(yè)運營中的應用
Hadoop分布式存儲HDFS介紹 1. Hadoop大數(shù)據(jù)存儲系統(tǒng)HDFS的技術原理及應用實戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢、應用現(xiàn)狀和發(fā)展趨勢
2. HDFS分布式存儲系統(tǒng)的核心關鍵技術、設計精髓、基本工作原理、系統(tǒng)架構、文件存儲模式、工作機制、存儲擴容與吞吐性能擴展
MapReduce計算執(zhí)行框架 1. 大數(shù)據(jù)平臺中的并行計算處理與函數(shù)式編程技術原理,以及數(shù)據(jù)并行技術—MapReduce技術的工作機制、工作原理、性能調優(yōu)和大數(shù)據(jù)處理架構,以及MapReduce技術的發(fā)展趨勢
2. Hadoop MapReduce并行處理平臺的系統(tǒng)架構、核心功能模塊、MapReduce編程應用開發(fā)實踐
資源調度框架YARN介紹 1. YARN 集群的架構
2. 資源分配和故障恢復
3. 使用 YARN Web 用戶界面
4. 管理正在運行的作業(yè)
5. 配置公平調度器
6. 實現(xiàn)多租戶架構
Hadoop集群的高級特性、集群建設和運維實踐 1. Namenode\DataNode節(jié)點硬件以及網(wǎng)絡選擇
2. 集群高可用配置
3. 集群機房實際部署拓撲推薦——PB級別容量集群的實際配置方案
4. 集群監(jiān)控和自動化運維實踐
5. 常見的 Hadoop Clusters 的故障排除
數(shù)據(jù)倉庫和數(shù)據(jù)分析實踐 1. Hive基本介紹和Hive在數(shù)據(jù)倉庫中的使用
2. Hive的配置和使用
3. Hive的HQL擴展開發(fā)
數(shù)據(jù)倉庫建設經驗分享——以知名互聯(lián)網(wǎng)公司倉庫建設實踐經驗:表數(shù)量2萬+、分析師200+、模型和任務數(shù)量2萬+
Spark分享和實踐 1. Spark的基礎概念
2. Spark安裝和配置
3. RDD 基本概念
4. Spark SQL和DataFrames介紹
5. Spark Streaming開發(fā)實踐
Spark SQL和Hive在數(shù)據(jù)分析中的整合實踐
實時和流計算 1. 介紹Flink相關概念和基礎知識,以及如何使用Flink等。
2. 以流量實時化和實時推薦為例,介紹實時系統(tǒng)的使用場景、系統(tǒng)架構和最佳實踐
3. Spark相關介紹和基礎知識
4. Spark/Spark SQL/Spark Streaming的使用場景和特點
5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點
案例分享:實時和離線融合在互聯(lián)網(wǎng)公司的實踐
機器學習和深度學習知識原理 1. 機器學習知識與人工智能、深度學習關系;
2. 機器學習應用場景是什么;
3. 機器學習分類和算法基本介紹:監(jiān)督學習算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等);
4. 機器學習分類和算法基本介紹:無監(jiān)督學習算法(K-Means、PCA、LDA等);
5. 機器學習評估指標;
6. 機器學習常用數(shù)學知識;
特征工程和模型訓練 1. 特征工程(特征提取,特征離散化,特征交叉等);
2. 3.如何大規(guī)模實時&離線訓練模型(訓練集、測試集、驗證集/評估指標AUC、ABTest 等)
大規(guī)模機器學習平臺 1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機器學習和深度學習框架開發(fā))
2. 數(shù)據(jù)存儲:實時特征+離線歷史數(shù)據(jù)
3. 大規(guī)模分布式計算:CPU + GPU
4. 模型發(fā)布和上線
5. 我們的大規(guī)模機器學習平臺分享(支持200+ 算法和模型開發(fā)人員)
用戶畫像在個性化性化推薦系統(tǒng)領域 案例簡介:用戶畫像數(shù)據(jù)體系建設,以及基于用戶畫像數(shù)據(jù)、用戶實時行為數(shù)據(jù)的個性化推薦系統(tǒng)介紹
1. 用戶畫像體系介紹
2. 用戶特征抽取
3. 用戶特征存儲和應用
4. 個性化推薦系統(tǒng)和用戶畫像的結合
推薦系統(tǒng)實踐 案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級別的銷售額提升
1. 推薦系統(tǒng)整體架構
2. 算法和模型支持
3. 算法評估和灰度
4. ABT效果檢驗
知名互聯(lián)網(wǎng)公司的數(shù)據(jù)驅動精準化營銷實踐 案例簡介:結合用戶畫像數(shù)據(jù),給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析
1. 用戶寬表建設
2. 根據(jù)特征選擇用戶群體
3. PUSH系統(tǒng)和用戶數(shù)據(jù)整合
4. PUSH效果分析(根據(jù)用戶行為數(shù)據(jù)分析營銷效果、用戶留存以及活動ROI)
實時數(shù)據(jù)看板分享(雙十一大屏) 案例簡介:雙十一大促銷售額、轉化率、UV、漏斗等核心數(shù)據(jù)實時大屏展示
1. 訂單和用戶行為數(shù)據(jù)實時接入
2. 使用Flink(Spark)做實時數(shù)據(jù)計算
3. HBase存儲計算指標
4. 數(shù)據(jù)Service提供訪問接口
5. 前端大屏動態(tài)秒級更新數(shù)據(jù)
數(shù)據(jù)運營平臺介紹 數(shù)據(jù)運營平臺支持商務、運營等對公司日常銷售、轉換率、用戶訪問、品牌等的售賣詳細情況分析;分為固定產品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機會
1. 運營看板實例分享
2. 自助分析系統(tǒng)建設經驗分享
大數(shù)據(jù)和大數(shù)據(jù)平臺概念
1. 大數(shù)據(jù)技術的發(fā)展歷程和應用背景、大數(shù)據(jù)產業(yè)鏈概況,以及大數(shù)據(jù)技術在互聯(lián)網(wǎng)等行業(yè)中的應用實踐;
2. 數(shù)據(jù)平臺的基本概念和架構:數(shù)據(jù)平臺的組成部分,功能和作用:包括數(shù)據(jù)存儲、計算、傳輸(輸入/輸出)、任務調度系統(tǒng)、開發(fā)者平臺、數(shù)據(jù)質量監(jiān)控系統(tǒng)等。以某知名互聯(lián)網(wǎng)公司數(shù)據(jù)平臺架構為例進行分享,節(jié)點2000+,存儲50PB
3. 大數(shù)據(jù)在企業(yè)運營中的應用
Hadoop分布式存儲HDFS介紹
1. Hadoop大數(shù)據(jù)存儲系統(tǒng)HDFS的技術原理及應用實戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢、應用現(xiàn)狀和發(fā)展趨勢
2. HDFS分布式存儲系統(tǒng)的核心關鍵技術、設計精髓、基本工作原理、系統(tǒng)架構、文件存儲模式、工作機制、存儲擴容與吞吐性能擴展
MapReduce計算執(zhí)行框架
1. 大數(shù)據(jù)平臺中的并行計算處理與函數(shù)式編程技術原理,以及數(shù)據(jù)并行技術—MapReduce技術的工作機制、工作原理、性能調優(yōu)和大數(shù)據(jù)處理架構,以及MapReduce技術的發(fā)展趨勢
2. Hadoop MapReduce并行處理平臺的系統(tǒng)架構、核心功能模塊、MapReduce編程應用開發(fā)實踐
資源調度框架YARN介紹
1. YARN 集群的架構
2. 資源分配和故障恢復
3. 使用 YARN Web 用戶界面
4. 管理正在運行的作業(yè)
5. 配置公平調度器
6. 實現(xiàn)多租戶架構
Hadoop集群的高級特性、集群建設和運維實踐
1. Namenode\DataNode節(jié)點硬件以及網(wǎng)絡選擇
2. 集群高可用配置
3. 集群機房實際部署拓撲推薦——PB級別容量集群的實際配置方案
4. 集群監(jiān)控和自動化運維實踐
5. 常見的 Hadoop Clusters 的故障排除
數(shù)據(jù)倉庫和數(shù)據(jù)分析實踐
1. Hive基本介紹和Hive在數(shù)據(jù)倉庫中的使用
2. Hive的配置和使用
3. Hive的HQL擴展開發(fā)
數(shù)據(jù)倉庫建設經驗分享——以知名互聯(lián)網(wǎng)公司倉庫建設實踐經驗:表數(shù)量2萬+、分析師200+、模型和任務數(shù)量2萬+
Spark分享和實踐
1. Spark的基礎概念
2. Spark安裝和配置
3. RDD 基本概念
4. Spark SQL和DataFrames介紹
5. Spark Streaming開發(fā)實踐
Spark SQL和Hive在數(shù)據(jù)分析中的整合實踐
實時和流計算
1. 介紹Flink相關概念和基礎知識,以及如何使用Flink等。
2. 以流量實時化和實時推薦為例,介紹實時系統(tǒng)的使用場景、系統(tǒng)架構和最佳實踐
3. Spark相關介紹和基礎知識
4. Spark/Spark SQL/Spark Streaming的使用場景和特點
5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點
案例分享:實時和離線融合在互聯(lián)網(wǎng)公司的實踐
機器學習和深度學習知識原理
1. 機器學習知識與人工智能、深度學習關系;
2. 機器學習應用場景是什么;
3. 機器學習分類和算法基本介紹:監(jiān)督學習算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等);
4. 機器學習分類和算法基本介紹:無監(jiān)督學習算法(K-Means、PCA、LDA等);
5. 機器學習評估指標;
6. 機器學習常用數(shù)學知識;
特征工程和模型訓練
1. 特征工程(特征提取,特征離散化,特征交叉等);
2. 3.如何大規(guī)模實時&離線訓練模型(訓練集、測試集、驗證集/評估指標AUC、ABTest 等)
大規(guī)模機器學習平臺
1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機器學習和深度學習框架開發(fā))
2. 數(shù)據(jù)存儲:實時特征+離線歷史數(shù)據(jù)
3. 大規(guī)模分布式計算:CPU + GPU
4. 模型發(fā)布和上線
5. 我們的大規(guī)模機器學習平臺分享(支持200+ 算法和模型開發(fā)人員)
用戶畫像在個性化性化推薦系統(tǒng)領域
案例簡介:用戶畫像數(shù)據(jù)體系建設,以及基于用戶畫像數(shù)據(jù)、用戶實時行為數(shù)據(jù)的個性化推薦系統(tǒng)介紹
1. 用戶畫像體系介紹
2. 用戶特征抽取
3. 用戶特征存儲和應用
4. 個性化推薦系統(tǒng)和用戶畫像的結合
推薦系統(tǒng)實踐
案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級別的銷售額提升
1. 推薦系統(tǒng)整體架構
2. 算法和模型支持
3. 算法評估和灰度
4. ABT效果檢驗
知名互聯(lián)網(wǎng)公司的數(shù)據(jù)驅動精準化營銷實踐
案例簡介:結合用戶畫像數(shù)據(jù),給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析
1. 用戶寬表建設
2. 根據(jù)特征選擇用戶群體
3. PUSH系統(tǒng)和用戶數(shù)據(jù)整合
4. PUSH效果分析(根據(jù)用戶行為數(shù)據(jù)分析營銷效果、用戶留存以及活動ROI)
實時數(shù)據(jù)看板分享(雙十一大屏)
案例簡介:雙十一大促銷售額、轉化率、UV、漏斗等核心數(shù)據(jù)實時大屏展示
1. 訂單和用戶行為數(shù)據(jù)實時接入
2. 使用Flink(Spark)做實時數(shù)據(jù)計算
3. HBase存儲計算指標
4. 數(shù)據(jù)Service提供訪問接口
5. 前端大屏動態(tài)秒級更新數(shù)據(jù)
數(shù)據(jù)運營平臺介紹
數(shù)據(jù)運營平臺支持商務、運營等對公司日常銷售、轉換率、用戶訪問、品牌等的售賣詳細情況分析;分為固定產品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機會
1. 運營看板實例分享
2. 自助分析系統(tǒng)建設經驗分享

課程費用

6800.00 /人

課程時長

2

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求