目前課程版本:8.1 升級時間:2020.07.11 查看詳細
我們的課程幫助了近500名零基礎的學員高薪就業(yè),近2000名學生正在努力蛻變中。0基礎也能高薪就業(yè)的大數(shù)據(jù)課程。
全面升級Spark核心就業(yè)項目,新增第四代大數(shù)據(jù)處理框架Flink,強化推薦系統(tǒng)實戰(zhàn)并擴充至7天。
所有項目均是來自企業(yè)實戰(zhàn)項目,報表分析、日志分析、推薦系統(tǒng)/廣告系統(tǒng)、反欺詐系統(tǒng)、為就業(yè)提供強力保障。
課程全面覆蓋大數(shù)據(jù)技術,數(shù)據(jù)收集、存儲、計算、挖掘、展現(xiàn),離線分析/實時分析/內存計算一網(wǎng)打盡。
大數(shù)據(jù)時代已然到來,在數(shù)據(jù)已經在一線企業(yè)、中小型企業(yè)、傳統(tǒng)企業(yè)、互聯(lián)網(wǎng)企業(yè)全面落地。就業(yè)不再局限于互聯(lián)網(wǎng)行業(yè)。
職位技能要求 | V7.0 | V8.1 | 說明 |
了解HDFS, Hbase, Kafka、Flink等原理 | 有 | 更強化 | V8.1對HDFS、HBase、Kafka、Flink原理進一步強化,例如:HBase布隆過濾器、預分區(qū)、Kafka再均衡、Flink狀態(tài)管理、一致性深度剖析 |
熟悉Linux系統(tǒng),熟練掌握JAVA或Scala語至少一種 | 有 | 更強化 | V8.1對Java課程、Scala課程進一步升級,在Java多線程、爬蟲、網(wǎng)絡編程、JVM都進行強化,這樣對后續(xù)的分布式框架學習會有更有力的支撐。 |
熟悉一種關系型數(shù)據(jù)庫,具備一定的SQL功底 | 有 | 更強化 | V8.1通過更多的項目來保障學生的SQL編程能力,更多的指標保證學生有足夠多的練習 |
精通多維數(shù)據(jù)建模和ETL開發(fā) | 有 | 更強化 | V8.1從項目一開始就能夠教會學生如何基于業(yè)務進行數(shù)據(jù)倉庫建模、維度建模、分層。并在課堂上手把手帶學生編寫ETL代碼, |
了解Hadoop相關組件Hive/hbase/sqoop等,具備整體ETL/DW/BI的思想 | 有 | 更強化 | 在V8.1技術課程中,清晰的分析Hive、Hbase、sqoop的操作、運行流程、底層原理,并且結合項目中具體的業(yè)務場景,將這些技術真正用起來,學生在項目中學會有深度業(yè)務的ETL、DW、BI開發(fā) |
熟練使用 MR/Spark Streaming/hive/spark 解決業(yè)務問題 | 有 | 更強化 | V8.1課程中清晰介紹批處理框架以及流處理框架的運行特點,并深度解析如何針對不同的計算引擎進行調優(yōu)。更涵蓋了Structured Streaming、以及Flink的優(yōu)秀流式框架應用以及原理。并在物流項目、車聯(lián)網(wǎng)項目、知行在線教育等項目中都有具體的業(yè)務應用 |
熟悉Linux下開發(fā), 熟練使用shell/python等腳本語言; | 有 | 更強化 | V8.1課程強化SHELL腳本編程,并手把手帶學生學會編寫在大數(shù)據(jù)項目中如何使用SHELL進行調度程序開發(fā),在高級課程中學習Python大數(shù)據(jù)技術生態(tài)圈,涵蓋Python數(shù)據(jù)分析、PySpark、數(shù)據(jù)挖掘等內容 |
負責大數(shù)據(jù)實時、離線處理程序開發(fā),根據(jù)產品需求,設計開發(fā)數(shù)據(jù)處理程序 | 有 | 更強化 | V8.1課程中有大量的實時、離線項目,學生只有通過大量練習,才能更好地掌握分布式程序的編寫技巧,更能具備多個行業(yè)的數(shù)據(jù)處理特點 |
面向業(yè)務目標,對數(shù)據(jù)模型、數(shù)據(jù)分布、數(shù)據(jù)傳輸、數(shù)據(jù)存儲等方面進行大數(shù)據(jù)場景的功能開發(fā) | 部分 | 更完整 | V8.1課程更注重培養(yǎng)學生的業(yè)務分析、建模、代碼轉換實現(xiàn)能力,每一個行業(yè)、每一個項目都會進行業(yè)務場景的深度解析,并且每個項目都是從采集、預處理、分析到最終應用完整流程,學生通過項目能夠學習真正企業(yè)級的項目 |
有數(shù)據(jù)分析相關經驗, 了解基本數(shù)據(jù)分析工具; | 部分 | 有 | 課程中包含了常用的一些數(shù)據(jù)分析方法,包括分類、對比、趨勢等分析,并通過使用ETL、BI工具來進行快速處理、展示 |
有大規(guī)模數(shù)據(jù)收集,日志處理經驗; | 部分 | 更完整 | V8.1課程中涵蓋了多行的多種數(shù)據(jù)采集方式,因為不同行業(yè)數(shù)據(jù)接口不一樣,要通過不同方式采集數(shù)據(jù),例如:證券數(shù)據(jù)通過socket+Flume自定義source采集、物流數(shù)據(jù)采用Oracle Golden Gate、Canal進行實時采集、車聯(lián)網(wǎng)通過云服務器+Kafka采集等,這樣學生才能具備豐富的收集處理經驗 |
了解機器學習算法; | 有 | 有 | V8.1課程涵蓋機器學習算法,并將這些算法與數(shù)據(jù)挖掘結合應用,基于這些算法進行數(shù)據(jù)挖掘建模,并進行參數(shù)調優(yōu),減少模型的誤差率 |
深入研究過大數(shù)據(jù)框架的運行機制、實現(xiàn)原理、源碼者。 | 部分 | 更強化 | V8.1講解框架都會深度剖析框架的底層原理,結合代碼和配圖給學生講解設計原因,不僅要保證內容深度,還有兼顧學生能夠學會 |
0基礎0經驗的小白人員;想通過更低的成本來試一下自己是否適合做大數(shù)據(jù)相關工作的轉型人員。
注:獲取更多免費學習視頻+資料+筆記,請加QQ:2632311208。
全日制脫產,每周5天上課, 上兩天課休息一天的上課方式(實際培訓時間可能因法定節(jié)假日等因素發(fā)生變化)
部分校區(qū)可能會根據(jù)實際情況有所調整,詳情可詢咨詢老師 點擊咨詢
大數(shù)據(jù)基礎班課程大綱 | |||
階段名稱 | 主講內容 | 技術要點 | 學習目標 |
零基礎數(shù)據(jù)倉庫課程 | 操作系統(tǒng)基礎 | 計算機基礎知識、Linux環(huán)境搭建、遠程連接工具、文件操作命令、壓縮解壓縮命令、文件查找命令、系統(tǒng)管理命令、權限管理、網(wǎng)絡服務管理命令、VI等。 | 掌握企業(yè)級ETL平臺的kettle; 掌握BI的可視化平臺Superset; 掌握Kettle ETL處理設計思想; 掌握大數(shù)據(jù)企業(yè)開發(fā)中最常見的的linux的操作; 掌握一款主流數(shù)據(jù)庫客戶端工具DataGrip; 掌握企業(yè)MySQL的調優(yōu)方案; 掌握大數(shù)據(jù)分析中數(shù)據(jù)全量及增量同步解決方案; 掌握生產環(huán)境中數(shù)據(jù)分析程序的部署解決方案。 |
關系型數(shù)據(jù)庫 | 數(shù)據(jù)庫環(huán)境搭建、SQL語言(DDL、DML、DQL)、多表查詢、索引等。 | ||
可視化ETL平臺 | 數(shù)據(jù)倉庫與ETL、Kettle安裝部署、數(shù)據(jù)抽取與裝載、表輸入、表輸出、插入/更新、switch/case等組件使用、Kettle作業(yè)等。 | ||
BI可視化開發(fā) | Superset部署、開發(fā),涵蓋Charts開發(fā)、Dashboard開發(fā)。 | ||
電商數(shù)據(jù)倉庫實戰(zhàn) | 電商業(yè)務背景、案例架構、數(shù)據(jù)倉庫增量同步、ETL開發(fā)、指標SQL開發(fā)、Kettle作業(yè)調度、Superset可視化展示等。 |
本課程適合于計算機專業(yè),有一定Java基礎、通過入學考核的未工作人士。
提示:測試題主要考察您是否具備Java基礎,以便我們統(tǒng)一入學基礎,更好地開展教學工作。如果您感覺測試題很難,我們建議您參加我們的Java基礎班學習。
全日制脫產,每周5天上課, 上兩天課休息一天的上課方式(實際培訓時間可能因法定節(jié)假日等因素發(fā)生變化)
部分校區(qū)可能會根據(jù)實際情況有所調整,詳情可詢咨詢老師 點擊咨詢
大數(shù)據(jù)就業(yè)班課程大綱 | |||
階段名稱 | 主講內容 | 技術要點 | 學習目標 |
Java語言編程 | 編程基礎 | Java概述、Java程序入門、常量與變量、數(shù)據(jù)類型、運算符、流程控制語句、方法、數(shù)組。 | 可掌握的核心: 掌握Java程序基礎數(shù)據(jù)類型; 掌握開發(fā)中常用類如集合、IO流、常用類等操作; 掌握Java異常處理機制; 掌握反射、網(wǎng)絡編程、多線程開發(fā); 掌握Jsoup的網(wǎng)絡爬蟲開發(fā); 掌握JDBC操作; 掌握ETL數(shù)據(jù)處理和BI報表開發(fā) 。 可以解決的問題: 具備JavaSE開發(fā)能力。 市場價值: 可勝任初級爬蟲工程師崗位。 |
面向對象 | 面向對象思想、類與對象、成員變量和局部變量、封裝、 this關鍵字、構造方法。 | ||
常用類 | Object類、String、StringBuilder等。 | ||
集合操作 | 數(shù)據(jù)結構、List、Set、Map等。 | ||
IO操作 | 字節(jié)輸入流、序列化、字節(jié)輸出流、Apache Commons IO等。 | ||
Java基礎增強 | 反射、網(wǎng)絡編程、多線程、注解等。 | ||
JDBC | JDBC基本概述、JDBC入門和步驟分析、DriverManager詳解、Connection詳解、Statement詳解、ResultSet詳解、Driver接口介紹、JDBC的CRUD操作、SQL注入分析、PreparedStatement詳解、JDBC的使用案例、連接池基礎、C3P0連接池的使用。 | ||
Maven | Maven環(huán)境搭建、Maven構建、自動化構建、本地倉庫&中央倉庫、pom.xml、依賴管理、坐標、依賴、生命周期等、IDEA下的Maven使用。 | ||
爬蟲案例 | Jsoup、MySQL高級、JDBC、ETL、BI | ||
Hadoop技術棧 | Linux操作系統(tǒng)高級 | Linux shell編程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高級命令使用。 | 可掌握的核心: 掌握shell編程; 掌握ZooKeeper原理并應用; 掌握HDFS的使用和MapReduce編程; 理解MapReduce原理和調優(yōu); 掌握Yarn的原理和調優(yōu); 掌握Hive的使用和調優(yōu)。 可以解決的問題: 具備Hadoop開發(fā)能力、離線數(shù)據(jù)倉庫開發(fā)能力。 市場價值: 可勝任初級Hadoop工程師崗位。 |
大數(shù)據(jù)基礎和硬件介紹 | 大數(shù)據(jù)的特點、分布式存儲概念、分布式計算的概念、服務器種類介紹、機架、交換機、網(wǎng)絡拓撲、Raid、IDC數(shù)據(jù)中心。 | ||
Zookeeper | Zookeeper的應用場景、架構和原理、存儲模型、選舉機制、客戶端操作。 | ||
HDFS | HDFS設計的特點、Master-Slave架構、Block塊存儲、RF拷貝因子、機架感知、Block拷貝策略、讀寫流程、HDFS Federation、HDFS Snapshots、NameNode HA架構和原理、HDFS管理員常用操作、HDFS權限控制。 | ||
MapReduce | MapReduce架構和原理、Split機制、MapReduce并行度、Combiner機制、Partition機制、自定義Partition、MapReduce序列化、自定義排序、數(shù)據(jù)壓縮。 | ||
YARN | Yarn原理和架構、Yarn高可用、Container資源的封裝(CPU、內存和IO)、資源調度策略(FIFO、Fair和Capacity)。 | ||
Hive | Hive原理和架構、HQL操作、數(shù)據(jù)類型、分區(qū)、分桶、臨時表、Meta Store服務、HiveServer內置函數(shù)、自定義UDF和UDAF、數(shù)據(jù)壓縮、存儲格式、自動化腳本、常見性能優(yōu)化、explain執(zhí)行計劃詳解。 | ||
項目一(在線教育) | 1、還原大型在線教育的大數(shù)據(jù)平臺。 2、建立企業(yè)數(shù)據(jù)倉庫,統(tǒng)一企業(yè)數(shù)據(jù)中心,把分散的業(yè)務數(shù)據(jù)集中存儲和處理。 3、項目從需求調研、設計、版本控制、研發(fā)、測試到落地上線,涵蓋了項目的完整工序。 4、挖掘分析海量用戶行為數(shù)據(jù),定制多維數(shù)據(jù)集合,形成數(shù)據(jù)集市,供各個場景主題使用。 |
基于CM自動部署和配置、 數(shù)據(jù)倉庫建模、離線數(shù)倉架構分層、 使用Git版本控制和CodeReview、使用Oozie進行作業(yè)調度、Hive2的使用和調優(yōu)、 Sqoop進行Mysql和Hive的雙向海量數(shù)據(jù)同步、使用拉鏈表完成增量數(shù)據(jù)的統(tǒng)計分析、使用FineReport完成數(shù)據(jù)可視化。 |
可掌握的核心: 掌握從需求、設計、研發(fā)、測試到落地上線的完整項目流程; 掌握大量教育行業(yè)的真實業(yè)務邏輯,涉及20多個主題,100多個指標; 掌握海量數(shù)據(jù)如何調優(yōu)、使用拉鏈表、增量數(shù)據(jù)處理,以及Hive函數(shù)的具體應用等; 掌握基于CM的大數(shù)據(jù)環(huán)境部署和管理; 掌握數(shù)據(jù)倉庫的核心概念和應用; 掌握常用離線大數(shù)據(jù)技術:Oozie、Sqoop、Hive等; 掌握FineReport可視化。 可以解決的問題: 具備企業(yè)級離線數(shù)據(jù)倉庫開發(fā)能力,深入教育行業(yè)需求,提升學員在行業(yè)的核心競爭力。 市場價值: 可勝任Hadoop工程師、離線數(shù)據(jù)倉庫工程師、ETL開發(fā)工程師、FineReport BI開發(fā)工程師等崗位。 |
數(shù)據(jù)微服務接口開發(fā) | Spring | Spring Boot整合Spring MVC、 使用Spring Boot整合MyBatis開發(fā)、搭建Eureka注冊中心、Feign、使用Spring Cloud Gateway搭建微服務網(wǎng)關。 | 可掌握的核心: 掌握SpringBoot整合SpringMVC開發(fā); 掌握SpringBoot整合MyBatis開發(fā); 掌握Eureka搭建; 掌握Feign的使用。 可以解決的問題: 具備后端數(shù)據(jù)微服務接口開發(fā),可勝任通過Spring技術架構完成微服務搭建??赏瓿善髽I(yè)級數(shù)據(jù)微服務接口開發(fā)。 市場價值: 可勝任后端開發(fā)工程師崗位。 |
Spring Boot | |||
Spring Cloud | |||
實時生態(tài)圈 | 分布式緩存系統(tǒng) | Redis原理及架構、Redis Cluster原理及架構、Redis常用操作、HBase原理及架構、預分區(qū)、LSM結構、Bloom Filter、co-processor、結合Phoneix進行優(yōu)化查詢、Kafka原理及架構分析、分布式實時計算架構和思想、ElasticSearch開發(fā)、Logstash數(shù)據(jù)采集、Kibana數(shù)據(jù)可視化。 | 可掌握的核心: 掌握Redis原理及架構; 掌握Redis命令操作、及數(shù)據(jù)結構; 掌握Hbase原理及架構; 掌握HBase命令操作、MapReduce編程; 掌握Phoneix二級索引優(yōu)化查詢; 掌握ELK開發(fā)。 可以解決的問題: 具備使用Hbase和Redis開發(fā)調優(yōu)能力、ELK海量數(shù)據(jù)處理能力。 市場價值: 可勝任ELK開發(fā)工程師、Hadoop開發(fā)工程師等崗位。 |
萬億級NoSQL海量數(shù)據(jù)存儲 | |||
分布式流處理平臺 | |||
Elastic Stack | |||
Flink Stream | Flink DataStream的使用、Flink SQL開發(fā)、Flink 性能監(jiān)控、Flink調優(yōu)、Flink SQL執(zhí)行計劃、Hive + Flink SQL、Kafka + Flink、Watermark、Checkpoint、任務調度與負載均衡、狀態(tài)管理、Flume+Kafka+Flink+Hbase+Sqoop+Canal+MySQL案例實戰(zhàn)。 | 可掌握的核心能力: 掌握Kafka原理及架構; 掌握KafkaStreams開發(fā); 掌握基于Flink進行實時和離線數(shù)據(jù)處理、分析; 掌握基于Flink的多流并行處理技術; 掌握千萬級高速實時采集技術。 可解決的現(xiàn)實問題: 具備Kafka消息隊列開發(fā)和調優(yōu)能力、Flink流式和批量數(shù)據(jù)開發(fā)能力。 市場價值: 可勝任初級實時計算開發(fā)工程師、初級Flink開發(fā)工程師等崗位。 |
|
Flink DataSet | |||
Flink Runtime | |||
Flink SQL | |||
Flink實戰(zhàn) | |||
項目二(證券、物聯(lián)網(wǎng)任選其一) | 1、實時監(jiān)控證券市場的每日業(yè)務交易,實現(xiàn)對證券市場交易數(shù)據(jù)的統(tǒng)計分析 2、搭建監(jiān)察預警體系,包括:預警規(guī)則管理,實時預警,歷史預警,監(jiān)察歷史數(shù)據(jù)分析等 3、股市行情交易數(shù)據(jù)實時采集、實時數(shù)據(jù)分析、多維分析,即席查詢,實時大屏監(jiān)控展示 |
項目采用流處理計算引擎Flink,實時處理100萬筆/s的交易數(shù)據(jù) 基于企業(yè)主流的流處理技術框架:Flume、Kafka、Flink、Hbase等 基于Hive和Kylin的批數(shù)據(jù)處理,可進行海量多維分析 Hbase5日內秒級行情億級規(guī)模,MySQL5日內分時行情千萬級規(guī)模 T-5日內實時行情毫秒響應,T-5日外的歷史行情秒級響應 數(shù)據(jù)存儲以HDFS、Hive、Hbase應對PB級規(guī)模數(shù)據(jù) 項目涵蓋主流離線數(shù)倉的技術和OLAP分析引擎 OLAP分析引擎以Kylin和Druid實現(xiàn)離線和實時的指標分析 隊列服務以低延遲、高吞吐-百萬筆/秒的Kafka保障數(shù)據(jù)接收 緩存服務基于Redis的高速緩存,實現(xiàn)數(shù)據(jù)快速交換 TB級別的實時日處理數(shù)據(jù)、存儲PB級歷史數(shù)據(jù) 主備雙大數(shù)據(jù)平臺保障。 |
可掌握的核心能力: 掌握基于FTP、Flume + Kafka的實時數(shù)據(jù)采集開發(fā); 掌握TB級海量規(guī)模下Flink實時處理開發(fā),保證實時計算高容錯; 掌握三種不同時間維指標的存儲、計算方案(Druid、MySQL、HBase),例如:毫秒級\秒級\分時等時間維; 掌握基于Kylin的即席快速OLAP開發(fā); 掌握基于Flink CEP的實時預警監(jiān)控開發(fā); 掌握基于Spring Boot的數(shù)據(jù)服務接口開發(fā)。 可解決的現(xiàn)實問題: 具備TB級規(guī)模下毫秒級Flink實時計算程序開發(fā)、架設能力,并具備不同應用場景下多種存儲引擎的技術引擎優(yōu)化能力。以及項目上線部署、運維監(jiān)控能力。 市場價值: 可勝任實時計算開發(fā)工程師、Flink開發(fā)工程師、實時數(shù)倉開發(fā)工程師等崗位。 |
Spark技術棧 | Scala語言 | Scala基礎、變量聲明、數(shù)據(jù)類型、條件表達式、塊表達式、循環(huán)、方法和函數(shù)、數(shù)組、元組、集合、Iterator、構造器、伴生對象、Akka編程。 | 可掌握的核心: 掌握Scala語言基礎、數(shù)據(jù)結構; 掌握Scala語言高階語法特性; 掌握Spark的RDD、DAG、CheckPoint等設計思想; 掌握SparkSQL結構化數(shù)據(jù)處理,Spark On Hive整合; 掌握Spark Streaming整合Kafka完成實時數(shù)據(jù)處理; 掌握Spark Streaming偏移量管理及Checkpoint; 掌握Structured Streaming整合多數(shù)據(jù)源完成實時數(shù)據(jù)處理。 可以解決的問題: 具備Spark全棧開發(fā)能力,滿足大數(shù)據(jù)行業(yè)多場景統(tǒng)一技術棧的數(shù)據(jù)開發(fā),提供就業(yè)核心競爭力。 市場價值: 可勝任初級Spark開發(fā)工程師、初級大數(shù)據(jù)平臺開發(fā)工程師、初級大數(shù)據(jù)開發(fā)工程師等崗位。 |
Spark core | Spark架構和原理(運行機制、Driver和Executor、spark任務提交流程)、RDD開發(fā)和原理(Partition、Task、RDD的依賴關系、RDD的容錯機制、RDD的存儲級別、RDD的緩存機制)、廣播變量 、DAG原理(DAG思想、DAG的生成、DAG的處理過程)。 | ||
Spark sql | Spark SQL架構和原理、DataFrame、DataSet DSL和SQL開發(fā)、Spark多數(shù)據(jù)源整合(txt、CSV、Json、parquet、JDBC、Hive)、Spark SQL執(zhí)行計劃原理、Spark SQL性能調優(yōu)。 | ||
Spark Streaming | Spark Streaming流式開發(fā)、DStream API、整合多數(shù)據(jù)源、偏移量管理。 | ||
Structured Streaming | Structured Streaming開發(fā)(input、output、window、watermark、過期數(shù)據(jù)操作、去重等)、Structured Streaming多數(shù)據(jù)源整合(socket、Kafka)、 Flume+kafka+Structured Streaming案例實戰(zhàn)。 |
||
項目三 (物流、電信任選其一) |
1、基于一家大型物流公司研發(fā)的智慧物流大數(shù)據(jù)平臺,日訂單上千萬 2、圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環(huán)節(jié)中涉及的數(shù)據(jù)信息等 3、提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數(shù)據(jù)分析結果,提出具有中觀指導意義的解決方案 |
涵蓋離線業(yè)務和實時業(yè)務、ClickHouse實時存儲和計算引擎、 Kudu + Impala準實時分析系統(tǒng)、基于Docker搭建異構數(shù)據(jù)源、以企業(yè)主流的Spark生態(tài)圈為核心技術(Spark、Spark SQL、Structured Streaming)、ELK全文檢索、Spring Cloud數(shù)據(jù)微服務開發(fā)、實時監(jiān)控地圖開發(fā)、存儲和計算性能調優(yōu)、還原企業(yè)搭建大數(shù)據(jù)平臺的完整過程。 | 可掌握的核心能力: 掌握Docker環(huán)境部署、管理操作; 掌握基于Oracle + MySQL異構數(shù)據(jù)源數(shù)據(jù)處理技術; 掌握基于Oracle Golden Gate以及Canal的實時采集技術; 掌握Kudu + Spark的快速離線數(shù)據(jù)處理、分析技術; 掌握Kudu + Impala即席數(shù)據(jù)分析技術; 掌握基于ClickHouse高性能存儲、計算引擎技術; 掌握基于ELK的全文檢索技術; 掌握Kudu、Spark的調優(yōu)能力; 掌握基于Spring Cloud的數(shù)據(jù)微服務接口開發(fā)技術。 可解決的現(xiàn)實問題: 具備基于Docker搭建不同數(shù)據(jù)源、實時采集開發(fā)能力,并具備構建高性能數(shù)據(jù)存儲處理大數(shù)據(jù)平臺開發(fā)能力。 市場價值: 可勝任中級Spark開發(fā)工程師、中級大數(shù)據(jù)平臺開發(fā)工程師、中級大數(shù)據(jù)開發(fā)工程師等崗位。 |
項目四 (電商、票務任選其一) |
1、分析來自全品類B2B2C電商系統(tǒng),以電商核心流程為主線進行數(shù)據(jù)分析,支撐運營 2、建立基于用戶的全面分析體系,從多個維度建立基于用戶的運營體系 3、實時分析用戶訪問流量、訂單、店鋪等運營指標 |
涵蓋Kettle同步MySQL數(shù)據(jù)采集方案、JS埋點 + Flume實時用戶點擊行為數(shù)據(jù)采集方案 、Spark on hive數(shù)據(jù)倉庫解決方案、Apache Superset可視化方案、Kylin交互式快速數(shù)據(jù)分析方案、Canal MySQL業(yè)務數(shù)據(jù)實時采集方案、Flink實時ETL處理解決方案、Flink + Druid實時數(shù)倉解決方案、HBase + Phoenix明細數(shù)據(jù)實時查詢方案、Flink CEP實時風控方案、Azkaban作業(yè)調度調度方案。 |
可掌握的核心能力: 掌握Spark + Hive構建離線數(shù)倉; 掌握Kafka + Flink + Druid構建實時數(shù)倉; 掌握基于Kettle的數(shù)據(jù)ETL處理技術; 掌握離線數(shù)倉和實時數(shù)倉分層架構; 掌握基于Parquet + Snappy的存儲、壓縮技術; 掌握Spark處理數(shù)據(jù)傾斜問題; 掌握基于Redis + Flink實時ETL處理技術; 掌握基于Spark引擎的Kylin Cube構建技術; 掌握Kylin的碎片管理、Cube調優(yōu)、增量構建等技術; 掌握基于Flume、Canal的實時采集技術; 掌握基于Proto Buf的高效序列化技術; 掌握基于HBase + Phoenix的快速數(shù)據(jù)查詢技術; 掌握基于Flink CEP的實時風控處理技術; 掌握基于Superset的BI開發(fā)技術。 可解決的現(xiàn)實問題: 具備主流Spark + Hive離線數(shù)倉開發(fā)技術,并具備海量數(shù)據(jù)處理性能調優(yōu)能力,具備實時數(shù)倉架構能力,構建毫秒級的實時計算平臺。 市場價值: 可勝任高級離線數(shù)倉開發(fā)工程師、高級實時數(shù)倉開發(fā)工程師、高級大數(shù)據(jù)開發(fā)工程等崗位。 |
可選擇線下或線上 | |||
大數(shù)據(jù)平臺化開發(fā) | 大規(guī)模大數(shù)據(jù)集群部署、大規(guī)模集群運維監(jiān)控 | 涵蓋主流的一些大數(shù)據(jù)平臺,涵蓋CDH、HDP、Apache、云平臺等部署方案,引入各家的最佳實踐。包含基于平臺下的各個組件的運維,包括Prometheus、Zabbix、Grafana、Eagle、CM、Ambari、Ganglia等。 | 可掌握的核心能力: 掌握大數(shù)據(jù)組件的常用運維方法解決實際的運維方案; 掌握大數(shù)據(jù)框架必備的數(shù)據(jù)結構及常用的數(shù)據(jù)結構; 掌握企業(yè)級大數(shù)據(jù)架構原理及源碼深入剖析; 掌握PySpark、PyFlink等Python大數(shù)據(jù)生態(tài)技術; 掌握大數(shù)據(jù)數(shù)據(jù)挖掘常見的算法及應用場景; 掌握數(shù)據(jù)中臺構建思路及實戰(zhàn); 掌握數(shù)據(jù)科學常見的問題方法; 掌握大型互聯(lián)網(wǎng)公司常見面試題。 可解決的現(xiàn)實問題: 具備大數(shù)據(jù)平臺運維能力; 具備企業(yè)數(shù)據(jù)中臺構建能力; 具備大數(shù)據(jù)數(shù)據(jù)挖掘、機器學習模型開發(fā)、調優(yōu)能力; 具備Apache頂級項目二次開發(fā)能力、源碼級調優(yōu)開發(fā)能力; 具備大型企業(yè)大數(shù)據(jù)平臺架構能力。 市場價值: 直通BAT等大廠。 |
大數(shù)據(jù)數(shù)據(jù)中臺 | 大數(shù)據(jù)數(shù)據(jù)體系建設、管理 | 基于Altlas元數(shù)據(jù)管理工具進行數(shù)據(jù)血緣分析、構建數(shù)據(jù)地圖,構建統(tǒng)一存儲計算平臺,建立數(shù)據(jù)類目體系、標簽類目體系、數(shù)據(jù)資產管理,并基于數(shù)據(jù)中臺構建數(shù)據(jù)應用服務。 | |
大廠解決方案實戰(zhàn) | 出行、電商、視頻、社交等領域大數(shù)據(jù)解決方案 | 大型門戶可視化任務提交解決方案、大型旅游出行服務平臺統(tǒng)一性能監(jiān)控平臺解決方案、B2B2C電商集中實時采集消息隊列存儲方案、出行平臺實時風控性能調優(yōu)方案、大型電商雙十一千萬級實時處理調優(yōu)、視頻網(wǎng)站海量用戶行為數(shù)據(jù)計算調優(yōu)。 | |
大數(shù)據(jù)常見架構與設計 | 一線大廠技術架構 | 美團點評實時數(shù)倉架構、拼多多離線數(shù)倉架構、小米快速OLAP分析架構、抖音小視頻實時推薦架構。 | |
新零售項目實戰(zhàn) | 新零售大數(shù)據(jù)項目實戰(zhàn),離線實時全覆蓋 | 本項目基于國內大型新零售巨頭開發(fā)的大數(shù)據(jù)平臺,基于高性能方案構建離線數(shù)倉、以及實時數(shù)倉。該項目涵蓋完整的業(yè)務,包括銷售、屢單、會員、促銷、商品、客戶等主題,每個主題涵蓋大量真實的業(yè)務場景,項目手把手帶著學生開發(fā)基于新零售場景下的離線、實時業(yè)務。本項目采用Hive+Presto架構構建高性能的離線處理方案,并采用基于ClickHouse的實時數(shù)倉,實現(xiàn)秒級OLAP分析。 | |
工業(yè)大數(shù)據(jù)項目實戰(zhàn) | 制造業(yè)大數(shù)據(jù)項目實戰(zhàn) | 本項目基于國內大型的設備制造商大數(shù)據(jù)項目開發(fā)。該企業(yè)在全球范圍內銷售設備,設備涵蓋加油站相關的所有,例如:加油機、油罐建設、加氣機、自助設備等設備生產制造、設計、銷售,并提供全球性的服務。在國內重點客戶為:中國石油、中國石化、以及各個地域的大型企業(yè)。在國內,業(yè)務覆蓋的油站約8W座,設備數(shù)量50W臺。拿加油機設備來說,一臺設備包含了眾多的配件,每個配件的維護,設備信息的上報,服務工作人員的調度、GPS跟蹤定位等,企業(yè)經過多年的經營,積累了海量的數(shù)據(jù)。集群公司為了能夠確保企業(yè)精細化運營,決定進行數(shù)字化轉型,依托于大數(shù)據(jù)技術,以客戶、生產、服務、運營為核心,打造一個全方位的數(shù)字化平臺。 | |
大數(shù)據(jù)數(shù)據(jù)挖掘 | 企業(yè)級大數(shù)據(jù)數(shù)據(jù)挖掘解決方案 | 機器學習基礎、SparkMl&SparkMllib基礎實戰(zhàn)、Python核心基礎、Python數(shù)據(jù)科學庫基礎(Numpy、Pandas、Matplotlib、Seaborn、Imblearn-Learn、Scikit-Learn)、Python數(shù)據(jù)挖掘案例、PyHdfs、PyHive、PyHbase、Kafka-Python、PySpark、PyFLink案例實戰(zhàn)。 | |
BAT直通車 | 互聯(lián)網(wǎng)公司常見面試題及應用場景剖析 | BAT大數(shù)據(jù)常見的面試精選題、一線大廠多領域場景剖析、HDFS、MapReduce、Hive、Flume、Sqoop等面試題精講、Spark、Spark Streaming等面試題精講、Flink面試題精講、底層數(shù)據(jù)結構面試題精講。 |
備注:該課程大綱僅供參考,實際課程內容可能在授課過程中發(fā)生更新或變化,具體授課內容最終以各班級課表為準。
每晚對學員當天知識的吸收程度、老師授課內容難易程度進行評分,老師會根據(jù)學員反饋進行分析,對學員吸收情況調整授課內容、課程節(jié)奏,最終讓每位學員都可以跟上班級學習的整體節(jié)奏。
為每個就業(yè)班都安排了一名優(yōu)秀的技術指導老師,不管是白天還是晚自習時間,隨時解答學員問題,進一步鞏固和加強課上知識。
為了能輔助學員掌握所學知識,黑馬程序員自主研發(fā)了6大學習系統(tǒng),包括教學反饋系統(tǒng)、學習難易和吸收分析系統(tǒng)、學習測試系統(tǒng)、在線作業(yè)系統(tǒng)、學習任務手冊、學員綜合能力評定分析等。
末位輔導隊列的學員,將會得到重點關心。技術輔導老師會在學員休息時間,針對學員的疑惑進行知識點梳理、答疑、輔導。以確保知識點掌握上沒有一個學員掉隊,真正落實不拋棄,不放棄任何一個學員。
從學員學習中的心態(tài)調整,到生活中的困難協(xié)助,從課上班級氛圍塑造到課下多彩的班級活動,班主任360度暖心鼓勵相伴。
小到五險一金的解釋、面試禮儀的培訓;大到500強企業(yè)面試實訓及如何針對性地制定復習計劃,幫助學員拿到高薪Offer。