互聯網點擊數據、傳感數據、日志文件、具有豐富地理空間信息的移動數據和涉及網絡的各類評論,成為了海量信息的多種形式。當數據以成百上千TB不斷增長的時候,我們在內部交易系統的歷史信息之外,需要一種基于大數據分析的決策模型和技術支持。
大數據處理技術涉及各行各業,包含離線批處理、實時處理、流式處理等多種處理方式,大數據處理和分析工具,對系統的可伸縮性、健壯性、計算性能和成本上有不同的要求,這導致了大數據技術必須涵蓋網絡數據爬取、日志采集、分布式消息訂閱、大數據分析挖掘等方面,目前典型的系統包括Hadoop、Spark、SparkSQL、Hive、HBase、Kafka、SparkStreaming、Parquet、ElasticSearch、Mahout、MLlib、Docker等,這些技術來源于國外不同的著名大公司和科研院校,且大都開源方式公開,用于解決不同的應用需求,涉及面廣,技術要求高,交叉知識范圍廣,知識內容更新頻繁,要厘清其中的關系,從中發現最適合本單位的技術,成為了目前各單位技術專家的一個難點。
本課程教學過程中還從國內外經典大數據應用中,提取了大量的案例分析來幫助學員了解大數據前沿相關新技術,并介紹了從海量數據中發現有價值的信息的關鍵,目標是協助各單位研究人員,對前沿主流大數據技術有一個Overview,在此基礎上幫助各單位技術專家準確定位和發現相關的大數據平臺和工具。
本課程不是一個泛泛的理論性、概念性的介紹課程,而是針對問題討論解決方案的深入課程。教師對于上述領域有深入的理論研究與實踐經驗,在課程中將會針對這些問題與學員一起進行研究,在關鍵點上還會搭建實驗環境進行實踐演練,加深對于這些解決方案的理解。通過本課程學習,希望推動大數據應用開發上升到一個新水平。
培訓目標
1、全面了解主流大數據系統的性能監控技術的相關知識。
2、學習主流大數據系統的性能監控方法以及應用特征。
3、學習使用主流大數據系統以及在數據分析中的使用。
4、了解主流大數據系統的技術融合。
證書
培訓結束,頒發中科院計算所職業培訓中心“主流大數據系統的性能監控及分析”結業證書。
培訓對象
1,系統架構師、系統分析師、高級程序員、資深開發人員。
2,牽涉到主流大數據系統分析建模的數據中心運行、規劃、設計負責人。
3,政府機關,金融保險、移動和互聯網等大數據來源單位的負責人。
4,高校、科研院所牽涉到主流大數據系統應用的項目負責人。
5,對大數據系統性能監控及分析感興趣的人員。
學員基礎
1,對IT系統設計有一定的理論與實踐經驗。
2,對大數據分析和數據處理方法有一定的基礎知識。
3,對Hadoop/Spark等大數據技術有一定的了解。
第一講 大數據技術基礎
1)大數據應用需求及潛在價值分析
2)大數據與數據庫解決方案的對比
3)國內外主流的大數據解決方案
4)開源的大數據生態系統平臺剖析
5)大數據下的技術選型與架構設計
第二講 批處理大數據平臺Hadoop
1)Hadoop及其運行架構
2)HDFS分布式文件系統
3)MapReduce計算模型
4)HBase大表管理技術
5)Hadoop平臺使用和實操
6) Hadoop性能監控及分析
第三講 快速大數據平臺Spark
1) Spark快速處理技術
2)彈性分布式數據集RDD
3) Spark分布式計算框架
4) Spark的BDAS生態系統
5) Spark平臺使用和實操
6)Spark性能監控及分析
第四講 流式實時大數據平臺Streaming
1) 實時流數據處理工具Streaming
2) Spark Streaming原理
3) Spark Streaming架構
4) Spark Streaming實例
5) Spark Streaming性能監控及分析
第五講 云數據處理工具HBase
1) NoSQL技術及云數據庫介紹
2) HBase列數據存儲機制
3) HBase數據處理機制分析
4) HBase高并發讀/寫實現及案例
5) HBase性能監控及分析
第六講 Hive及大數據中的SQL工具
1) 大數據中的類SQL工具
2) Hive設計目標和數據模型
3) Hive關鍵性技術分析
4) Hive數據操作和案例
5) Hive性能監控及分析
第七講 SparkSQL類SQL工具
1) Spark SQL和BDAS數據分析棧
2) SparkSQL設計目標和數據模型
3) Spark SQL數據操作
4) SparkSQL關鍵性技術和案例
5) SparkSQL性能監控及分析
第八講 分布式消息訂閱工具Kafka
1) Kafka應用介紹
2) Kafka平臺架構
3) Kafka集群部署與配置
4) Kafka應用案例實操
5) Kafka性能監控及分析
第九講 大數據存儲格式Parquet
1) 大數據存儲格式的要求
2) Parquet文件格式介紹
3) Parquet的組成分析
4) Parquet的應用情況
5) Parquet性能監控及分析
第十講 大數據分析挖掘工具
1)大數據挖掘及知識模型的發現
2)大數據挖掘工具Mahout和MLlib
3)推薦方法及MLlib電影推薦案例
4)分類方法及Mahout新聞分類案例
5)聚類方法及K-Means聚類案例
第十一講 Elasticsearch搜索分析工具
1) 全文檢索與Elasticsearch工具
2) Elasticsearch索引及檢索
3) Elasticsearch信息擴展索引結構
4) ELK和Elasticsearch集群
5) Elasticsearch性能監控及分析
第十二講 資源虛擬化工具Docker
1)虛擬化和容器技術
2)LXC和Docker的發展
3)Docker架構及特性
4)鏡像、容器和倉庫
5)Docker的執行及其案例實操
第十三講 大數據技術展望
1)大數據分析技術展望
2)大數據平臺的發展展望
3)大數據挖掘的應用展望
匯款、微信轉帳
匯款信息:
單位名稱:北京市海淀區中科院計算所職業技能培訓學校
開戶行:工行海淀西區支行
賬號:0200 0045 1920 0043 667
開戶銀行代碼:1021 0000 0458
微信轉賬:
步驟一:打開微信,掃描二微碼付款時,點擊打開微信右下角里的“發現”,在列表界面有一個“掃一掃”選項,點擊打開“掃一掃”(如下圖):
步驟二:點擊打開“掃一掃”后,會出現一個掃描框,將中科院計算所培訓中心二維碼/條碼放入框內,即可自動掃描,并顯示支付信息,輸入付款金額。
(中科院計算所培訓中心二維碼)
步驟三:點擊 “添加付款備注”,填寫付款人姓名和單位全稱,所有信息核對無誤后,點擊“確認付款”,完成支付。