Spark生態系統(BDAS項目)已經發展成一個,包含多個子項目的集合,包括Spark SQL、Spark Streaming、GraphX、MLlib等,本課程主要講解Spark MLlib,Spark MLlib是一種高效、快速、可擴展的分布式計算框架;實現了常用的機器學習,如:聚類、分類、回歸等算法。本次培訓將循序漸進從Spark的基礎知識、矩陣向量的基礎知識開始,然后再透徹講解各個算法的理論、詳細展示Spark源碼實現,最后均會通過實例進行解析實戰,幫助大家真正從理論到實踐全面掌握Spark MLlib分布式機器學習和數據挖掘方法。
本課程教學過程中還提供了案例分析來幫助學員了解如何用MLLib工具來解決具體的問題,并介紹了從大數據中挖掘出有價值的信息的關鍵。
本課程不是一個泛泛的理論性、概念性的介紹課程,而是針對問題討論解決方案的深入課程。教師對于上述領域有深入的理論研究與實踐經驗,在課程中將會針對這些問題與學員一起進行研究,在關鍵點上還會在實驗環境中演示、實踐,以加深對于這些解決方案的理解。通過本課程學習,希望推動Spark相關的項目開發上升到一個新水平。
證書
培訓結束,頒發中科院計算所職業培訓中心“Spark大數據挖掘工具Mllib實戰”結業證書。
培訓對象
1,系統架構師、系統分析師、高級程序員、資深開發人員。
2,牽涉到大數據實時處理的數據中心運行、規劃、設計負責人。
3,政府機關,金融保險、移動和互聯網等大數據來源單位的負責人。
4,高校、科研院所牽涉到大數據與分布式數據處理的項目負責人。
學員基礎
1,對IT系統設計有一定的理論與實踐經驗。
2,對數據倉庫與大數據實時處理有一定的基礎知識。
第一講 Spark大數據實時處理技術
1)大數據處理技術
2)Spark實時處理技術
3)Spark生態系統BDAS
4)Spark架構分析
第二講 Spark安裝配置及監控
1)Ubuntu環境的準備
2)Hadoop2.X和Scala
3)搭建Spark開發環境
4)Idea編譯和運行
5)Spark監控管理
第3講 Scala編程語言和分布式計算模型
1) Scala編程語言
2) 操作基本數據類型
3)Spark計算模型和RDD
4)Transformation及Actions算子
5)Spark MLlib矩陣向量
第四講 Spark MLlib線性回歸和邏輯回歸算法
1)線性回歸算法
2)線性回歸代碼實例
3)邏輯回歸算法
4)邏輯回歸回歸代碼實例
5)線性回歸和邏輯回歸代碼實操
第五講 Spark MLlib貝葉斯分類算法
1) 貝葉斯分類算法原理
2) Spark貝葉斯分類源碼
3) Spark貝葉斯分類代碼示例
4) 貝葉斯分類代碼實操
第六講 Spark MLlib決策樹算法
1) 決策樹算法原理
2) Spark決策樹算法源碼
3) Spark決策樹算法代碼示例
4) 決策樹代碼實操
第七講 Spark MLlib聚類算法
1) K-Means聚類算法原理
2) Spark K-Means聚類算法源碼
3) SparkK-Means聚類代碼示例
4) 聚類算法代碼實操
第八講 Spark MLlib關聯規則算法
1) FPGrowth關聯規則算法原理
2) FPGrowth關聯規則算法源碼
3) FPGrowth關聯規則代碼示例
4) 關聯規則代碼實操
第九講 Spark MLlib個性化推薦算法
1) 協同過濾推薦算法原理
2) Spark協同過濾推薦源碼
3) Spark協同過濾推薦代碼示例
4) 推薦代碼實操
第十講 Spark MLlib神經網絡算法
1) 神經網絡算法原理
2) Spark神經網絡算法源碼
3) Spark神經網絡代碼示例
4) 神經網絡代碼實操
匯款、現金、支票、刷卡
名 稱:北京市海淀區中科院計算所職業技能培訓學校
開戶行:北京銀行中關村支行
帳 號:01090302900120105445661