or
資策會「Big Data資料處理-Spark實作」
課程採體驗式教學方式的實作,理論與實務並重
機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」和「Big Data的運算」兩大難題。 資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。
收件人email:
寄件人姓名:
寄件人email:
資策會「Big Data資料處理-Spark實作」
適合對象:高階主管、中階主管、專業人員、技術人員、一般職員、二度就業者、轉職者 
 ◆ 課程緣起

近年來各大企業如Google、Apple、Facebook等,皆已將機器學習應用在日常生活中,舉凡:自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用,機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」「Big Data的運算」兩大難題。

在2014年的資料排序基準競賽(Sort Benchmark Competition) 中,Databricks公司使用Spark,在207台的叢集中,以23分鐘完成 100 TB 的資料排序,刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce,花費了72分鐘完成),這項成就也讓Spark一戰成名。

Spark是一個讓數據分析更加快速的叢集運算引擎,它使用了「記憶體內運算技術」(In-Memory Computing),能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop,而是改進了Hadoop內MapReduce運算引擎,它支援了Hadoop所支援的儲存系統,包括HDFS、S3等。但Spark本身沒有提供儲存的功能,因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析,就可算是完美的結合。

有鑑於此,資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。

 ◆ 課程特色

  1. 本課程理論與實務並重,除了讓學員了解Spark的技術,並能自行建構及使用Spark叢集。

  2. 獨家採用已建構好的多台Linux虛擬主機環境,讓學員實作Hadoop HDFS + Spark叢集架構,在Spark叢集上執行程式並透過圖形介面監看多台叢集的運行。

  3. 本課程將會學習整合Spark與Hadoop HDFS讀、寫的功能,安裝Ipython Notebook執行在Spark叢集上,在Ipython Notebook互動模式中操作RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例,最後安裝SparkR,練習讓R執行在Spark的叢集上。

  4. 課程採體驗式教學方式的實作,只要具些許Linux操作基礎,仍可經由指令、設定的剪貼從中驗證課程所學。

 ◆ 課程目標

學員於學習後能具備獨立完成Spark的安裝、操作與叢集建置的能力,在Spark叢集上安裝、執行Ipython Notebook,操作PySpark與SparkR,整合Spark與Hadoop HDFS讀、寫的功能,練習RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例,並通過課後測驗。

 ◆ 適合對象

1.     Big Data處理、分析、應用有興趣者

2.     IT經理、專案經理、系統架構師或系統網路管理人員

3.     略具Linux使用基礎者為佳

 ◆ 課程內容
   

課程單元

課程內容

Big Data概述
  • Big Data簡介
  • Big Data平台的介紹與比較 - Hadoop與Spark
Hadoop HDFS與Spark安裝
  • 在3台linux上安裝Hadoop HDFS分散式儲存系統
  • HDFS指令操作
  • 在HDFS架構上手動安裝Spark Cluster(1台Master + 3台Worker)
Spark不同執行模式的操作與使用
  • Spark Local模式的操作
  • Spark Standalone Cluster模式的操作
  • 透過spark-shell、pyspark、spark-submit在Spark Cluster上執行scala、python或jar檔
  • IPython Notebook安裝與執行Python Spark(pyspark)程式
RDD的操作
  • RDD的轉換(transformation)與動作(action)
  • RDD key-value的基本操作
  • 在Spark Cluster上撰寫WordCount並執行
Spark SQL、MLlib ALS推薦演算法
  • RDD、DataFrame與Spark SQL的轉換與操作
  • Pandas DataFrame繪圖範例
  • 透過ALS訓練來建立模型並進行推薦範例
SparkR安裝
  • R、RStudio的安裝
  • SparkR範例練習(讓R執行在Spark Cluster上)

課程 *課程執行單位保留調整課程內容、日程與講師之權利*

 
  • 【高雄】高雄班(場)
  • 報名截止日期:2018/08/10
  • 請來電洽詢
  • 開課日:2018/08/11
  • 結束日:2018/08/12
  • 時數:12 (小時)
  • 時段:週六日 09:30 ~ 16:30
  • 地點: 高雄│資策會數位教育研究所高雄教室 │高雄市前金區中正四路211號8F-1
  • 提早報名並繳費優惠 開課前14天以前報名並繳費 折扣 80%
  • *填寫報名表能讓開課單位更有效的處理您的資料,並優先處理您的需求!
  • 報名班別 
  • 報名人數   人
  • * 第1位報名者姓名 
  • ...................................................................................................................................................