Spark

tool

  • 使用command line

    啟動my spark shell ./usr/local/spark/bin/spark-shell

    結束spark shell ^D or quit

  • 使用eclipse

spark 運算

  • creation operation

RDD的建立都是由SparkContext負責,記憶體中的集合或外部檔案系統為來源

val sc = new SparkContext(new SparkConf().setAppName("HelloWorld").setMaster("local[4]"))
val rdd1 = sc.textFile("file:///usr/local/spark/README.md")
  • transformation operation

將RDD轉換成RDD,ex: filter

val filterRDD = txtRDD.filter(_.contains("spark"))
  • control operation

可以讓RDD儲存在磁碟或記憶體中,ex: cache

filterRDD.cache()
  • action operation

執行一個運算,將結果存成外部檔案或是scala向量,ex: count

filterRDD.count()

results matching ""

    No results matching ""