Spark
tool
使用command line
啟動my spark shell
./usr/local/spark/bin/spark-shell結束spark shell
^Dorquit使用eclipse
spark 運算
- creation operation
RDD的建立都是由SparkContext負責,記憶體中的集合或外部檔案系統為來源
val sc = new SparkContext(new SparkConf().setAppName("HelloWorld").setMaster("local[4]"))
val rdd1 = sc.textFile("file:///usr/local/spark/README.md")
- transformation operation
將RDD轉換成RDD,ex: filter
val filterRDD = txtRDD.filter(_.contains("spark"))
- control operation
可以讓RDD儲存在磁碟或記憶體中,ex: cache
filterRDD.cache()
- action operation
執行一個運算,將結果存成外部檔案或是scala向量,ex: count
filterRDD.count()