让我们在OSX上运行Apache Spark
Spark 1.4.0已经发布了呢。
https://spark.apache.org/releases/spark-release-1-4-0.html
-
- SparkR
- DataFrame API
有很多备受关注的更新可供选择。
虽然可以使用已构建的软件包,但建议尝试自行构建并使用!
与文件没有太大差异,只是作为备忘录留着。
环境
-
- OSX Yosemite
- MacBook Pro(Retina, 2012)
根据文件,使用Maven构建Spark需要Maven 3.0.4或更高版本和Java 6+。因此,请先确认已经安装了Maven和Java。
# Java 6以上が必要です。
java -version
# Maven 3.0.4以上が必要です。
mvn -version
如果结果不尽如人意,我会用Homebrew或其他方法来安排环境。
下载
在确认版本和包类型(选择源代码)的同时,从这里开始下载。
然后,解压缩并放置在/usr/local目录下。
cd ~/Download
tar xzvf spark-1.4.0
mv spark-1.4.0 /usr/local
立即构建
前往Spark主页
cd /usr/local/spark-1.4.0
然后执行构建命令。
build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package
等一下,Maven会努力构建,然后完成。
我就这么简单地结束了,没有什么特别的。
Shell的设置
将Spark的安装路径写在~/.bash_profile文件中。
如果安装了多个版本的Spark,请在这里指定。
# Apache Spark
# export SPARK_HOME=/usr/local/spark-1.3.1/
export SPARK_HOME=/usr/local/spark-1.4.0/
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
其他设置
根据看起来的样子,将详细设置写入$SPARK_HOME/conf/spark-env.sh是正确的。我打算下一次总结一下这个部分的写法。
接下来是
由于功能变得更加丰富,所以有很多想要尝试的事情,也许我应该从SparkR开始尝试。还对SparkML很感兴趣,但这些可以留待以后再说!