让我们在OSX上运行Apache Spark

Spark 1.4.0已经发布了呢。
https://spark.apache.org/releases/spark-release-1-4-0.html

    • SparkR

 

    DataFrame API

有很多备受关注的更新可供选择。
虽然可以使用已构建的软件包,但建议尝试自行构建并使用!
与文件没有太大差异,只是作为备忘录留着。

环境

    • OSX Yosemite

 

    MacBook Pro(Retina, 2012)

根据文件,使用Maven构建Spark需要Maven 3.0.4或更高版本和Java 6+。因此,请先确认已经安装了Maven和Java。

# Java 6以上が必要です。
java -version
# Maven 3.0.4以上が必要です。
mvn -version

如果结果不尽如人意,我会用Homebrew或其他方法来安排环境。

下载

在确认版本和包类型(选择源代码)的同时,从这里开始下载。
然后,解压缩并放置在/usr/local目录下。

cd ~/Download
tar xzvf spark-1.4.0
mv spark-1.4.0 /usr/local

立即构建

前往Spark主页

cd  /usr/local/spark-1.4.0

然后执行构建命令。

build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

等一下,Maven会努力构建,然后完成。
我就这么简单地结束了,没有什么特别的。

Shell的设置

将Spark的安装路径写在~/.bash_profile文件中。
如果安装了多个版本的Spark,请在这里指定。

# Apache Spark
# export SPARK_HOME=/usr/local/spark-1.3.1/
export SPARK_HOME=/usr/local/spark-1.4.0/
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH

其他设置

根据看起来的样子,将详细设置写入$SPARK_HOME/conf/spark-env.sh是正确的。我打算下一次总结一下这个部分的写法。

接下来是

由于功能变得更加丰富,所以有很多想要尝试的事情,也许我应该从SparkR开始尝试。还对SparkML很感兴趣,但这些可以留待以后再说!

bannerAds