在Mac上安装和使用Apache Spark和PySpark
完全备忘录
安装Java
由于意外地沉迷其中,所以参考以下情况,在下方类似的方式安装Java8。
$ brew tap caskroom/versions
$ brew cask install java8
.bashrc或者.zshrc文件
$ export JAVA_HOME=`/usr/libexec/java_home -v "8"`
$ PATH=${JAVA_HOME}/bin:${PATH}
我会留下一条附注。
安装Apache Spark
请参考这个。
$ brew install apache-spark
可以每进入一次。
==> Downloading https://www.apache.org/dyn/closer.lua?path=spark/spark-2.3.2/spa
==> Downloading from http://ftp.jaist.ac.jp/pub/apache/spark/spark-2.3.2/spark-2
######################################################################## 100.0%
? /usr/local/Cellar/apache-spark/2.3.2: 1,019 files, 243.9MB, built in 5 minutes 15 seconds
那么,结束了。
我先试试PySpark。
$ pyspark
我试着打一下。
Python 3.6.0 |Continuum Analytics, Inc.| (default, Dec 23 2016, 13:19:00)
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
2018-11-12 23:38:44 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.3.2
/_/
Using Python version 3.6.0 (default, Dec 23 2016 13:19:00)
SparkSession available as 'spark'.
>>>
如果以这样的感觉出现的话,可以接受。
尝试使用独立模式下的pyspark
将Python版本设为3。
pyenv global 3.6.0
在第一个终端中启动主控制器。
cd /usr/local/Cellar/apache-spark/2.3.2/libexec/bin
spark-class org.apache.spark.deploy.master.Master
在第二个终端中启动工作程序。
cd /usr/local/Cellar/apache-spark/2.3.2/libexec/bin
spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT
当启动主控时,IP会显示在输出界面上。
Master:54 - Starting Spark master at spark://IP:PORT
输入正在查找和输出的IP和端口。 在第三个终端中执行Spark。
pyspark --master spark://IP:PORT