在Mac上安装和使用Apache Spark和PySpark

完全备忘录

安装Java

由于意外地沉迷其中,所以参考以下情况,在下方类似的方式安装Java8。

$ brew tap caskroom/versions
$ brew cask install java8

.bashrc或者.zshrc文件

$ export JAVA_HOME=`/usr/libexec/java_home -v "8"`
$ PATH=${JAVA_HOME}/bin:${PATH}

我会留下一条附注。

安装Apache Spark

请参考这个。

$ brew install apache-spark

可以每进入一次。

==> Downloading https://www.apache.org/dyn/closer.lua?path=spark/spark-2.3.2/spa
==> Downloading from http://ftp.jaist.ac.jp/pub/apache/spark/spark-2.3.2/spark-2
######################################################################## 100.0%
?  /usr/local/Cellar/apache-spark/2.3.2: 1,019 files, 243.9MB, built in 5 minutes 15 seconds

那么,结束了。

我先试试PySpark。

$ pyspark

我试着打一下。

Python 3.6.0 |Continuum Analytics, Inc.| (default, Dec 23 2016, 13:19:00) 
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
2018-11-12 23:38:44 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.2
      /_/

Using Python version 3.6.0 (default, Dec 23 2016 13:19:00)
SparkSession available as 'spark'.
>>>

如果以这样的感觉出现的话,可以接受。

尝试使用独立模式下的pyspark

将Python版本设为3。

pyenv global 3.6.0

在第一个终端中启动主控制器。

cd /usr/local/Cellar/apache-spark/2.3.2/libexec/bin
spark-class org.apache.spark.deploy.master.Master

在第二个终端中启动工作程序。

cd /usr/local/Cellar/apache-spark/2.3.2/libexec/bin
spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

当启动主控时,IP会显示在输出界面上。

Master:54 - Starting Spark master at spark://IP:PORT

输入正在查找和输出的IP和端口。 在第三个终端中执行Spark。

pyspark --master spark://IP:PORT
广告
将在 10 秒后关闭
bannerAds