Big Data

Cara Install Apache Spark dan Pyspark

Apache Spark merupakan framework untuk processing data terdistribusi. Spark Mempunyai 4 komponen penting seperti Spark SQL, Spark Streaming, Machine learning library dan GraphX

Cara Install Apache Spark dan Pyspark

Apache Spark dapat berjalan di atas Hadoop, Apache Mesos, Kubernetes, standalone, atau di cloud

Apache Spark dapat mengakses berbagai macam sumber data. Apache Spark juga dapat dijalankan di beberapa bahasa seperti Java, Scala, Python dan R

Cara install Apache Spark

Install Java terlebih dulu

apt-get install default-jdk

untuk mengecek versi Java yang terinstall gunakan perintah java -version

Download Spark dengan wget, versi Spark yang saya download adalah 2.4

wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

Ekstrak dan buat forlder di /usr/local/spark

tar xvf spark-2.4.0-bin-hadoop2.7.tgz

sudo mkdir /usr/local/spark 

Copy spark ke /usr/local/spark

sudo cp -a spark-2.4.0-bin-hadoop2.7/* /usr/local/spark/

Buka file .bashrc

gedit ~/.bashrc

dan masukkan config berikut,

export PATH = $PATH:/usr/local/spark/bin
export PYSPARK_PYTHON=/usr/bin/python3.8
export PYSPARK_DRVIER_PYTHON=/usr/bin/python3.8

Jangan lupa cek terlebih dulu versi Python yang digunakan

which python3
cd /usr/bin
ls | grep python3
Cara Install Apache Spark dan Pyspark

Simpan file .bashrc dan jalankan perintah

source ~/.bashrc

Kita cek Spark dengan perintah

spark-shell
Cara Install Apache Spark dan Pyspark

Spark telah terinstall tetapi secara default bahasa yang digunakan adalah Scala

Selanjutnya kita akan install PySpark yang merupakan API untuk mengakses Spark melalui Python

Install Pyspark

Install PySpark dengan perintah

pip3 install pyspark

Kita cek Pyspark dengan perintah

pyspark
Cara Install Apache Spark dan Pyspark

Atau kita bisa menggunakan memanggil pyspark melalui Python

Buka environment Python dan coba import Pyspark

Sekian tutorial menginstal Spark dan mengaksesnya menggunakan PySpark

Leave a Reply

Your email address will not be published. Required fields are marked *