Apache Spark merupakan framework untuk processing data terdistribusi. Spark Mempunyai 4 komponen penting seperti Spark SQL, Spark Streaming, Machine learning library dan GraphX

Apache Spark dapat berjalan di atas Hadoop, Apache Mesos, Kubernetes, standalone, atau di cloud
Apache Spark dapat mengakses berbagai macam sumber data. Apache Spark juga dapat dijalankan di beberapa bahasa seperti Java, Scala, Python dan R
Cara install Apache Spark
Install Java terlebih dulu
apt-get install default-jdk
untuk mengecek versi Java yang terinstall gunakan perintah java -version
Download Spark dengan wget, versi Spark yang saya download adalah 2.4
wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
Ekstrak dan buat forlder di /usr/local/spark
tar xvf spark-2.4.0-bin-hadoop2.7.tgz
sudo mkdir /usr/local/spark
Copy spark ke /usr/local/spark
sudo cp -a spark-2.4.0-bin-hadoop2.7/* /usr/local/spark/
Buka file .bashrc
gedit ~/.bashrc
dan masukkan config berikut,
export PATH = $PATH:/usr/local/spark/bin
export PYSPARK_PYTHON=/usr/bin/python3.8
export PYSPARK_DRVIER_PYTHON=/usr/bin/python3.8
Jangan lupa cek terlebih dulu versi Python yang digunakan
which python3
cd /usr/bin
ls | grep python3

Simpan file .bashrc dan jalankan perintah
source ~/.bashrc
Kita cek Spark dengan perintah
spark-shell

Spark telah terinstall tetapi secara default bahasa yang digunakan adalah Scala
Selanjutnya kita akan install PySpark yang merupakan API untuk mengakses Spark melalui Python
Install Pyspark
Install PySpark dengan perintah
pip3 install pyspark
Kita cek Pyspark dengan perintah
pyspark

Atau kita bisa menggunakan memanggil pyspark melalui Python
Buka environment Python dan coba import Pyspark

Sekian tutorial menginstal Spark dan mengaksesnya menggunakan PySpark