Hadoop merupakan big data framework yang banyak digunakan untuk memproses data yang besar. Big Data adalah terminologi data yang mengacu pada data dengan jumlah besar dan sulit untuk diproses dengan database tradisional seperti SQL Databases
Note: Baca kembali artikel Pengenalan Big Data
Dalam melakukan analisis dari data yang besar, sistem terdistribusi sangat membantu untuk menyederhanakan proses dengan membagi ke banyak mesin
Note: Baca kembali artikel Mengenal Komputasi Terdistribusi
Hadoop Cluster merupakan bentuk sistem terdistribusi yang terdiri dari banyak komputer yang saling terhubung
Kita dapat membuat Hadoopo Cluster secara mandiri atau menggunakan layanan yang banyak diberikan oleh provider Big Data
Misalnya AWS menyediakan layanan managed Hadoop yaitu sebuah HaaS, Hadoop as a Service yang disebut Amazon Elastic Map Reduce (EMR)
HaaS merupakan merupakan konsep Hadoop yang berada di cloud yang dapat digunakan untuk menyimpan dan menganalisis big data
EMR sangat memanjakan penggunanya untuk membuat Hadoop Cluster hanya dalam hitungan menit. Pengguna tidak perlu repot-repot untuk melakukan konfigurasi untuk setiap node
Hadoop Cluster di Amazon EMR
Pada kesempatan kali ini kita akan coba membuat Hadoop Cluster di Amazon EMR. Silakan login di AWS Console dan pastikan anda sudah mempunyai akun AWS
Sebelum membuat Hadoop Cluster kita siapkan dulu EC2 Key Pair agar node di cluster dapat diakses dengan SSH
Untuk membuat EC2 Key Pair masuk ke layanan EC2 – Key Pairs dan pilih Create Key Pair
Selanjutnya kita bikin Hadoop Cluster di Menu EMR. Pilih EMR – Create Cluster
Masukkan nama Cluster, dan set konfigurasi software dan harware. Untuk software kita bisa pilih poin 4 untuk menggunakan engine spark untuk analisis datanya dan pilih tipe instance serta jumlahnya (n master dan n slave)
Pilih EC2 key pair dan pilih Create Cluster
Tunggu beberapa saat sampai status cluster adalah “Running“
Remote Hadoop Cluster
Cara remote hampir sama dengan cara remote di Windows/Linux Server yaitu menggunakan file .pem dengan public DNS-nya
Master public DNS dapat ditemukan di Tab Summary
Sebelum kita remote kita edit dulu “Security groups for Master” di Tab Summary untuk menambah akses SSH dan klik link (ElasticMapReduce-master)
Centang ElasticMapReduce-master dan pilih Actions – Edit inbound rules
Scroll halaman hingga paling bawah dan tekan tombol Add Rule. Pilih SSH dengan IP 0.0.0.0/0
Setelah rule SSH telah kita atur selanjutnya kita bisa lakukan remote Hadoop Cluster dari komputer lokal
User di Hadoop Cluster adalah hadoop. Gunakan perintah ssh -i “file.pem” hadoop@MasterpublicDNS untuk melakukan remote cluster
Jika remote berhasil maka akan ditampilkan halaman seperti ini
Oke selamat anda telah mempunyai Hadoop Cluster di Amazon EMR untuk mengolah data dengan ukuran besar