Membuat Hadoop Cluster di Amazon EMR
Big Data

Membuat Hadoop Cluster di Amazon EMR

Hadoop merupakan big data framework yang banyak digunakan untuk memproses data yang besar. Big Data adalah terminologi data yang mengacu pada data dengan jumlah besar dan sulit untuk diproses dengan database tradisional seperti SQL Databases

Note: Baca kembali artikel Pengenalan Big Data

Dalam melakukan analisis dari data yang besar, sistem terdistribusi sangat membantu untuk menyederhanakan proses dengan membagi ke banyak mesin

Note: Baca kembali artikel Mengenal Komputasi Terdistribusi

Hadoop Cluster merupakan bentuk sistem terdistribusi yang terdiri dari banyak komputer yang saling terhubung

Kita dapat membuat Hadoopo Cluster secara mandiri atau menggunakan layanan yang banyak diberikan oleh provider Big Data

Misalnya AWS menyediakan layanan managed Hadoop yaitu sebuah HaaS, Hadoop as a Service yang disebut Amazon Elastic Map Reduce (EMR)

HaaS merupakan merupakan konsep Hadoop yang berada di cloud yang dapat digunakan untuk menyimpan dan menganalisis big data

EMR sangat memanjakan penggunanya untuk membuat Hadoop Cluster hanya dalam hitungan menit. Pengguna tidak perlu repot-repot untuk melakukan konfigurasi untuk setiap node

Hadoop Cluster di Amazon EMR

Pada kesempatan kali ini kita akan coba membuat Hadoop Cluster di Amazon EMR. Silakan login di AWS Console dan pastikan anda sudah mempunyai akun AWS

Sebelum membuat Hadoop Cluster kita siapkan dulu EC2 Key Pair agar node di cluster dapat diakses dengan SSH

Untuk membuat EC2 Key Pair masuk ke layanan EC2Key Pairs dan pilih Create Key Pair

Selanjutnya kita bikin Hadoop Cluster di Menu EMR. Pilih EMRCreate Cluster

Membuat Hadoop Cluster di Amazon EMR

Masukkan nama Cluster, dan set konfigurasi software dan harware. Untuk software kita bisa pilih poin 4 untuk menggunakan engine spark untuk analisis datanya dan pilih tipe instance serta jumlahnya (n master dan n slave)

Membuat Hadoop Cluster di Amazon EMR

Pilih EC2 key pair dan pilih Create Cluster

Membuat Hadoop Cluster di Amazon EMR

Tunggu beberapa saat sampai status cluster adalah “Running

Remote Hadoop Cluster

Cara remote hampir sama dengan cara remote di Windows/Linux Server yaitu menggunakan file .pem dengan public DNS-nya

Master public DNS dapat ditemukan di Tab Summary

Membuat Hadoop Cluster di Amazon EMR

Sebelum kita remote kita edit dulu “Security groups for Master” di Tab Summary untuk menambah akses SSH dan klik link (ElasticMapReduce-master)

Centang ElasticMapReduce-master dan pilih ActionsEdit inbound rules

Membuat Hadoop Cluster di Amazon EMR

Scroll halaman hingga paling bawah dan tekan tombol Add Rule. Pilih SSH dengan IP 0.0.0.0/0

Setelah rule SSH telah kita atur selanjutnya kita bisa lakukan remote Hadoop Cluster dari komputer lokal

User di Hadoop Cluster adalah hadoop. Gunakan perintah ssh -i “file.pem” hadoop@MasterpublicDNS untuk melakukan remote cluster

Membuat Hadoop Cluster di Amazon EMR

Jika remote berhasil maka akan ditampilkan halaman seperti ini

Oke selamat anda telah mempunyai Hadoop Cluster di Amazon EMR untuk mengolah data dengan ukuran besar

Leave a Reply

Your email address will not be published.