DataFrame adalah struktur data 2 dimensi yang berbentuk tabular (mempunyai baris dan kolom)
Hampir semua data tidak hanya memiliki 1 kolom tetapi lebih sehingga lebih cocok menggunakan pandas DataFrame untuk mengolahnya
DataFrame dapat dibuat lebih dari satu Series atau dapat kita katakan bahwa DataFrame adalah kumpulan Series
Contents
Membuat Pandas DataFrame
Ada beberapa cara untuk membuat DataFrame antara lain melalui List, Dict, Series, File atau DataFrame lain
~ Untuk implementasi DataFrame anda dapat gunakan Jupyter Notebook
#1 DatarFrame dari List
Pertama import terlebih dahulu library Pandas
import pandas as pd
Selanjutnya buat variabel data yang menyimpan beberapa List dan gunakan fungsi DataFrame() untuk membuat DataFrame baru
data = {'satu': [1,1,1,1,1], 'dua' : [2,2,2,2,2], 'tiga': [3,3,3,3,3]} df = pd.DataFrame(data) df.head()
Hasilnya adalah seperti ini
Kita juga bisa memberikan index label seperti pada Series
data = {'satu': [1,1,1,1,1], 'dua' : [2,2,2,2,2], 'tiga': [3,3,3,3,3]} df = pd.DataFrame(data, index=['a','b','c','d','e']) df.head()
Hasilnya adalah index default berupa angka menjadi bentu alfabet yang telah kita set
#2 DataFrame dari Dictionary
Kita juga bisa membuat DataFrame dari kumpulan Dictionary yang dibungkan di dalam List
data = [{'satu': 1, 'dua': 2,'tiga': 3}, # index ke-0 {'satu': 1, 'dua': 2,'tiga': 3}, # index ke-1 {'satu': 1, 'dua': 2,'tiga': 3}] # index ke-3 df = pd.DataFrame(data) df.head()
Hasilnya adalah
#3 DataFrame dari Series
Kita dapat juga membuat DataFrame dari Series
data = {'satu': pd.Series([1,1,1,1,1]), 'dua' : pd.Series([2,2,2,2,2]), 'tiga': pd.Series([3,3,3,3,3])} df = pd.DataFrame(data) df.head()
Hasilnya adalah
#4 DataFrame dari File
Sebenarnya lebih cocok disebut dengan membaca file dengan DataFrame
Kita bisa gunakan fungsi read_csv() seperti yang sudah kita coba di materi Series
Misalnya kita akan membaca file CSV maka caranya seperti ini
df = pd.read_csv('titanic.csv') df.head()
dan hasilnya seperti ini
Pandas tidak hanya bisa membaca file format CSV tetapi format-format lainnya seperti JSON, XLSX, TXT, XML dan sebagainya yang akan kita cover di artikel selanjutnya
#5 DataFrame dari DataFrame lain
Terkadang kita ingin menduplikasi dataframe maka caranya adalah sebagai berikut
df = pd.read_csv('titanic.csv') #duplicate dataframe df_baru = df #show data df_baru.head()
Akses DataFrame
Kita akan menggunakan dataset titatic. Silahkan download dulu datasetnya di artikel sebelumnya
# Akses Kolom
Untuk mengakses data berdasarkan kolom gunakan [‘nama kolom’]
Misal memanggil 1 kolom dari data titanic
df = pd.read_csv('titanic.csv') df['Name']
Hasilnya adalah
Jika ingin memanggil lebih dari satu kolom maka menggunakan double “[ [ ] ]”
df[['Name', 'Sex']]
# Akses Baris
Untuk mengakses baris kita bisa gunakan fungsi loc dan iloc yang telah dibahas pada materi Pandas Series
Semisal kita ingin akses indeks ke-10
df.loc[10]
Jika ingin menampilkan data indeks ke-0 sampai ke 10 gunakan simbol ” : ” untuk mengambil range data atau dari indeks ke-10 sampai terakhir
Jika ingin mengambil data baris per kolom tertentu gunakan gabungan cara akses kolom dan baris
Misalnya ingin menampilkan kolom Name, Sex, Age, Survived dan Embarked
df[['Name', 'Sex', 'Age', 'Survived','Embarked']][10:15]
Untuk selanjutnya kita akan melakukan operasi-operasi di Pandas DataFrame.. Stay Tuned Gaes 😀
terima kasih penjelasannya, sangat mencerahkan dan simple, mudah dipahami dan dipraktekkan
Terima kasih atas penjelasan mengenai array numpy
Terima kasih penjelasan mengenai array numpy