pandas dataframe
Python

Python Pandas : Pandas DataFrame

DataFrame adalah struktur data 2 dimensi yang berbentuk tabular (mempunyai baris dan kolom)

Hampir semua data tidak hanya memiliki 1 kolom tetapi lebih sehingga lebih cocok menggunakan pandas DataFrame untuk mengolahnya

DataFrame dapat dibuat lebih dari satu Series atau dapat kita katakan bahwa DataFrame adalah kumpulan Series

Membuat Pandas DataFrame

Ada beberapa cara untuk membuat DataFrame antara lain melalui List, Dict, Series, File atau DataFrame lain

~ Untuk implementasi DataFrame anda dapat gunakan Jupyter Notebook

#1 DatarFrame dari List

Pertama import terlebih dahulu library Pandas

import pandas as pd

Selanjutnya buat variabel data yang menyimpan beberapa List dan gunakan fungsi DataFrame() untuk membuat DataFrame baru

data = {'satu': [1,1,1,1,1],
        'dua' : [2,2,2,2,2],
        'tiga': [3,3,3,3,3]}

df = pd.DataFrame(data)

df.head()

Hasilnya adalah seperti ini

Kita juga bisa memberikan index label seperti pada Series

data = {'satu': [1,1,1,1,1],
        'dua' : [2,2,2,2,2],
        'tiga': [3,3,3,3,3]}

df = pd.DataFrame(data, index=['a','b','c','d','e'])

df.head()

Hasilnya adalah index default berupa angka menjadi bentu alfabet yang telah kita set

#2 DataFrame dari Dictionary

Kita juga bisa membuat DataFrame dari kumpulan Dictionary yang dibungkan di dalam List

data = [{'satu': 1, 'dua': 2,'tiga': 3}, # index ke-0
        {'satu': 1, 'dua': 2,'tiga': 3}, # index ke-1
        {'satu': 1, 'dua': 2,'tiga': 3}] # index ke-3

df = pd.DataFrame(data)

df.head()

Hasilnya adalah

#3 DataFrame dari Series

Kita dapat juga membuat DataFrame dari Series

data = {'satu': pd.Series([1,1,1,1,1]),
        'dua' : pd.Series([2,2,2,2,2]),
        'tiga': pd.Series([3,3,3,3,3])}

df = pd.DataFrame(data)

df.head()

Hasilnya adalah

#4 DataFrame dari File

Sebenarnya lebih cocok disebut dengan membaca file dengan DataFrame

Kita bisa gunakan fungsi read_csv() seperti yang sudah kita coba di materi Series

Misalnya kita akan membaca file CSV maka caranya seperti ini

df = pd.read_csv('titanic.csv')
df.head()

dan hasilnya seperti ini

Pandas tidak hanya bisa membaca file format CSV tetapi format-format lainnya seperti JSON, XLSX, TXT, XML dan sebagainya yang akan kita cover di artikel selanjutnya

#5 DataFrame dari DataFrame lain

Terkadang kita ingin menduplikasi dataframe maka caranya adalah sebagai berikut

df = pd.read_csv('titanic.csv')

#duplicate dataframe
df_baru = df

#show data
df_baru.head()

Akses DataFrame

Kita akan menggunakan dataset titatic. Silahkan download dulu datasetnya di artikel sebelumnya

# Akses Kolom

Untuk mengakses data berdasarkan kolom gunakan [‘nama kolom’]

Misal memanggil 1 kolom dari data titanic

df = pd.read_csv('titanic.csv')
df['Name']

Hasilnya adalah

Jika ingin memanggil lebih dari satu kolom maka menggunakan double “[ [ ] ]”

df[['Name', 'Sex']]
# Akses Baris

Untuk mengakses baris kita bisa gunakan fungsi loc dan iloc yang telah dibahas pada materi Pandas Series

Semisal kita ingin akses indeks ke-10

df.loc[10]

Jika ingin menampilkan data indeks ke-0 sampai ke 10 gunakan simbol ” : ” untuk mengambil range data atau dari indeks ke-10 sampai terakhir


Jika ingin mengambil data baris per kolom tertentu gunakan gabungan cara akses kolom dan baris

Misalnya ingin menampilkan kolom Name, Sex, Age, Survived dan Embarked

df[['Name', 'Sex', 'Age', 'Survived','Embarked']][10:15]

Untuk selanjutnya kita akan melakukan operasi-operasi di Pandas DataFrame.. Stay Tuned Gaes 😀

1 Comment

  1. terima kasih penjelasannya, sangat mencerahkan dan simple, mudah dipahami dan dipraktekkan

Leave a Reply

Your email address will not be published. Required fields are marked *