Dalam dunia riil data secara umum berbentuk tabular seperti format CSV, XLSX,JSON,XML dan lainnya
Untuk melakukan manipulasi dan pemahaman data kita sudah belajar tentang Pandas
Sekarang kita akan coba kombinasikan Pandas dengan Matplotlib untuk melakukan visualisasi data 2 dimensi
Let’s Code
Kita gunakan dataset titanic yang sudah kita coba di artikel sebelumnya
Panggil titanic.csv dengan fungsi Pandas read_csv() kemudian buat bar plot dengan sumbu X adalah kolom PassangerId dan sumbu Y adalah kolom Age
import matplotlib.pyplot as plt %matplotlib inline # ambil sampel data 10 baris df_10= df.head(10) fig = plt.figure(figsize=(7,3)) ax = fig.add_axes([0,0,1,1]) ax.set_xlabel('Age') ax.set_ylabel('PassangerID') ax.bar(df_10['PassengerId'],df_10['Age']) plt.show()
Hasilnya adalah
Sekarang kita coba membuat histogram dari seluruh dataset dengan 20 interval
Kolom yang kita gunakan adalah kolom Age tetapi missing value harus kita hapus terlebih dahulu dengan fungsi dropna()
import matplotlib.pyplot as plt %matplotlib inline plt.hist(df['Age'].dropna(), bins=20) plt.show()
Hasilnya adalah
Sekarang kita coba membuat pie chart dengan melihat distribusi Age yang digroup berdasarkan orang yang survive dan tidak survive
import matplotlib.pyplot as plt # kita group age berdasarkan orang yang survived dfsurvived = df.groupby('Survived').sum()['Age'].reset_index() fig = plt.figure() ax = fig.add_axes([0,0,1,1]) ax.axis('equal') ax.pie(dfsurvived['Age'],labels=dfsurvived['Survived'],autopct='%1.2f%%') plt.show()
Hasilnya adalah