() translation by (you can also view the original English article)
Dalam tutorial ini saya akan memberikan pengenalan mendasar tentang pandas. Oh, yang saya maksudkan bukan hewan panda, namun sebuah librari Python!
Seperti yang disebutkan dalam website pandas:
pandas adalah sebuah librari berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan dan berkinerja tinggi untuk bahasa pemrograman Python.
Dengan demikian, pandas
adalah librari analisis data yang memiliki struktur data yang kita perlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang cocok untuk analisis (yaitu tabel). Penting untuk dicatat di sini bahwa karena pandas melakukan tugas penting seperti menyelaraskan data untuk perbandingan dan penggabungan set data, penanganan data yang hilang, dll, itu telah menjadi sebuah librari de facto untuk pemrosesan data tingkat tinggi dalam Python (yaitu statistik). Nah, pandas
mulanya didesain untuk menangani data finansial, dikarenakan altenatif umum adalah menggunakan spreadsheet (misalnya Microsoft Excel).
Struktur data dasar pandas
dinamakan DataFrame
, yaitu sebuah koleksi kolom berurutan dengan nama dan jenis, dengan demikian merupakan sebuah tabel yang tampak seperti database dimana sebuah baris tunggal mewakili sebuah contoh tunggal dan kolom mewakili atribut tertentu. Harus dicatat di sini bahwa elemen dalam berbagai kolom mungkin berapa jenis yang berbeda.
Jadi, garis bawahnya adalah bahwa librari pandas
menyediakan kita dengan struktur data function yang diperlukan untuk analisis data.
Menginstal Pandas
Mari lihat bagaimana kita dapat menginstal pandas
pada mesin kita dan menggunakannya untuk analisis data Cara termudah untuk menginstal pandas
dan menghindari permasalahan dependency adalah dengan menggunakan Anaconda dimana pandas
merupakan bagiannya. Seperti yang disebutkan dalam halaman download Anaconda:
Anaconda merupakan distribusi Python yang benar-benar gratis (termasuk untuk penggunaan komersial dan redistribusi). Itu berisi lebih dari 400 paket Python paling populer untuk sains, matematika, tehnik, dan analisis data
Distribusi Anaconda merupakan cross-platform, yang berarti bahwa itu dapat diinstal pada mesin OS X, Windows, dan Linux. Saya akan menggunakan installer OS X karena saya berkerja menggunakan mesin OS X El Capitan, namun tentu saja kamu dapat memilih installer yang cocok dengan sistem operasimu. Saya akan melanjutkan dengan installer grafikal (hati-hati, ukurannya 339 MB).



Setelah mendownload installer, cukup ikuti tahap instalasi dan kamu sudah siap!
Semua yang perlu kita lakukan sekarang untuk menggunakan pandas
adalah mengimpor paket sebagai berikut:
1 |
import pandas as pd |
Struktur Data Pandas
Saya telah menyebutkan salah satu struktur data pandas
di atas, DataFrame
. Saya akan menjelaskan struktur data ini di dalam section ini sebagai tambahan untuk struktur data pandas
lainnya, Series
. Ada struktur data lainnya bernama Panel
, namun saya tidak akan menjelaskan itu di dalam tutorial ini karena itu tidak sering digunakan, seperti yang disebutkan di dalam dokumentasi. DataFrame
adalah struktur data 2D, Series
adalah struktur data 1D, dan Panel
adalah struktur data 3D dan lebih tinggi.
DataFrame
DataFrame
adalah struktur data tabular yang disusun pada kolom dan baris berurut. Untuk membuatnya lebih jelas, mari lihat contoh pembuatan sebuah DataFrame
(tabel) dari kamus sebuah daftar. Contoh berikut menunjukkan sebuah kamus berisi dua kunci, Name dan Age, dan daftar nilainya.
1 |
import pandas as pd |
2 |
import numpy as np |
3 |
|
4 |
name_age = {'Name' : ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], |
5 |
'Age' : [32, 55, 20, 43, 30]} |
6 |
data_frame = pd.DataFrame(name_age) |
7 |
print data_frame |
Jika kamu menjalankan script di atas, kamu harusnya mendapatkan sebuah input mirip dengan di bawah ini:
%20(1).png)
%20(1).png)
%20(1).png)
Perhatikan bahwa constructor DataFrame
mengurutkan kolom secara alfabetis. Jika kamu ingin mengubah urutan kolom, kamu dapat mengetikkan hal berikut di bawah data_frame
di atas:
1 |
data_frame_2 = pd.DataFrame(name_age, columns = ['Name', 'Age']) |
Untuk melihat hasilnya, cukup ketik: print data_frame_2
.
Katakan kamu tidak ingin menggunakan label default 0,1,2..., dan ingin menggunakan a, b, c,... sebagai gantinya. Dalam kasus itu, kamu dapat menggunakan index
di dalam script di atas sebagai berikut:
1 |
data_frame_2 = pd.DataFrame(name_age, columns = ['Name', 'Age'], index = ['a', 'b', 'c', 'd', 'e']) |
Itu sangat bagus, bukan? Dengan menggunakan DataFrame
, kita dapat melihat data kita tertata dalam sebuah bentuk tabular.
Series
Series
adalah struktur data pandas
kedua yang akan saya bicarakan. Series
adalah object satu dimensi (1D) yang serupa dengan kolom di dalam tabel. Jika kita ingin membuat sebuah Series
untuk daftar nama, kita dapat melakukan di bawah ini:
1 |
series = pd.Series(['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], |
2 |
index = [1, 2, 3, 4, 5]) |
3 |
print series |
Output script ini akan berupa sebagai berikut:
.png)
.png)
.png)
Perhatikan bahwa kita menggunakan index
untuk melabeli data. Jika tidak, label default akan mulai dari 0,1,2...
Function Pandas
Dalam section ini, saya akan menunjukkan contoh beberapa function yang dapat kita gunakan dengan DataFrame
dan Series
.
Head dan Tail
Function head()
dan tail()
mengijinkan kita untuk melihat sebuah sampel data, khususnya ketika kita memiliki jumlah entri yang besar. Jumlah default dari elemen yang ditampilkan adalah 5, namun kamu dapat mengkustomasi angkanya sesukamu.
Mari katakan kita memiliki sebuah Series
yang disusun dari 20,000 item (angka) secara acak:
1 |
import pandas as pd |
2 |
import numpy as np |
3 |
series = pd.Series(np.random.randn(20000)) |
Dengan menggunakan method head()
dan tail()
untuk mengamati lima item pertama dan lima item terakhir, kita dapat melakukan di bawah ini:
1 |
print series.head() |
2 |
print series.tail() |
Output script ini harusnya serupa dengan di bawah (perhatikan bahwa kamu mungkin memiliki nilai yang berbeda karena kita membentuk nilai acak):
%20(1).png)
%20(1).png)
%20(1).png)
Add
Mari ambil contoh function add()
, dimana kita akan berusaha untuk menambahkan dua data frames sebagai berikut:
1 |
import pandas as pd |
2 |
|
3 |
dictionary_1 = {'A' : [5, 8, 10, 3, 9], |
4 |
'B' : [6, 1, 4, 8, 7]} |
5 |
dictionary_2 = {'A' : [4, 3, 7, 6, 1], |
6 |
'B' : [9, 10, 10, 1, 2]} |
7 |
data_frame_1 = pd.DataFrame(dictionary_1) |
8 |
data_frame_2 = pd.DataFrame(dictionary_2) |
9 |
data_frame_3 = data_frame_1.add(data_frame_2) |
10 |
print data_frame_1 |
11 |
print data_frame_2 |
12 |
print data_frame_3 |
Output dari script di atas adalah:
%20(2).png)
%20(2).png)
%20(2).png)
Kamu dapat juga melakukan proses penambahan ini dengan cukup menggunakan operator +
: data_frame_3 = data_frame_1 + data_frame_2
.
Describe
Sebuah function pandas
yang sangat bagus adalah describe()
, yang membuat berbagai ringkasan statistik data kita. Sebagai contoh dalam section terakhir, mari lakukan berikut ini:
1 |
print data_frame_3.describe() |
Output dari operasi ini akan berupa:
%20(1).png)
%20(1).png)
%20(1).png)
Sumber Lebih Lanjut
Ini hanyalah sebuah goresan pada permukaan pandas
dalam Python. Untuk lebih detail, kamu dapat memeriksa dokumentasi pandas
, dan kamu juga dapat memeriksa beberapa buku seperti Mempelajari Pandas dan Menguasai Pandas.
Kesimpulan
Ilmuwan terkadang perlu melakukan beberapa operasi statistik dan menampilkan beberapa grafik rapi yang menuntut mereka untuk menggunakan sebuah bahasa pemrograman. Namun, pada saat yang sama, mereka tidak ingin menghabiskan terlalu banyak waktu atau dihadapkan dengan kurva pembelajaran yang serius dalam melakukan tugas semacam itu.
Seperti yang kita lihat dalam tutorial ini, pandas
mengijinkan kita untuk menyajikan ulang data dalam bentuk tabular dan melakukan beberapa operasi pada tabel tersebut dalam cara yang sangat sederhana. Dengan mengkombinasikan pandas
dengan librari Python lainnya, ilmuwan bahkan dapat melakukan lebih banyak tugas lanjutan seperti menggambar grafik khusus untuk data mereka.
Dengan demikian, pandas
merupakan sebuah librari dan titik awal yang berguna untuk ilmuwan, ahli ekonomi, ahli statistik, dan siapapun yang ingin melakukan beberapa tugas analisis data.