Scraping Halaman Web di Python Dengan Beautiful Soup: Pencarian dan Modifikasi DOM

Indonesian (Bahasa Indonesia) translation by Kurniawan Sugi Purwanto (you can also view the original English article)

Di tutorial terakhir, Anda belajar tentang dasar-dasar library Beautiful Soup. Selain navigasi DOM tree, Anda juga bisa mencari elemen dengan class atau id yang diberikan. Anda juga bisa memodifikasi DOM tree dengan library ini.

Di tutorial ini, Anda akan belajar beberapa metode berbeda yang akan membantu Anda dengan riset dan modifikasi. Kita akan melakukan scraping pada halaman Wikipedia yang sama tentang Python dari tutorial terbaru kita.

Filter untuk Pencarian di Tree

Beautiful Soup punya banyak metode untuk mencari DOM tree. Berbagai metode tersebut sangat mirip dan menggunakan jenis filter yang sama sebagai argumen. Oleh karenanya, masuk akal jika sebelumnya harus dipahami dengan benar tentang filter yang berbeda sebelum membaca tentang metode. Saya akan menggunakan metode find_all() yang sama untuk menjelaskan perbedaan antara filter-filter yang berbeda.

Filter paling sederhana yang bisa dimasukkan ke metode pencarian apa saja adalah string. Maka Beautiful Soup akan mencari ke dalam dokumen untuk menemukan tag yang secara tepat sesuai dengan stringnya.

for heading in soup.find_all('h2'):
    print(heading.text)
    
# Contents
# History[edit]
# Features and philosophy[edit]
# Syntax and semantics[edit]
# Libraries[edit]
# Development environments[edit]
# ... and so on.

Anda juga bisa memasukkan suatu ekspresi regular objek ke metode find_all(). Kali ini, Beautiful Soup akan memfilter tree dengan mencocokkan semua tag terhadap ekspresi regular yang diberikan.

import re

for heading in soup.find_all(re.compile("^h[1-6]")):
    print(heading.name + ' ' + heading.text.strip())
    
# h1 Python (programming language)
# h2 Contents
# h2 History[edit]
# h2 Features and philosophy[edit]
# h2 Syntax and semantics[edit]
# h3 Indentation[edit]
# h3 Statements and control flow[edit]
# ... an so on.

Code ini akan mencari semua tag yang dimulai dengan huruf "h" dan diikuti suatu digit dari 1 sampai 6. Dengan kata lain, akan mencari semua tag heading di dalam dokumen.

Daripada menggunakan regex, Anda bisa mendapat hasil yang sama dengan memasukkan daftar semua tag yang Anda ingin Beautiful Soup mencocokkannya dengan dokumen.

1	for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]):
2	print(heading.name + ' ' + heading.text.strip())

Anda juga bisa memasukkan True sebagai parameter untuk metode find_all(). Kode tersebut akan mengembalikan semua tag yang dimaksud dalam dokumen. Keluaran di bawah ini menunjukkan bahwa ada 4.339 tag di halaman Wikipedia yang kita parsing.

1	len(soup.find_all(True))
2	# 4339

Jika Anda masih tidak mampu menemukan apa yang Anda cari dengan filter-filter di atas, Anda bisa menetapkan fungsi Anda sendiri yang menjadikan suatu elemen sebagai satu-satunya argumennya. Fungsi tersebut juga harus mengembalikan True jika cocok dan False jika sebaliknya. Tergantung kebutuhan, Anda bisa membuat fungsinya sekompleks yang diperlukan untuk menyelesaikan tugasnya. berikut adalah suatu contoh yang sangat sederhana:

def big_lists(tag):
    return len(tag.contents) > 20 and tag.name == 'ul'
    
len(soup.find_all(big_lists))
# 13

Fungsi di atas menelusuri halaman Wikipedia yang sama tentang Python dan mencari daftar tak tersusun yang memiliki lebih dari 20 anak.

Mencari DOM Tree Dengan Menggunakan Fungsi-Fungsi Internal

Salah satu metode paling terkenal untuk mencari di DOM adalah find_all(). Metode tersebut akan menelusuri semua turunan tag dan mengembalikan daftar semua turunan yang cocok dengan kriteria pencarian. Metode ini memiliki tanda sebagai berikut:

1	find_all(name, attrs, recursive, string, limit, **kwargs)

Argumen name adalah nama tag yang Anda ingin fungsi ini mencarinya sambil menelusuri tree. Anda boleh memberikan string, daftar, ekspresi regular, fungsi, atau nilai True sebagai sebuah nama.

Anda juga bisa memfilter elemen-elemen di DOM tree berdasarkan atribut-atribut yang berbeda seperti id, href, dsb. Anda juga bisa mendapat semua elemen dengan atribut khusus kendatipun nilainya menggunakan attribute=True. Mencari elemen dengan kelas khusus berbeda dibandingkan mencari aribut-atribut regular. Karena class adalah kata kunci yang reserved fi Python, Anda harus menggunakan argumen kata kunci class_ ketika mencari elemen dengan kelas khusus.

import re

len(soup.find_all(id=True))
# 425

len(soup.find_all(class_=True))
# 1734

len(soup.find_all(class_="mw-headline"))
# 20

len(soup.find_all(href=True))
# 1410

len(soup.find_all(href=re.compile("python")))
# 102

Anda bisa melihat dokumen ini punya 1.734 tag dengan atribut class dan 425 tag dengan atribut id. Jika Anda hanya butuh sedikit dari hasil awal, Anda bisa memasukkan angka ke metode itu sebagai nilai dari limit. Dengan memasukkan nilai ini, kita memberikan instruksi pada Beutiful Soup untuk berhenti mencari lebih banyak elemen setelah mendapatkan jumlah tertentu. Berikut contohnya:

soup.find_all(class_="mw-headline", limit=4)

# <span class="mw-headline" id="History">History</span>
# <span class="mw-headline" id="Features_and_philosophy">Features and philosophy</span>
# <span class="mw-headline" id="Syntax_and_semantics">Syntax and semantics</span>
# <span class="mw-headline" id="Indentation">Indentation</span>

Ketika Anda menggunakan metode find_all(), Beautiful Soup diberitahu untuk menelusuri semua turunan tag yang diberikan dan menemukan apa yang Anda cari. Terkadang, Anda ingin mencari satu elemen saja di turunan langsung suatu tag. Ini bisa dilakukan dengan memasukkan recursive=False ke metode find_all().

len(soup.html.find_all("meta"))
# 6

len(soup.html.find_all("meta", recursive=False))
# 0

len(soup.head.find_all("meta", recursive=False))
# 6

Jika Anda tertarik menemukan satu hasil saja untuk kueri pencarian tertentu, Anda bisa menggunakan metode find() untuk melakukan hal itu daripada memasukkan limit=1 ke dalam find_all(). Satu-satunya perbedaan antara hasil yang dikembalikan kedua metode tersebut adalah bahwa find_all() mengembalikan daftar yang berisi satu elemen saja sedangkan find() sekedar mengembalikan hasilnya.

soup.find_all("h2", limit=1)
# [<h2>Contents</h2>]

soup.find("h2")
# <h2>Contents</h2>

Metode find() dan find_all() menelusuri semua turunan tag yang diberikan untuk mencari suatu elemen. Ada sepuluh metode lain yang sangat mirip dan bisa Anda gunakan untuk iterasi DOM tree ke arah yang berbeda.

find_parents(name, attrs, string, limit, **kwargs)
find_parent(name, attrs, string, **kwargs)

find_next_siblings(name, attrs, string, limit, **kwargs)
find_next_sibling(name, attrs, string, **kwargs)

find_previous_siblings(name, attrs, string, limit, **kwargs)
find_previous_sibling(name, attrs, string, **kwargs)

find_all_next(name, attrs, string, limit, **kwargs)
find_next(name, attrs, string, **kwargs)

find_all_previous(name, attrs, string, limit, **kwargs)
find_previous(name, attrs, string, **kwargs)

Metode find_parent() dan find_parents() melintasi DOM tree untuk menemukan elemen yang diberikan. Sedangkan find_next_sibling() dan find_next_siblings() akan mengiterasi semua sibling elemen yang muncul setelah yang ada saat ini. Dengan cara serupa, metode find_previous_sibling() dan find_previous_siblings() akan mengiterasi semua sibling elemen yang muncul sebelum yang saat ini.

Metode find_next() dan find_all_next() akan mengiterasi semua tag dan string yang muncul setelah elemen saat ini. Dengan cara serupa, metode find_previous() dan find_all_previous() akan mengiterasi semua tag dan string yang muncul sebelum elemen saat ini.

Anda juga bisa mencari elemen dengan menggunakan selektor CSS dengan bantuan metode select(). Berikut ada beberapa contoh:

len(soup.select("p a"))
# 411

len(soup.select("p > a"))
# 291

soup.select("h2:nth-of-type(1)")
# [<h2>Contents</h2>]

len(soup.select("p > a:nth-of-type(2)"))
# 46

len(soup.select("p > a:nth-of-type(10)"))
# 6

len(soup.select("[class*=section]"))
# 80

len(soup.select("[class$=section]"))
# 20

Memodifikasi Tree

Anda tidak hanya akan bisa menelusuri DOM tree untuk menemukan elemen, tetapi juga memodifikasinya. Sangat mudah mengganti nama tag dan memodifikasi atribut-atributnya.

heading_tag = soup.select("h2:nth-of-type(2)")[0]

heading_tag.name = "h3"
print(heading_tag)
# <h3><span class="mw-headline" id="Features_and_philosophy">Feat...

heading_tag['class'] = 'headingChanged'
print(heading_tag)
# <h3 class="headingChanged"><span class="mw-headline" id="Feat...

heading_tag['id'] = 'newHeadingId'
print(heading_tag)
# <h3 class="headingChanged" id="newHeadingId"><span class="mw....

del heading_tag['id']
print(heading_tag)
# <h3 class="headingChanged"><span class="mw-headline"...

Melanjutkan dari contoh terakhir kita, Anda bisa mengganti isi tag dengan string yang diberikan dengan menggunakan atribut .string. Jika Anda tidak ingin mengganti kontennya tetapi menambahkan sesuatu yang ekstra di akhir tag, gunakan metode append().

Dengan cara serupa, jika Anda ingin memasukkan sesuatu ke dalam tag di lokasi tertentu, Anda bisa menggunakan metode insert(). Parameter pertama untuk metode ini adalah posisi atau indeks yang ke situ Anda ingin memasukkan kontennta, dan parameter kedua adalah kontennya itu sendiri. Anda bisa menghapus semua konten di dalam tag dengan metode clear(). Yang tersisa adalah tag itu sendiri dan atributnya.

heading_tag.string = "Features and Philosophy"
print(heading_tag)
# <h3 class="headingChanged">Features and Philosophy</h3>

heading_tag.append(" [Appended This Part].")
print(heading_tag)
# <h3 class="headingChanged">Features and Philosophy [Appended This Part].</h3>

print(heading_tag.contents)
# ['Features and Philosophy', ' [Appended This Part].']

heading_tag.insert(1, ' Inserted this part ')
print(heading_tag)
# <h3 class="headingChanged">Features and Philosophy Inserted this part  [Appended This Part].</h3>

heading_tag.clear()
print(heading_tag)
# <h3 class="headingChanged"></h3>

Di awal bagian ini, Anda memilih heading level dua dokumen dan mengubahnya ke heading level tiga. Dengan memakai selektor yang sama, sekarang akan ditunjukkan heading level dua berkutnya yang muncul setelah yang saat ini. Hal ini masuk akan karena heading yang asli bukan lagi heading level dua.

Heading yang asli sekarang bisa dipilih dengan h3:nth-of-type(2). Jika Anda ingin sepenuhnya menghapus dari tree suatu elemen atau tag berikut semua konten di dalamnya, Anda bisa menggunakan metode decompose().

soup.select("h3:nth-of-type(2)")[0]
# <h3 class="headingChanged"></h3>

soup.select("h3:nth-of-type(3)")[0]
# <h3><span class="mw-headline" id="Indentation">Indentation</span>...

soup.select("h3:nth-of-type(2)")[0].decompose()
soup.select("h3:nth-of-type(2)")[0]
# <h3><span class="mw-headline" id="Indentation">Indentation</span>...

Begitu Anda selesai mendekomposisi atau menghapus heading yang asli, heading di titik ketiga akan mengambil posisinya.

Jika Anda ingin menghapus suatu tag dan kontennya dari tree tetapi tidak ingin sepenuhnya memusnahkan tagnya, Anda bisa menggunakan metode extract(). Metode ini akan mengembalikan tagnya jika diekstrak. Sekarang Anda akan memiliki dua tree berbeda yang bisa di-parse. Root tree yang baru adalah tag yang baru saja Anda ekstrak.

1	heading_tree = soup.select("h3:nth-of-type(2)")[0].extract()
2
3	len(heading_tree.contents)
4	# 2

Anda juga bisa mengganti tag di dalam tree dengan sesuatu yang lain sesuai pilihan Anda dengan menggunakan metode replace_with(). Metode ini akan mengembalikan tag atau string yang digantikannya. Anda bisa terbantu dengan ini jika Anda ingin meletakkan konten yang digantikan di bagian lain dokumen.

soup.h1
# <h1 class="firstHeading">Python (programming language)</h1>

bold_tag = soup.new_tag("b")
bold_tag.string = "Python"

soup.h1.replace_with(bold_tag)

print(soup.h1)
# None
print(soup.b)
# <b>Python</b>

Dalam kode di atas, heading utama dokumen telah diganti dengan suatu tag b. Dokumennya tidak lagi punya tag h1, dan itulah mengapa sekarang print(soup.h1) menampilkan None.

Pemikiran Penutup

Setelah membaca dua tutorial dalam seri ini, Anda akan bisa mem-parse halaman web yang berbeda dan mengekstrak data penting dari dokumennya. Anda juga bisa memanggil halaman web aslinya, memodifikasinya sesuai kebutuhan, dan menyimpan versi yang telah dimodifikasi secara lokal.

Jika Anda ada pertanyaan terkait tutorial ini, beritahu saya lewat komentar di bawah ini.