Blog Details

Belajar cara scrape website dengan python dan beautiful soup

Belajar cara scrape website dengan python dan beautiful soup – Kali ini riffamedia akan berbagi tutorial Belajar cara scrape website dengan python dan beautiful soup. Sebelum kita mememulai materi alangkah baiknya rekan rekan semua membacanya sambil mempraktekan nya agar cepat dalam memahami. Untuk itu silahkan rekan rekan install dulu python nya. Setelah terinstall rekan rekan bisa install modul beautifull soup dan install request, dengan cara mengetikan di cmd bagi yang memakai windows, dan bisa memakai terminal bagi yang memakai linux.

Cara menginstall Beautiful Soup

pip install beautifulsoup4

Kalau yang menggunakan pip3 rekan rekan bisa install dengan perintah

	
pip3 install beautifulsoup4

Setalah itu jangan lupa juga install request. Karena request ini digunakan untuk scrape website. Sedangkan beautiful soup digunakan untuk extract data. kalian bisa menginstall request dengan mengetikan perintah

	
pip install request

Cukup dengan dua modul diatas, kita sudah bisa melakukan scrape website, dan juga kita bisa extract data dari website tersebut sesuai dengan keinginkata yang akan diambil.

Cara Scrape Website Dengan Request

	
import requests
from requests import get


url = "https://www.example.com/"
headers = {
    "Accept-Language": "en-US, en;q=0.5",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36"
}
results = requests.get(url, headers=headers)

Kode diatas adalah digunakan untuk scrapping, yaitu mendapatkan kode html dari website. Dalam kasus diatas kita mengambil data dari example.com. Jika kita ingin menampilkan kode html diatas, kita bisa melakukan dengan code berikut.

Untuk menampilkan dalam bentuk clean

print(results.text)

Untuk menampilkan dalam bentuk html

	
print(results.content)

Cara Scrape Website dan extract HTML dengan Beautiful Soup

Untuk memulai menggunakan beautiful shoup rekan rekan bisa import dulu beautiful soupnya di project rekan rekan semua

	
from bs4 import BeautifulSoup

Untuk mengubahnya kedalam format beautiful soup dan agar enak dilihat kode htmlnya, rekan rekan bisa mengubahnya dengan kode berikut

soup = BeautifulSoup(results.content, 'html.parser')

Sekarang saatnya hal yang paling penting dan paling menentukan dalam extract data, yaitu penentuan mana yang akan kita ambil, Karena banyak orang dipusingkan dibagian sini. Oleh karena itu anda tetap harus sembari praktek agar anda bisa lebih mendalami dan lebih paham.

Mencari Text Berdasarkan ID dengan bautiful soup

title = soup.find(id='namaid').text
print(title)

Extract semua link menggunakan beautiful soup

for link in soup.find_all('a'):
   anchor = link.attrs["href"]
   print(anchor)

Extract semua Tags yang memiliki atribute tertentu menggunakan beatiful soup

sebagai contoh kita memiliki code html berikut

	
<span property="nama_proerty">Ini Adalah Yang Igin Dicari</span>

Maka kita bisa mengextractnya dengan code beikut

allspan = soup.find_all("span")
for span in allspan:
    if span.has_attr('property') and  "Produk" not in span.text:       
    print(span.text.strip())

Extract Tags tertentu yang memiliki atribute tertentu menggunakan beatiful soup

sebagai contoh kita memiliki code html berikut

	
<span property="nama_proerty">Ini Adalah Yang Igin Dicari</span>

Maka kita bisa mengextractnya dengan code beikut

weight = soup.findAll("span", {"property": "nama_proerty"})[0].text
print(weight)