Belajar cara scrape website dengan python dan beautiful soup
Belajar cara scrape website dengan python dan beautiful soup – Kali ini riffamedia akan berbagi tutorial Belajar cara scrape website dengan python dan beautiful soup. Sebelum kita mememulai materi alangkah baiknya rekan rekan semua membacanya sambil mempraktekan nya agar cepat dalam memahami. Untuk itu silahkan rekan rekan install dulu python nya. Setelah terinstall rekan rekan bisa install modul beautifull soup dan install request, dengan cara mengetikan di cmd bagi yang memakai windows, dan bisa memakai terminal bagi yang memakai linux.
Cara menginstall Beautiful Soup
pip install beautifulsoup4
Kalau yang menggunakan pip3 rekan rekan bisa install dengan perintah
pip3 install beautifulsoup4
Setalah itu jangan lupa juga install request. Karena request ini digunakan untuk scrape website. Sedangkan beautiful soup digunakan untuk extract data. kalian bisa menginstall request dengan mengetikan perintah
pip install request
Cukup dengan dua modul diatas, kita sudah bisa melakukan scrape website, dan juga kita bisa extract data dari website tersebut sesuai dengan keinginkata yang akan diambil.
Cara Scrape Website Dengan Request
import requests
from requests import get
url = "https://www.example.com/"
headers = {
"Accept-Language": "en-US, en;q=0.5",
"User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36"
}
results = requests.get(url, headers=headers)
Kode diatas adalah digunakan untuk scrapping, yaitu mendapatkan kode html dari website. Dalam kasus diatas kita mengambil data dari example.com. Jika kita ingin menampilkan kode html diatas, kita bisa melakukan dengan code berikut.
Untuk menampilkan dalam bentuk clean
print(results.text)
Untuk menampilkan dalam bentuk html
print(results.content)
Cara Scrape Website dan extract HTML dengan Beautiful Soup
Untuk memulai menggunakan beautiful shoup rekan rekan bisa import dulu beautiful soupnya di project rekan rekan semua
from bs4 import BeautifulSoup
Untuk mengubahnya kedalam format beautiful soup dan agar enak dilihat kode htmlnya, rekan rekan bisa mengubahnya dengan kode berikut
soup = BeautifulSoup(results.content, 'html.parser')
Sekarang saatnya hal yang paling penting dan paling menentukan dalam extract data, yaitu penentuan mana yang akan kita ambil, Karena banyak orang dipusingkan dibagian sini. Oleh karena itu anda tetap harus sembari praktek agar anda bisa lebih mendalami dan lebih paham.
Mencari Text Berdasarkan ID dengan bautiful soup
title = soup.find(id='namaid').text
print(title)
Extract semua link menggunakan beautiful soup
for link in soup.find_all('a'):
anchor = link.attrs["href"]
print(anchor)
Extract semua Tags yang memiliki atribute tertentu menggunakan beatiful soup
sebagai contoh kita memiliki code html berikut
<span property="nama_proerty">Ini Adalah Yang Igin Dicari</span>
Maka kita bisa mengextractnya dengan code beikut
allspan = soup.find_all("span")
for span in allspan:
if span.has_attr('property') and "Produk" not in span.text:
print(span.text.strip())
Extract Tags tertentu yang memiliki atribute tertentu menggunakan beatiful soup
sebagai contoh kita memiliki code html berikut
<span property="nama_proerty">Ini Adalah Yang Igin Dicari</span>
Maka kita bisa mengextractnya dengan code beikut
weight = soup.findAll("span", {"property": "nama_proerty"})[0].text
print(weight)