You are on page 1of 1

WEB SCRAPPING

 Halaman website
https:// = protokol
id.wikipedia.org = host
xxx
 Perbedaan http dengan https
https : s nya itu secure, istilahnya kalau terbuka (http) orang bisa ngintip, sedangkan secure
(https) orang gabisa ngintip
 Html
Dibagi jadi 2 bagian
1. Head
Di dalamnya ada meta, title, style
2. Body
Di dalamnya ada h1 (header), section (paragraph), footer
Section terbagi Langi menjadi xxx
 Parsing HTML
Bagian-bagian HTML yang diambil
(+) Kelebihan ;
1. Bisa digunakan untuk mayoritas situs berita
2. Proses pengumpulan data relative cepat

(-) Kekurangan

 Caranya
1. Buka detik.com
2. Pilih berita
3. Klik kanan, inspect
4. Class di h1 yang kita ambil
5. Pake p

You might also like