Professional Documents
Culture Documents
IDA-lab-4- «Використання бібліотеки BeautifulSoup для парсингу HTML-сторінок та збору даних про статті з новинного сайту»
IDA-lab-4- «Використання бібліотеки BeautifulSoup для парсингу HTML-сторінок та збору даних про статті з новинного сайту»
Хід роботи
4.1. Отримання HTML-коду веб-сторінки з використанням бібліотеки
requests.
import requests
url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
html_code = response.text
print(html_code)
else:
print('Error:', response.status_code)
У цьому коді ми використовуємо функцію requests.get() для відправки
GET-запиту на вказану веб-сторінку за допомогою URL-адреси. Якщо запит
був успішним (статус код 200), ми можемо отримати HTML-код сторінки за
допомогою властивості text об'єкта відповіді (response).
Отриманий HTML-код можна використовувати для подальшої обробки
та аналізу за допомогою бібліотеки BeautifulSoup.
import requests
from bs4 import BeautifulSoup
url = 'https://example.com/news'
response = requests.get(url)
import requests
from bs4 import BeautifulSoup
# Виведення результатів
print(articles_list)
Отриманий результат буде містити список словників, де кожен словник
містить дані про одну статтю у вигляді пари ключ-значення для заголовку та
посилання. Цей список може бути подальше оброблений та використаний для
аналізу даних, наприклад, для знаходження статей за певною темою або для
відображення списку статей на веб-сторінці.
# Побудова діаграми
plt.bar(categories.keys(), categories.values())
plt.title('Розподіл статей за категоріями')
plt.xlabel('Категорії')
plt.ylabel('Кількість статей')
plt.show()
У цьому коді ми створюємо словник categories, який містить категорії
статей та кількість статей у кожній категорії. Далі ми використовуємо метод
bar бібліотеки matplotlib для побудови діаграми з категоріями на вісі x та
кількістю статей на вісі y. Після цього ми додаємо заголовок, підписи вісей та
відображаємо діаграму за допомогою методу show.
Цей код є лише прикладом, і він може бути модифікований для
відображення будь-яких інших даних. Бібліотека matplotlib дозволяє
побудовувати різноманітні типи діаграм, графіків, гістограм та інших
візуалізацій даних.
Контрольні запитання
1. Що таке парсинг HTML-сторінок і для чого він використовується?
2. Які бібліотеки Python можуть бути використані для парсингу HTML-
сторінок?
3. Що таке об'єкт BeautifulSoup і як він пов'язаний з парсингом HTML-
сторінок?
4. Які функції бібліотеки BeautifulSoup можуть бути використані для
знаходження елементів HTML-сторінки?
5. Які методи можуть бути використані для отримання даних з елементів
HTML-сторінки?
6. Як можна зберегти отримані дані в структурованому вигляді?
7. Як можна візуалізувати отримані дані з використанням Python?