Zadania cykliczne w Pythonie, czyli scrapowanie internetu raz dziennie

bigdata

5 minut czytania

Tomasz Kozon

14 kwi 2022

python

html5

json

javascript

selenium

heroku

Python jest jednym z najpopularniejszych języków programowania, który jest wykorzystywany do różnorodnych zadań, w tym do automatyzacji procesów. Jednym z przykładów zastosowania Pythonu jest scrapowanie danych z internetu.

Spis treści

Część 1

Część 2

Powiązane case studies

Baza Cosmetics - Marketplace kosmetyków premium

E-commerce, Web development

Signor Leone - konfigurator garniturów szytych na miarę. Wizualizacja wyglądu garderoby przed wizytą w salonie

Web development, E-commerce, UX/UI

Pokaż wszystkie case study

Umów się na bezpłatną konsultację

Twoje dane przetwarzamy zgodnie z naszą polityką prywatności.

Po przeczytaniu tego artykułu dowiesz się:

jak scrapować strony internetowe w Pythonie?
jak robić to codziennie o tej samej godzinie?
jak zrobić to z wykorzystaniem rozwiązania opartego na chmurze?

Z jakich rozwiązań skorzystam tym razem?

Python 3.6.2
Redis lub Apscheduler
BeautifulSoup, Selenium
Heroku

Artykuł podzielę na dwie części. Pierwsza dotyczyć będzie Scrapowania stron WWW i skupię się na detalach, lecz pominę tłumaczenie podstawowych funkcji. Druga będzie dotyczyć czegoś bardziej dla mnie interesującego, z czym musiałem się ostatnio zmierzyć, czyli z zadaniami cyklicznymi napisanymi w Pythonie.

Część 1

Dlaczego miałbym scrapować jakąkolwiek stronę internetową?

Nieczęsto się to zdarza w obecnych czasach, ale wyobraźcie sobie sytuację, że strona WWW nie ma zaimplementowanego API, nie jestem w stanie się z nią połączyć z wykorzystaniem zwykłego requests.get, a raczej wynik tej komendy zwróci mi nieustrukturyzowanego długiego stringa, ze wszystkimi znacznikami html, a nie ustrukturyzowanego JSONa. Nie mam również możliwości wygenerowania pliku .csv.

Z pomocą przychodzi nam w tym momencie Beautiful Soup, czyli biblioteka do scrapowania stron WWW w Pythonie. Nie będę dokładnie wyjaśniał zasad korzystania z niej, gdyż tutoriali jest naprawdę dużo.

Całość zamyka się z reguły w 2 krokach:

Krok 1.

Zobaczmy jak wygląda plik HTML interesującej nas strony www, a dokładniej przyjrzyjmy się znacznikom HTML otaczającym zawartość, którą będziemy się starali pobrać. Z reguły będzie to <a>,<li> lub temu podobne.

 import requests
from bs4 import BeautifulSoup 
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify()) 
url = 'http://www.agregat.stronazen.pl/blog2/'
r = requests.get(url) text = r.text

Krok 2.

W tej chwili możemy już swobodnie poruszać się po interesujących nas znacznikach. Beautiful Soup tworzy drzewo hierarchi, po którym poruszamy się tak jakbyśmy zaglądali wgłąb jakiegoś obiektu (<div><a> = div.a ) lub za pomocą funkcji findall. Odsyłam po szczegóły do dokumentacji.

Krok 3.

Pisałem, że całość powinna zamknąć się w dwóch krokach ? Powinna, ale większość nowoczesnych stron WWW nie jest statyczna i kontent , czyli np tabele danych, które nas interesują są generowane za pomocą JavaScript. W praktyce to oznacza, że danych które nas interesują może nie być w pobranym przez nas kodzie HTML

W tym momencie znam dwa rozwiązania wykorzystujące Selenium:

Przeczekać moment ładowania się strony WWW

from selenium import webdriver from bs4 import BeautifulSoup import time

browser=webdriver.Firefox() browser.get('http://webpage.com') time.sleep(15) soup=BeautifulSou

Gdy to nie działa, bo dane które nas interesują są generowane za pomocą JavaScript z pomocą przychodzi przeglądarka PhantomJS, która generuje z dowolnego kodu JS statyczny kod HTML, który jest już prosty do obróbki

driver = webdriver.PhantomJS()

PhantomJS powinien być już jednakże ostatecznością, gdy wszystkie inne rozwiązania zawiodą. Z reguły z większością przypadków i danych generowanych za pomocą JavaScript radziłem sobie za pomocą BeautifulSoup oraz requests.get()

Czy szukasz wykonawcy projektów IT ?

Sprawdź case studies

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Mój problem dotyczył regularnego scrapowania dużego serwisu internetowego. Na podstawie tych danych miałem zbudować statystyki. Aby statystyki były wiarygodne scrapowanie musiało się dokonywać zawsze o tej samej porze. Potrzebowałem właśnie narzędzia do regularnego uruchamiania skryptów w Pythonie. Chciałem skorzystać z prostego rozwiązania, ale jednocześnie przyszłościowego.

Zacząłem więc szukać, jak zawsze, najprostszych rozwiązań i dobrze udokumentowanych. Znajomi polecali Crona, ale nie do końca miałem przekonanie, że będzie to właśnie to czego szukam. Przypadkiem znalazłem harmonogram zadań w Windowsie , który jest w stanie uruchamiać skrypty napisane w Pythonie. Rozwiązanie trywialne i rozwiązujące mój aktualny problem, ale czy to byłoby rozwiązanie przyszłościowe ? Nie sądzę.

Poczytałem o innych zadaniach cyklicznych, tak jak regularne wysyłanie maili, raportów, wykonywanie odłożonych w czasie intensywnych obliczeniowo zadań dla aplikacji WWW – wiedziałem, że zwykły Windowsowy harmonogram zadań, to nie jest to czego szukam.

Z czego finalnie skorzystałem?

Najczęściej pojawiającymi się odpowiedziami było Celery, Apscheduler, Redis, RabbitMQ.

Czym jest Apscheduler?

Jest biblioteką w Pythonie i zdecydowanie najprostszym rozwiązaniem. Pozostałe rozwiązania pomimo, że posiadają funkcje schedulera nie jest to ich głównym zadaniem w aplikacjach by tworzyć cykliczne zadania. Redis służy również jako baza danych, czy też jako messenging broker, a Celery jest jednym z bardziej zaawansowanych narzędzi do wykonywania zadań asynchronicznie , czy też obsługi kolejek z zadaniami.

Dla moich potrzeb w zupełności wystarczyło wykorzystanie blokującego schedulera.

from apscheduler.schedulers.blocking import BlockingScheduler
sched = BlockingScheduler()
@sched.scheduled_job('interval', minutes=1) def extreme_conditions(): print("check for extreme conditions")
sched.start()

Nie byłbym sobą , gdybym chociaż nie liznął tematu Celery.

Jak się okazało Celery do poprawnego działania potrzebuje backendu w postaci messeging brokera. Nie miałem wcześniej doświadczenia z Redisem, a widząc jego częstotliwość w ogłoszeniach o pracę postanowiłem wykorzystać go jako backend. Istniała również możliwość wykorzystania słabo opisanego protokołu SQS od AWS oraz lepiej opisanego RabbitMQ. RabbitMQ byłby również dobrym rozwiązaniem, ale Redis jest również wykorzystywany jako baza danych, więc czemu miałbym w nim nie trzymać moich danych ? Warto przynajmniej spróbować, jeżeli już testuje jego implementację.

from celery import Celery from os import environ
app = Celery('task')
REDIS_URL = environ.get('REDISTOGO_URL','redis://localhost') app.conf.update( BROKER_URL=REDIS_URL, CELERY_TASK_SERIALIZER='json')
@app.on_after_configure.connect def periodic_tasks(sender, **kwargs): sender.add_periodic_task(10.0, test.s("extreme values occured"), name='every 10 seconds')
@app.task def test(arg): print(arg)

Kod podobnie nie różni się zbytnio od tego poprzedniego. Wyjaśnienie należy się głównie określeniu REDISTOGO – jest to po prostu dodatek do platformy Heroku. Polecane również było wykorzystanie CELERY_TASK_SERIALIZER ustawionego na json, ze względu na to, że domyślnie Celery wykorzystuje Pythonowego pickle, który może powodować później problemy – tak mamy sprawdzoną poprawność danych i możemy uniknąć w przyszłości problemów.

Co zrobić by nasz scheduler działał w chmurze?

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Krok 1 Instalacja Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Przygotowałem tym razem dwie wersje:

wersja Apscheduler

git clone https://github.com/MateuszKuba/PythonApschedulerHeroku

wersja Celery + Redistogo

git clone https://github.com/MateuszKuba/PythonCeleryPeriodicTask

Wyjaśnienia tym razem może wymagać jedynie plik procfile, który mówi Heroku jaki rodzaj aplikacji będziemy do niego wysyłać. Nie będzie to tym razem aplikacja webowa tylko tzw. clock

Krok 3 Przesłanie rozwiązania do chmury

heroku login git init git push heroku master heroku ps:scale clock=1

Ponownie wykorzystaliśmy bezpłatną wersję zarówno dodatku redistogo jak i samej funkcjonalności clock.

Co dalej?

często sam mam problem oglądając repozytoria na githubie, gdy problem mnie interesujący jest obudowany tysiącem innych funkcjonalności, dlatego sam postawiłem na prostotę i napisałem wszystko z osobna. Jeżeli temat Cię zainteresował to nie pozostaje nic innego jak połączyć wszystkie funkcjonalności. Napisać funkcję scrapującą serwis WWW, zwrócić wyniki do JSONA, ustawić zadanie i jego parametry, a następnie wszystko wyeksportować do chmury
kolejnym etapem mogłoby być ustawienie Redisa również jako repozytorium danych
można by było spróbować wykonywać niektóre zadania asynchronicznie i więcej jak jedno

Nasza oferta

Powiązane artykuły

BitBar: Czym jest i jak on rewolucjonizuje kompleksowe testowanie aplikacji mobilnych w chmurze

12 cze 2025

W świecie dynamicznie rozwijających się aplikacji mobilnych, niezawodność i szybkość testowania stają się kluczowymi elementami sukcesu. BitBar to zaawansowane narzędzie do testowania aplikacji mobilnych w chmurze, które umożliwia przeprowadzanie testów na setkach rzeczywistych urządzeń w sposób zautomatyzowany i skalowalny.

Tomasz Kozon

#testing

related-article-image-testowanie, mobilne, BitBar

Appwrite: wielofunkcyjna platforma do tworzenia aplikacji Backend-as-a-Service

9 maj 2025

Przygoda z tworzeniem aplikacji nigdy nie była prostsza, dzięki Appwrite - nowoczesnej, wielofunkcyjnej platformie Backend-as-a-Service. Co sprawia, że Appwrite wyróżnia się na tle innych rozwiązań typu BaaS? Czy dostosowana do potrzeb developerów funkcjonalność to klucz do sukcesu? Sprawdźmy.

Tomasz Kozon

#back-end

Google App Engine: Czym jest i jak działa?

5 maj 2025

Google App Engine to chmurowa platforma dostarczana przez Google, umożliwiająca deweloperom tworzenie, uruchamianie i rozwój aplikacji w zasobach Google. Znane również jako platforma 'Platform as a Service'(PaaS) oferuje skalowalne narzędzia i usługi, by efektywnie zarządzać pełnym cyklem życia aplikacji. Zrozumienie, jak funkcjonuje, może przynieść duże korzyści dla twojego projektu IT.

Tomasz Kozon

#back-end

Aplikacje mobilne — native czy hybrydowe?

28 mar 2025

Wybór odpowiedniej technologii do tworzenia aplikacji mobilnej to jedna z pierwszych i najważniejszych decyzji w procesie projektowania produktu cyfrowego. Dylemat: aplikacja natywna czy hybrydowa – dotyczy nie tylko aspektów technicznych, ale też strategicznych, takich jak czas realizacji, budżet czy skalowalność. Każde z tych podejść ma swoje zalety i ograniczenia, a optymalny wybór zależy od celów biznesowych i oczekiwań użytkowników.

Tomasz Kozon

#mobile

Najważniejsze technologie do tworzenia aplikacji webowych na 2025 rok

27 mar 2025

Tworzenie aplikacji webowych zmienia się z roku na rok – pojawiają się nowe narzędzia, frameworki i podejścia, które ułatwiają pracę programistom i poprawiają jakość końcowych produktów. W 2025 roku szczególnie widać nacisk na wydajność, automatyzację i lepsze doświadczenia użytkownika. Technologie stają się coraz bardziej inteligentne, szybkie i dostępne. W tym artykule przedstawiamy najważniejsze trendy i rozwiązania, które kształtują web development w nadchodzącym czasie.

Tomasz Kozon

#fullstack

Wized – czym jest i jak może pomóc w tworzeniu aplikacji bez kodu?

26 mar 2025

Tworzenie aplikacji webowych nigdy nie było tak dostępne jak dziś. Dzięki narzędziom no-code takim jak Wized, możesz zbudować rozbudowaną platformę internetową bez znajomości programowania. W połączeniu z Webflow, Wized daje twórcom ogromną swobodę – łącząc estetyczny front-end z dynamiczną logiką i integracjami zewnętrznymi. Jak to wszystko działa i co właściwie można zbudować z Wized? Sprawdź poniżej.

Tomasz Kozon

#web-design

Wprowadzenie do Payload CMS: Nowoczesny headless CMS

25 mar 2025

Payload CMS to jedno z najciekawszych rozwiązań w świecie nowoczesnych systemów zarządzania treścią. Łączy podejście headless z pełną kontrolą nad backendem i elastycznością, której często brakuje w innych CMS-ach. Skierowany przede wszystkim do developerów, pozwala tworzyć zaawansowane projekty bez kompromisów. W tym artykule przyjrzymy się bliżej, czym wyróżnia się Payload, jak działa i dlaczego warto mieć go na radarze przy budowie nowoczesnych aplikacji webowych.

Tomasz Kozon

#fullstack

Zobacz wszystkie artykuły powiązane z #bigdata

bigdata

Baza Cosmetics - Marketplace kosmetyków premium

Signor Leone - konfigurator garniturów szytych na miarę. Wizualizacja wyglądu garderoby przed wizytą w salonie

Umów się na bezpłatną konsultację

Część 1

Krok 1.

Krok 2.

Krok 3.

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Z czego finalnie skorzystałem?

Czym jest Apscheduler?

Co zrobić by nasz scheduler działał w chmurze?

Krok 1 Instalacja Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Krok 3 Przesłanie rozwiązania do chmury

Nasza oferta

Web development

Mobile development

E-commerce

Projektowanie UX/UI

Outsourcing

SEO

Powiązane artykuły

BitBar: Czym jest i jak on rewolucjonizuje kompleksowe testowanie aplikacji mobilnych w chmurze

Tomasz Kozon

Appwrite: wielofunkcyjna platforma do tworzenia aplikacji Backend-as-a-Service

Tomasz Kozon

Google App Engine: Czym jest i jak działa?

Tomasz Kozon

Aplikacje mobilne — native czy hybrydowe?

Tomasz Kozon

Najważniejsze technologie do tworzenia aplikacji webowych na 2025 rok

Tomasz Kozon

Wized – czym jest i jak może pomóc w tworzeniu aplikacji bez kodu?

Tomasz Kozon

Wprowadzenie do Payload CMS: Nowoczesny headless CMS

Tomasz Kozon