Zadania cykliczne w Pythonie, czyli scrapowanie internetu raz dziennie

bigdata

5 minut czytania

Tomasz Kozon

14 kwi 2022

python html5 json javascript selenium heroku

Python jest jednym z najpopularniejszych języków programowania, który jest wykorzystywany do różnorodnych zadań, w tym do automatyzacji procesów. Jednym z przykładów zastosowania Pythonu jest scrapowanie danych z internetu.

Spis treści

Część 1

Część 2

Powiązane case studies

Baza Cosmetics - Marketplace kosmetyków premium

E-commerce, Web development

Signor Leone - konfigurator garniturów szytych na miarę. Wizualizacja wyglądu garderoby przed wizytą w salonie

Web development, E-commerce, UX/UI

Pokaż wszystkie case study

Umów się na bezpłatną konsultację

Twoje dane przetwarzamy zgodnie z naszą polityką prywatności.

Po przeczytaniu tego artykułu dowiesz się:

jak scrapować strony internetowe w Pythonie?
jak robić to codziennie o tej samej godzinie?
jak zrobić to z wykorzystaniem rozwiązania opartego na chmurze?

Z jakich rozwiązań skorzystam tym razem?

Python 3.6.2
Redis lub Apscheduler
BeautifulSoup, Selenium
Heroku

Artykuł podzielę na dwie części. Pierwsza dotyczyć będzie Scrapowania stron WWW i skupię się na detalach, lecz pominę tłumaczenie podstawowych funkcji. Druga będzie dotyczyć czegoś bardziej dla mnie interesującego, z czym musiałem się ostatnio zmierzyć, czyli z zadaniami cyklicznymi napisanymi w Pythonie.

Część 1

Dlaczego miałbym scrapować jakąkolwiek stronę internetową?

Nieczęsto się to zdarza w obecnych czasach, ale wyobraźcie sobie sytuację, że strona WWW nie ma zaimplementowanego API, nie jestem w stanie się z nią połączyć z wykorzystaniem zwykłego requests.get, a raczej wynik tej komendy zwróci mi nieustrukturyzowanego długiego stringa, ze wszystkimi znacznikami html, a nie ustrukturyzowanego JSONa. Nie mam również możliwości wygenerowania pliku .csv.

Z pomocą przychodzi nam w tym momencie Beautiful Soup, czyli biblioteka do scrapowania stron WWW w Pythonie. Nie będę dokładnie wyjaśniał zasad korzystania z niej, gdyż tutoriali jest naprawdę dużo.

Całość zamyka się z reguły w 2 krokach:

Krok 1.

Zobaczmy jak wygląda plik HTML interesującej nas strony www, a dokładniej przyjrzyjmy się znacznikom HTML otaczającym zawartość, którą będziemy się starali pobrać. Z reguły będzie to <a>,<li> lub temu podobne.

 import requests
from bs4 import BeautifulSoup 
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify()) 
url = 'http://www.agregat.stronazen.pl/blog2/'
r = requests.get(url) text = r.text

Krok 2.

W tej chwili możemy już swobodnie poruszać się po interesujących nas znacznikach. Beautiful Soup tworzy drzewo hierarchi, po którym poruszamy się tak jakbyśmy zaglądali wgłąb jakiegoś obiektu (<div><a> = div.a ) lub za pomocą funkcji findall. Odsyłam po szczegóły do dokumentacji.

Krok 3.

Pisałem, że całość powinna zamknąć się w dwóch krokach ? Powinna, ale większość nowoczesnych stron WWW nie jest statyczna i kontent , czyli np tabele danych, które nas interesują są generowane za pomocą JavaScript. W praktyce to oznacza, że danych które nas interesują może nie być w pobranym przez nas kodzie HTML

W tym momencie znam dwa rozwiązania wykorzystujące Selenium:

Przeczekać moment ładowania się strony WWW

from selenium import webdriver from bs4 import BeautifulSoup import time

browser=webdriver.Firefox() browser.get('http://webpage.com') time.sleep(15) soup=BeautifulSou

Gdy to nie działa, bo dane które nas interesują są generowane za pomocą JavaScript z pomocą przychodzi przeglądarka PhantomJS, która generuje z dowolnego kodu JS statyczny kod HTML, który jest już prosty do obróbki

driver = webdriver.PhantomJS()

PhantomJS powinien być już jednakże ostatecznością, gdy wszystkie inne rozwiązania zawiodą. Z reguły z większością przypadków i danych generowanych za pomocą JavaScript radziłem sobie za pomocą BeautifulSoup oraz requests.get()

Czy szukasz wykonawcy projektów IT ?

Sprawdź case studies

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Mój problem dotyczył regularnego scrapowania dużego serwisu internetowego. Na podstawie tych danych miałem zbudować statystyki. Aby statystyki były wiarygodne scrapowanie musiało się dokonywać zawsze o tej samej porze. Potrzebowałem właśnie narzędzia do regularnego uruchamiania skryptów w Pythonie. Chciałem skorzystać z prostego rozwiązania, ale jednocześnie przyszłościowego.

Zacząłem więc szukać, jak zawsze, najprostszych rozwiązań i dobrze udokumentowanych. Znajomi polecali Crona, ale nie do końca miałem przekonanie, że będzie to właśnie to czego szukam. Przypadkiem znalazłem harmonogram zadań w Windowsie , który jest w stanie uruchamiać skrypty napisane w Pythonie. Rozwiązanie trywialne i rozwiązujące mój aktualny problem, ale czy to byłoby rozwiązanie przyszłościowe ? Nie sądzę.

Poczytałem o innych zadaniach cyklicznych, tak jak regularne wysyłanie maili, raportów, wykonywanie odłożonych w czasie intensywnych obliczeniowo zadań dla aplikacji WWW – wiedziałem, że zwykły Windowsowy harmonogram zadań, to nie jest to czego szukam.

Z czego finalnie skorzystałem?

Najczęściej pojawiającymi się odpowiedziami było Celery, Apscheduler, Redis, RabbitMQ.

Czym jest Apscheduler?

Jest biblioteką w Pythonie i zdecydowanie najprostszym rozwiązaniem. Pozostałe rozwiązania pomimo, że posiadają funkcje schedulera nie jest to ich głównym zadaniem w aplikacjach by tworzyć cykliczne zadania. Redis służy również jako baza danych, czy też jako messenging broker, a Celery jest jednym z bardziej zaawansowanych narzędzi do wykonywania zadań asynchronicznie , czy też obsługi kolejek z zadaniami.

Dla moich potrzeb w zupełności wystarczyło wykorzystanie blokującego schedulera.

from apscheduler.schedulers.blocking import BlockingScheduler
sched = BlockingScheduler()
@sched.scheduled_job('interval', minutes=1) def extreme_conditions(): print("check for extreme conditions")
sched.start()

Nie byłbym sobą , gdybym chociaż nie liznął tematu Celery.

Jak się okazało Celery do poprawnego działania potrzebuje backendu w postaci messeging brokera. Nie miałem wcześniej doświadczenia z Redisem, a widząc jego częstotliwość w ogłoszeniach o pracę postanowiłem wykorzystać go jako backend. Istniała również możliwość wykorzystania słabo opisanego protokołu SQS od AWS oraz lepiej opisanego RabbitMQ. RabbitMQ byłby również dobrym rozwiązaniem, ale Redis jest również wykorzystywany jako baza danych, więc czemu miałbym w nim nie trzymać moich danych ? Warto przynajmniej spróbować, jeżeli już testuje jego implementację.

from celery import Celery from os import environ
app = Celery('task')
REDIS_URL = environ.get('REDISTOGO_URL','redis://localhost') app.conf.update( BROKER_URL=REDIS_URL, CELERY_TASK_SERIALIZER='json')
@app.on_after_configure.connect def periodic_tasks(sender, **kwargs): sender.add_periodic_task(10.0, test.s("extreme values occured"), name='every 10 seconds')
@app.task def test(arg): print(arg)

Kod podobnie nie różni się zbytnio od tego poprzedniego. Wyjaśnienie należy się głównie określeniu REDISTOGO – jest to po prostu dodatek do platformy Heroku. Polecane również było wykorzystanie CELERY_TASK_SERIALIZER ustawionego na json, ze względu na to, że domyślnie Celery wykorzystuje Pythonowego pickle, który może powodować później problemy – tak mamy sprawdzoną poprawność danych i możemy uniknąć w przyszłości problemów.

Co zrobić by nasz scheduler działał w chmurze?

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Krok 1 Instalacja Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Przygotowałem tym razem dwie wersje:

wersja Apscheduler

git clone https://github.com/MateuszKuba/PythonApschedulerHeroku

wersja Celery + Redistogo

git clone https://github.com/MateuszKuba/PythonCeleryPeriodicTask

Wyjaśnienia tym razem może wymagać jedynie plik procfile, który mówi Heroku jaki rodzaj aplikacji będziemy do niego wysyłać. Nie będzie to tym razem aplikacja webowa tylko tzw. clock

Krok 3 Przesłanie rozwiązania do chmury

heroku login git init git push heroku master heroku ps:scale clock=1

Ponownie wykorzystaliśmy bezpłatną wersję zarówno dodatku redistogo jak i samej funkcjonalności clock.

Co dalej?

często sam mam problem oglądając repozytoria na githubie, gdy problem mnie interesujący jest obudowany tysiącem innych funkcjonalności, dlatego sam postawiłem na prostotę i napisałem wszystko z osobna. Jeżeli temat Cię zainteresował to nie pozostaje nic innego jak połączyć wszystkie funkcjonalności. Napisać funkcję scrapującą serwis WWW, zwrócić wyniki do JSONA, ustawić zadanie i jego parametry, a następnie wszystko wyeksportować do chmury
kolejnym etapem mogłoby być ustawienie Redisa również jako repozytorium danych
można by było spróbować wykonywać niektóre zadania asynchronicznie i więcej jak jedno

Nasza oferta

Powiązane artykuły

Medusa.js – elastyczna alternatywa dla Shopify i innych e-commerce

10 paź 2025

E-commerce rozwija się w błyskawicznym tempie, a firmy coraz częściej poszukują rozwiązań, które dadzą im większą elastyczność niż klasyczne platformy SaaS. Shopify czy WooCommerce świetnie sprawdzają się na starcie, ale szybko okazuje się, że mają swoje ograniczenia – zarówno kosztowe, jak i technologiczne. W odpowiedzi na te wyzwania powstała Medusa.js – nowoczesny framework open-source, który łączy zalety architektury headless z pełną kontrolą nad kodem i danymi. To alternatywa, która daje biznesom możliwość tworzenia skalowalnych, spersonalizowanych sklepów dopasowanych do indywidualnych potrzeb.

Tomasz Kozon

#fullstack

related-article-image-checkout, komputer, Medusa.js

Czym jest Commerce.js i jak może pomóc w e-commerce?

29 wrz 2025

W dynamicznie zmieniającym się świecie internetowego handlu, Commerce.js pojawia się jako potężny sprzymierzeniec w kreowaniu skutecznej strategii e-commerce. Ten wysoko konfigurowalny framework, dający olbrzymie możliwości personalizacji sklepów internetowych, przenosi funkcjonalność e-handlu na zupełnie nowy poziom. W artykule przyjrzymy się bliżej jego możliwościom.

Tomasz Kozon

#fullstack

Capacitor – most między aplikacjami webowymi a natywnymi

26 wrz 2025

W świecie tworzenia aplikacji mobilnych i desktopowych coraz większą rolę odgrywają rozwiązania pozwalające łączyć technologie webowe z natywnymi. Jednym z najciekawszych narzędzi tego typu jest Capacitor. Umożliwia ona budowanie aplikacji w HTML, CSS i JavaScript, które działają jak pełnoprawne aplikacje mobilne i desktopowe, z dostępem do natywnych API. Dzięki temu deweloperzy mogą tworzyć wieloplatformowe rozwiązania szybciej, wydajniej i bez konieczności rezygnowania z ekosystemu webowego.

Tomasz Kozon

#mobile

Azure Databricks: definicja, możliwości i powody, dla których warto go znać

4 wrz 2025

Azure Databricks to innowacyjna usługa analityczna w chmurze, której zadaniem jest umożliwienie przetwarzania dużych zbiorów danych w czasie rzeczywistym. Wykorzystując potencjał technologii Spark, stanowi potężne narzędzie do analizy Big Data. Poznajmy Azure Databricks: jego definicję, możliwości, a także powody, dla których warto zapoznać się z tą technologią.

Tomasz Kozon

#bigdata

htmx – prosta droga do dynamicznych aplikacji bez frameworków

2 wrz 2025

Dynamiczne aplikacje webowe kojarzą się zazwyczaj z rozbudowanymi frameworkami front-endowymi, które wymagają sporej wiedzy i skomplikowanej konfiguracji. Tymczasem istnieje prostsza droga – htmx, biblioteka pozwalająca tworzyć interaktywne interfejsy niemal wyłącznie przy użyciu HTML. Dzięki niej można uniknąć pisania dużej ilości kodu JavaScript i w naturalny sposób połączyć front-end z backendem.

Tomasz Kozon

#front-end

Paradoks Pestycydów: Dlaczego stare testy przestają funkcjonować w testowaniu oprogramowania?

3 sie 2025

Paradoks Pestycydów to pojęcie ze świata testowania oprogramowania, mówiące o tym, że stale wykorzystywanie tych samych testów prowadzi do coraz mniejszej skuteczności wykrywania błędów. Podobnie jak insekty stają się odporne na używane pestycydy, tak oprogramowanie 'przyzwyczaja' się do testów, a ewentualne defekty umykają uwadze.

Tomasz Kozon

#testing

Tester eXperience (TX) – nowy wymiar jakości w testowaniu

21 lip 2025

W świecie, w którym konkurencja na rynku cyfrowym rośnie z dnia na dzień, samo „działanie bez błędów” nie wystarcza, by produkt odniósł sukces. Coraz większe znaczenie ma to, jak użytkownicy faktycznie doświadczają korzystania z aplikacji – czy czują się pewnie, komfortowo i satysfakcjonująco. Właśnie z tej potrzeby narodziła się koncepcja Tester eXperience (TX), która łączy tradycyjne testowanie z perspektywą UX i empatią wobec odbiorcy końcowego. To nowy wymiar jakości, w którym tester przestaje być jedynie strażnikiem kodu, a staje się ambasadorem użytkownika w całym cyklu życia produktu.

Tomasz Kozon

#testing

Zobacz wszystkie artykuły powiązane z #bigdata

bigdata

Baza Cosmetics - Marketplace kosmetyków premium

Signor Leone - konfigurator garniturów szytych na miarę. Wizualizacja wyglądu garderoby przed wizytą w salonie

Umów się na bezpłatną konsultację

Część 1

Krok 1.

Krok 2.

Krok 3.

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Z czego finalnie skorzystałem?

Czym jest Apscheduler?

Co zrobić by nasz scheduler działał w chmurze?

Krok 1 Instalacja Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Krok 3 Przesłanie rozwiązania do chmury

Nasza oferta

Web development

Mobile development

E-commerce

Projektowanie UX/UI

Outsourcing

SEO

Powiązane artykuły

Medusa.js – elastyczna alternatywa dla Shopify i innych e-commerce

Tomasz Kozon

Czym jest Commerce.js i jak może pomóc w e-commerce?

Tomasz Kozon

Capacitor – most między aplikacjami webowymi a natywnymi

Tomasz Kozon

Azure Databricks: definicja, możliwości i powody, dla których warto go znać

Tomasz Kozon

htmx – prosta droga do dynamicznych aplikacji bez frameworków

Tomasz Kozon

Paradoks Pestycydów: Dlaczego stare testy przestają funkcjonować w testowaniu oprogramowania?

Tomasz Kozon

Tester eXperience (TX) – nowy wymiar jakości w testowaniu

Tomasz Kozon