kontakt
Software house
>
Blog
>
Zadania cykliczne w Pythonie, czyli scrapowanie internetu raz dziennie

Zadania cykliczne w Pythonie, czyli scrapowanie internetu raz dziennie

Data wpisu
Mateusz Kuba
Autor
Mateusz Kuba

Po przeczytaniu tego artykułu dowiesz się:

  1. jak scrapować strony internetowe w Pythonie?
  2. jak robić to codziennie o tej samej godzinie?
  3. jak zrobić to z wykorzystaniem rozwiązania opartego na chmurze?

Z jakich rozwiązań skorzystam tym razem?

Artykuł podzielę na dwie części. Pierwsza dotyczyć będzie Scrapowania stron WWW i skupię się na detalach, lecz pominę tłumaczenie podstawowych funkcji. Druga będzie dotyczyć czegoś bardziej dla mnie interesującego, z czym musiałem się ostatnio zmierzyć, czyli z zadaniami cyklicznymi napisanymi w Pythonie.

Część 1

Dlaczego miałbym scrapować jakąkolwiek stronę internetową?

Nieczęsto się to zdarza w obecnych czasach, ale wyobraźcie sobie sytuację, że strona WWW nie ma zaimplementowanego API, nie jestem w stanie się z nią połączyć z wykorzystaniem zwykłego requests.get, a raczej wynik tej komendy zwróci mi nieustrukturyzowanego długiego stringa, ze wszystkimi znacznikami html, a nie ustrukturyzowanego JSONa. Nie mam również możliwości wygenerowania pliku .csv.

Z pomocą przychodzi nam w tym momencie Beautiful Soup, czyli biblioteka do scrapowania stron WWW w Pythonie. Nie będę dokładnie wyjaśniał zasad korzystania z niej, gdyż tutoriali jest naprawdę dużo.

Całość zamyka się z reguły w 2 krokach:

Krok 1.

Zobaczmy jak wygląda plik HTML interesującej nas strony www, a dokładniej przyjrzyjmy się znacznikom HTML otaczającym zawartość, którą będziemy się starali pobrać. Z reguły będzie to <a>,<li> lub temu podobne.

 import requests
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())
url = 'http://www.agregat.stronazen.pl/blog2/'
r = requests.get(url) text = r.text

Krok 2.

W tej chwili możemy już swobodnie poruszać się po interesujących nas znacznikach. Beautiful Soup tworzy drzewo hierarchi, po którym poruszamy się tak jakbyśmy zaglądali wgłąb jakiegoś obiektu (<div><a> = div.a ) lub za pomocą funkcji findall.Odsyłam po szczegóły do dokumentacji.

Krok 3.

Pisałem, że całość powinna zamknąć się w dwóch krokach ? Powinna, ale większość nowoczesnych stron WWW nie jest statyczna i kontent , czyli np tabele danych, które nas interesują są generowane za pomocą JavaScript. W praktyce to oznacza, że danych które nas interesują może nie być w pobranym przez nas kodzie HTML

W tym momencie znam dwa rozwiązania wykorzystujące Selenium:

  • Przeczekać moment ładowania się strony WWW
from selenium import webdriver from bs4 import BeautifulSoup import time
browser=webdriver.Firefox() browser.get('http://webpage.com') time.sleep(15) soup=BeautifulSou
  • Gdy to nie działa, bo dane które nas interesują są generowane za pomocą JavaScript z pomocą przychodzi przeglądarka PhantomJS, która generuje z dowolnego kodu JS statyczny kod HTML, który jest już prosty do obróbki
driver = webdriver.PhantomJS()

PhantomJS powinien być już jednakże ostatecznością, gdy wszystkie inne rozwiązania zawiodą. Z reguły z większością przypadków i danych generowanych za pomocą JavaScript radziłem sobie za pomocą BeautifulSoup oraz requests.get()

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Mój problem dotyczył regularnego scrapowania dużego serwisu internetowego. Na podstawie tych danych miałem zbudować statystyki. Aby statystyki były wiarygodne scrapowanie musiało się dokonywać zawsze o tej samej porze. Potrzebowałem właśnie narzędzia do regularnego uruchamiania skryptów w Pythonie. Chciałem skorzystać z prostego rozwiązania, ale jednocześnie przyszłościowego.

Zacząłem więc szukać, jak zawsze, najprostszych rozwiązań i dobrze udokumentowanych. Znajomi polecali Crona, ale nie do końca miałem przekonanie, że będzie to właśnie to czego szukam. Przypadkiem znalazłem harmonogram zadań w Windowsie , który jest w stanie uruchamiać skrypty napisane w Pythonie. Rozwiązanie trywialne i rozwiązujące mój aktualny problem, ale czy to byłoby rozwiązanie przyszłościowe ? Nie sądzę.

Poczytałem o innych zadaniach cyklicznych, tak jak regularne wysyłanie maili, raportów, wykonywanie odłożonych w czasie intensywnych obliczeniowo zadań dla aplikacji WWW – wiedziałem, że zwykły Windowsowy harmonogram zadań, to nie jest to czego szukam.

Z czego finalnie skorzystałem?

Najczęściej pojawiającymi się odpowiedziami było Celery, Apscheduler, Redis, RabbitMQ.

Czym jest Apscheduler?

Jest biblioteką w Pythonie i zdecydowanie najprostszym rozwiązaniem. Pozostałe rozwiązania pomimo, że posiadają funkcje schedulera nie jest to ich głównym zadaniem w aplikacjach by tworzyć cykliczne zadania. Redis służy również jako baza danych, czy też jako messeging broker, a Celery jest jednym z bardziej zaawansowanych narzędzi do wykonywania zadań asynchronicznie , czy też obsługi kolejek z zadaniami.

Dla moich potrzeb w zupełności wystarczyło wykorzystanie blokującego schedulera.

from apscheduler.schedulers.blocking import BlockingScheduler

sched = BlockingScheduler()

@sched.scheduled_job('interval', minutes=1) def extreme_conditions(): print("check for extreme conditions")

sched.start()

Nie byłbym sobą , gdybym chociaż nie liznął tematu Celery.

Jak się okazało Celery do poprawnego działania potrzebuje backendu w postaci messeging brokera. Nie miałem wcześniej doświadczenia z Redisem, a widząc jego częstotliwość w ogłoszeniach o pracę postanowiłem wykorzystać go jako backend. Istniała również możliwość wykorzystania słabo opisanego protokołu SQS od AWS oraz lepiej opisanego RabbitMQ. RabbitMQ byłby również dobrym rozwiązaniem, ale Redis jest również wykorzystywany jako baza danych, więc czemu miałbym w nim nie trzymać moich danych ? Warto przynajmniej spróbować, jeżeli już testuje jego implementację.

from celery import Celery from os import environ

app = Celery('task')

REDIS_URL = environ.get('REDISTOGO_URL','redis://localhost') app.conf.update( BROKER_URL=REDIS_URL, CELERY_TASK_SERIALIZER='json')

@app.on_after_configure.connect def periodic_tasks(sender, **kwargs): sender.add_periodic_task(10.0, test.s("extreme values occured"), name='every 10 seconds')

@app.task def test(arg): print(arg)

Kod podobnie nie różni się zbytnio od tego poprzedniego. Wyjaśnienie należy się głównie określeniu REDISTOGO – jest to po prostu dodatek do platformy Heroku. Polecane również było wykorzystanie CELERY_TASK_SERIALIZER ustawionego na json, ze względu na to, że domyślnie Celery wykorzystuje Pythonowego pickle, który może powodować później problemy – tak mamy sprawdzoną poprawność danych i możemy uniknąć w przyszłości problemów.

Co zrobić by nasz scheduler działał w chmurze?

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Krok 1 Instalacja Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Przygotowałem tym razem dwie wersje:

  • wersja Apscheduler
git clone https://github.com/MateuszKuba/PythonApschedulerHeroku
  • wersja Celery + Redistogo
git clone https://github.com/MateuszKuba/PythonCeleryPeriodicTask

Wyjaśnienia tym razem może wymagać jedynie plik procfile, który mówi Heroku jaki rodzaj aplikacji będziemy do niego wysyłać. Nie będzie to tym razem aplikacja webowa tylko tzw. clock

Krok 3 Przesłanie rozwiązania do chmury

heroku login git init git push heroku master heroku ps:scale clock=1

Ponownie wykorzystaliśmy bezpłatną wersję zarówno dodatku redistogo jak i samej funkcjonalności clock.

Co dalej?

  • często sam mam problem oglądając repozytoria na githubie, gdy problem mnie interesujący jest obudowany tysiącem innych funkcjonalności, dlatego sam postawiłem na prostotę i napisałem wszystko z osobna. Jeżeli temat Cię zainteresował to nie pozostaje nic innego jak połączyć wszystkie funkcjonalności. Napisać funkcję scrapującą serwis WWW, zwrócić wyniki do JSONA, ustawić zadanie i jego parametry, a następnie wszystko wyeksportować do chmury
  • kolejnym etapem mogłoby być ustawienie Redisa również jako repozytorium danych
  • można by było spróbować wykonywać niektóre zadania asynchronicznie i więcej jak jedno

Ostatnie Wpisy