ZADANIA CYKLICZNE W PYTHONIE, CZYLI SCRAPOWANIE INTERNETU RAZ DZIENNIE

By 17 maja 201931 lipca, 2020AI Solutions
Po przeczytaniu tego artykułu dowiesz się:
  • jak scrapować strony internetowe w Pythonie

  • jak robić to codziennie o tej samej godzinie

  • jak zrobić to z wykorzystaniem rozwiązania opartego na chmurze

Z jakich rozwiązań skorzystam tym razem?
  • Python 3.6.2

  • Redis lub Apscheduler

  • BeautifulSoup, Selenium

  • Heroku

Artykuł podzielę na dwie części. Pierwsza dotyczyć będzie Scrapowania stron WWW i skupię się na detalach, lecz pominę tłumaczenie podstawowych funkcji. Druga będzie dotyczyć czegoś bardziej dla mnie interesującego, z czym musiałem się ostatnio zmierzyć, czyli z zadaniami cyklicznymi napisanymi w Pythonie.

Część 1:

Dlaczego miałbym scrapować jakąkolwiek stronę internetową?

Nieczęsto się to zdarza w obecnych czasach, ale wyobraźcie sobie sytuację, że strona WWW nie ma zaimplementowanego API, nie jestem w stanie się z nią połączyć z wykorzystaniem zwykłego requests.get, a raczej wynik tej komendy zwróci mi nieustrukturyzowanego długiego stringa, ze wszystkimi znacznikami html, a nie ustrukturyzowanego JSONa. Nie mam również możliwości wygenerowania pliku .csv.

Z pomocą przychodzi nam w tym momencie Beautiful Soup, czyli biblioteka do scrapowania stron WWW w Pythonie. Nie będę dokładnie wyjaśniał zasad korzystania z niej, gdyż tutoriali jest naprawdę dużo.

Całość zamyka się z reguły w 2 krokach

Krok 1.

Zobaczmy jak wygląda plik HTML interesującej nas strony www, a dokładniej przyjrzyjmy się znacznikom HTML otaczającym zawartość, którą będziemy się starali pobrać. Z reguły będzie to <a>,<li> lub temu podobne.

import requests from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, 'html.parser') print(soup.prettify()) url = 'http://www.agregat.stronazen.pl/blog2/' r = requests.get(url) text = r.text
Krok 2.

W tej chwili możemy już swobodnie poruszać się po interesujących nas znacznikach. Beautiful Soup tworzy drzewo hierarchi, po którym poruszamy się tak jakbyśmy zaglądali wgłąb jakiegoś obiektu (<div><a> = div.a ) lub za pomocą funkcji findall.Odsyłam po szczegóły do dokumentacji.

Krok 3.

Pisałem, że całość powinna zamknąć się w dwóch krokach ? Powinna, ale większość nowoczesnych stron WWW nie jest statyczna i kontent , czyli np tabele danych, które nas interesują są generowane za pomocą JavaScript. W praktyce to oznacza, że danych które nas interesują może nie być w pobranym przez nas kodzie HTML

W tym momencie znam dwa rozwiązania wykorzystujące Selenium:

  • Przeczekać moment ładowania się strony WWW

from selenium import webdriver
from bs4 import BeautifulSoup
import time

browser=webdriver.Firefox()
browser.get('http://webpage.com')
time.sleep(15)
soup=BeautifulSoup(browser.page_source)

  • Gdy to nie działa, bo dane które nas interesują są generowane za pomocą JavaScript z pomocą przychodzi przeglądarka PhantomJS, która generuje z dowolnego kodu JS statyczny kod HTML, który jest już prosty do obróbki

driver = webdriver.PhantomJS()

PhantomJS powinien być już jednakże ostatecznością, gdy wszystkie inne rozwiązania zawiodą. Z reguły z większością przypadków i danych generowanych za pomocą JavaScript radziłem sobie za pomocą BeautifulSoup oraz requests.get()

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Mój problem dotyczył regularnego scrapowania dużego serwisu internetowego. Na podstawie tych danych miałem zbudować statystyki. Aby statystyki były wiarygodne scrapowanie musiało się dokonywać zawsze o tej samej porze. Potrzebowałem właśnie narzędzia do regularnego uruchamiania skryptów w Pythonie. Chciałem skorzystać z prostego rozwiązania, ale jednocześnie przyszłościowego.

Zacząłem więc szukać, jak zawsze, najprostszych rozwiązań i dobrze udokumentowanych. Znajomi polecali Crona, ale nie do końca miałem przekonanie, że będzie to właśnie to czego szukam. Przypadkiem znalazłem harmonogram zadań w Windowsie , który jest w stanie uruchamiać skrypty napisane w Pythonie. Rozwiązanie trywialne i rozwiązujące mój aktualny problem, ale czy to byłoby rozwiązanie przyszłościowe ? Nie sądzę.

Poczytałem o innych zadaniach cyklicznych, tak jak regularne wysyłanie maili, raportów, wykonywanie odłożonych w czasie intensywnych obliczeniowo zadań dla aplikacji WWW – wiedziałem, że zwykły Windowsowy harmonogram zadań, to nie jest to czego szukam.

Z czego finalnie skorzystałem?

Najczęściej pojawiającymi się odpowiedziami było Celery, Apscheduler, Redis, RabbitMQ.

Czym jest Apscheduler?

Jest biblioteką w Pythonie i zdecydowanie najprostszym rozwiązaniem. Pozostałe rozwiązania pomimo, że posiadają funkcje schedulera nie jest to ich głównym zadaniem w aplikacjach by tworzyć cykliczne zadania. Redis służy również jako baza danych, czy też jako messeging broker, a Celery jest jednym z bardziej zaawansowanych narzędzi do wykonywania zadań asynchronicznie , czy też obsługi kolejek z zadaniami.

Dla moich potrzeb w zupełności wystarczyło wykorzystanie blokującego schedulera.

from apscheduler.schedulers.blocking import BlockingScheduler
sched = BlockingScheduler()
@sched.scheduled_job('interval', minutes=1)
def extreme_conditions():
print("check for extreme conditions")

sched.start()

Nazwa blokujący oznacza, że po wykonaniu metody start, aplikacja nie będzie dalej działać dopóki proces w środku się nie zakończy. Istnieje również asynchroniczna metoda działająca w tle, ale nie była mi ona potrzebna. Zadania można zatrzymywać, zmieniać ich częstotliwość, a wszystko odbywa się za pomocą pojedynczych komend. Detale można znaleźć w dokumentacji.

Nie byłbym sobą , gdybym chociaż nie liznął tematu Celery

Jak się okazało Celery do poprawnego działania potrzebuje backendu w postaci messeging brokera. Nie miałem wcześniej doświadczenia z Redisem, a widząc jego częstotliwość w ogłoszeniach o pracę postanowiłem wykorzystać go jako backend. Istniała również możliwość wykorzystania słabo opisanego protokołu SQS od AWS oraz lepiej opisanego RabbitMQ. RabbitMQ byłby również dobrym rozwiązaniem, ale Redis jest również wykorzystywany jako baza danych, więc czemu miałbym w nim nie trzymać moich danych ? Warto przynajmniej spróbować, jeżeli już testuje jego implementację.

from celery import Celery
from os import environ

app = Celery('task')

REDIS_URL = environ.get('REDISTOGO_URL','redis://localhost')
app.conf.update(
BROKER_URL=REDIS_URL,
CELERY_TASK_SERIALIZER='json')

@app.on_after_configure.connect
def periodic_tasks(sender, **kwargs):
sender.add_periodic_task(10.0, test.s("extreme values occured"),
name='every 10 seconds')

@app.task
def test(arg):
print(arg)

Kod podobnie nie różni się zbytnio od tego poprzedniego. Wyjaśnienie należy się głównie określeniu REDISTOGO – jest to po prostu dodatek do platformy Heroku. Polecane również było wykorzystanie CELERY_TASK_SERIALIZER ustawionego na json, ze względu na to, że domyślnie Celery wykorzystuje Pythonowego pickle, który może powodować później problemy – tak mamy sprawdzoną poprawność danych i możemy uniknąć w przyszłości problemów.

Co zrobić by nasz scheduler działał w chmurze?

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Krok 1 Instalacja Heroku

Polecam przeczytać mój poprzedni artykuł by zapoznać się z podstawami konfiguracji Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Przygotowałem tym razem dwie wersje:

  • wersja Apscheduler

git clone https://github.com/MateuszKuba/PythonApschedulerHeroku

  • wersja Celery + Redistogo

git clone https://github.com/MateuszKuba/PythonCeleryPeriodicTask

Wyjaśnienia tym razem może wymagać jedynie plik procfile, który mówi Heroku jaki rodzaj aplikacji będziemy do niego wysyłać. Nie będzie to tym razem aplikacja webowa tylko tzw. clock

Krok 3 Przesłanie rozwiązania do chmury

heroku login
git init
git push heroku master
heroku ps:scale clock=1

Ponownie wykorzystaliśmy bezpłatną wersję zarówno dodatku redistogo jak i samej funkcjonalności clock.

Co dalej?
  • często sam mam problem oglądając repozytoria na githubie, gdy problem mnie interesujący jest obudowany tysiącem innych funkcjonalności, dlatego sam postawiłem na prostotę i napisałem wszystko z osobna. Jeżeli temat Cię zainteresował to nie pozostaje nic innego jak połączyć wszystkie funkcjonalności. Napisać funkcję scrapującą serwis WWW, zwrócić wyniki do JSONA, ustawić zadanie i jego parametry, a następnie wszystko wyeksportować do chmury

  • kolejnym etapem mogłoby być ustawienie Redisa również jako repozytorium danych

  • można by było spróbować wykonywać niektóre zadania asynchronicznie i więcej jak jedno

Mateusz Kuba

Autor Mateusz Kuba

BoringOwl Software House Founder. AI Specialist. Fullstack Developer. Thinker. Are you looking for help in your next software development project? Do you need a remote team of software engineers ? Do you want to implement artificial intelligence in your product ? Feel free to connect! I can help. I have have experience in development in: Javascript, Python, R, Sql, Terraform, AWS and I'm a big fan of future tech implementations.

Więcej wpisów od Mateusz Kuba