Scrapy
2 minuty czytania
Scrapy to framework open source napisany w języku Python, służący do przetwarzania danych z witryn internetowych. Jest to narzędzie przeznaczone dla web scraping, czyli automatyzowanego pobierania danych z witryn internetowych.
Często programując korzystamy z dostępnych API, które dostarczają nam potrzebne dane do naszej aplikacji. Przykładowo budując aplikację, która będzie nam ukazywać aktualną pogodę, musimy skądś te dane wziąć i najczęściej korzystamy z dostępnych API na rynku, ale co w przypadku kiedy nie znajdziemy interesującego nas API. Właśnie w takim przypadku warto rozważyć, scrapowanie stron. W tym artykule przedstawię właśnie narzędzie, które pomoże nam w scrapowaniu stron.
Czym jest scrapowanie stron?
Scrapowanie stron jest to nic innego niż wyciąganie jakiejś zawartości strony i zapisywanie tych danych w celu np. wykorzystania ich w swojej aplikacji. Scrapowanie stron wykorzystują takie serwisy jak np. ceneo, google, czy też portale zbierające oferty pracy z innych portali. Pamiętajmy, że to co robimy później z takimi danymi może być czasami nielegalne.
Co to jest Scrapy?
Scrapy jest frameworkiem do języka Python i jest on najpopularniejszym i najbardziej rozbudowanym narzędziem do scrapowania stron internetowych. Scrapy dostarcza wszystkie niezbędne narzędzia potrzebne do efektywnego wydobywania danych ze stron, przetwarzania ich i przechowywania w preferowanej strukturze i formacie. Scrapy jest łatwy do użycia, posiada obsługę żądań asynchronicznych, a ponadto automatycznie dostosowuje prędkość indeksowania za pomocą mechanizmu “Auto-throttling”.
Scrapy Spider
Najważniejszą częścią w Scrapy są klasy Spider. Scrapy używa ich do zbierania informacji ze strony internetowej. Definiują one w jaki sposób nasz Spider ma wydobywać dane ze strony.
Przykładowa klasa Spidera, która wydobywa cytaty ze strony.
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = [
'https://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'author': quote.xpath('span/small/text()').get(),
'text': quote.css('span.text::text').get(),
}
next_page = response.css('li.next a::attr("href")').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
Taki kod zapisujemy do pliku “quotes_spider.py” i odpalamy naszego bota do scrapowania komendą:
scrapy runspider quotes_spider.py -o quotes.jl
Kiedy nasz bot skończy swoją pracę powinniśmy otrzymać plik “quotes.jl”, który będzie zawierać listę cytatów zapisanych w formacie json.
{"author": "Jane Austen", "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"}
{"author": "Steve Martin", "text": "\u201cA day without sunshine is like, you know, night.\u201d"}
{"author": "Garrison Keillor", "text": "\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d"}
...
Nasza oferta
Web development
Dowiedz się więcejMobile development
Dowiedz się więcejE-commerce
Dowiedz się więcejProjektowanie UX/UI
Dowiedz się więcejOutsourcing
Dowiedz się więcejPowiązane artykuły
Mixpanel: narzędzie do zaawansowanej analizy danych
2 wrz 2024
Nowoczesne biznesy przyswajają dane na niezwykłą skalę. Jednak zbieranie danych to tylko połowa bitwy - trzeba je także efektywnie analizować. Tu z pomocą przychodzi Mixpanel, narzędzie kluczowe dla zaawansowanej analizy danych. Pozwala ono na głębokie zrozumienie zachowań użytkowników oraz zachęca do podejmowania decyzji opartych na faktach.
Czym jest over-eager loading?
2 wrz 2024
Over-eager loading, to technika optymalizacji bazy danych, której celem jest minimalizowanie ilości zapytań do bazy. W przypadku over-eager loading, za pierwszym razem pobierane są wszystkie potrzebne informacje, co pozwala uniknąć 'drobnych' zapytań, które mogą spowolnić aplikację.
Pinia: Nowoczesna i wydajna biblioteka do zarządzania stanem w aplikacjach Vue.js
1 wrz 2024
Pinia to innowacyjna biblioteka do zarządzania stanem, specjalnie zaprojektowana dla aplikacji Vue.js. Wyróżnia się na tle innych podobnych narzędzi swoją wydajnością, prostotą i elastycznością. Pozwala na ustrukturyzowanie i skuteczne kontrolowanie danych w Twojej aplikacji. Zapraszam do zgłębienia tematu, by odkryć pełnię możliwości Pinii.
Maze: narzędzie do testowania użyteczności stron internetowych
1 wrz 2024
W dzisiejszych czasach, gdy konkurencja w przestrzeni cyfrowej jest niezwykle zacięta, użyteczność strony internetowej stanowi klucz do sukcesu. Maze jest rewolucyjnym narzędziem, które przeprowadza testy użyteczności, umożliwiając twórcom stron internetowych skupienie się na dostarczaniu najlepszych możliwych doświadczeń dla użytkowników.
Macierz Ansoffa: Klucz do efektywnej strategii rozwoju
31 sie 2024
Macierz Ansoffa jest niezastąpionym narzędziem w planowaniu strategicznym każdego biznesu. Pozwala ona na zrozumienie czterech możliwych ścieżek rozwoju firmy: penetracji rynku, rozwoju produktu, rozwoju rynku oraz dywersyfikacji. Jak wykorzystać to narzędzie, aby z optmalizować swoją strategię rozwoju? Przekonajmy się.
Notion - czyli co to jest i jak efektywnie z niego korzystać?
31 sie 2024
Czy kiedykolwiek zastanawialiście się, jak uniknąć chaosu w organizacji pracy? Odpowiedzią może być Notion, innowacyjne narzędzie do zarządzania projektami i nie tylko. W tym artykule przybliżę Wam, czym jest Notion oraz pokażę, jak skutecznie wykorzystać jego możliwości do efektywnej pracy.
Co to jest Prefetching?
30 sie 2024
Prefetching to technika optymalizacyjna, która może zasadniczo podnieść wydajność strony internetowej przez przewidywanie akcji użytkownika. To jakby serwer 'przygotowywał' potencjalne dane do wykorzystania zanim użytkownik je poprosi–sposób na przyspieszenie ładowania strony.
Zobacz wszystkie artykuły