Scrapy
2 minuty czytania
Scrapy to framework open source napisany w języku Python, służący do przetwarzania danych z witryn internetowych. Jest to narzędzie przeznaczone dla web scraping, czyli automatyzowanego pobierania danych z witryn internetowych.
Ostatnie oferty pracy
Brak ofert pracy
Często programując korzystamy z dostępnych API, które dostarczają nam potrzebne dane do naszej aplikacji. Przykładowo budując aplikację, która będzie nam ukazywać aktualną pogodę, musimy skądś te dane wziąć i najczęściej korzystamy z dostępnych API na rynku, ale co w przypadku kiedy nie znajdziemy interesującego nas API. Właśnie w takim przypadku warto rozważyć, scrapowanie stron. W tym artykule przedstawię właśnie narzędzie, które pomoże nam w scrapowaniu stron.
Czym jest scrapowanie stron?
Scrapowanie stron jest to nic innego niż wyciąganie jakiejś zawartości strony i zapisywanie tych danych w celu np. wykorzystania ich w swojej aplikacji. Scrapowanie stron wykorzystują takie serwisy jak np. ceneo, google, czy też portale zbierające oferty pracy z innych portali. Pamiętajmy, że to co robimy później z takimi danymi może być czasami nielegalne.
Co to jest Scrapy?
Scrapy jest frameworkiem do języka Python i jest on najpopularniejszym i najbardziej rozbudowanym narzędziem do scrapowania stron internetowych. Scrapy dostarcza wszystkie niezbędne narzędzia potrzebne do efektywnego wydobywania danych ze stron, przetwarzania ich i przechowywania w preferowanej strukturze i formacie. Scrapy jest łatwy do użycia, posiada obsługę żądań asynchronicznych, a ponadto automatycznie dostosowuje prędkość indeksowania za pomocą mechanizmu “Auto-throttling”.
Scrapy Spider
Najważniejszą częścią w Scrapy są klasy Spider. Scrapy używa ich do zbierania informacji ze strony internetowej. Definiują one w jaki sposób nasz Spider ma wydobywać dane ze strony.
Przykładowa klasa Spidera, która wydobywa cytaty ze strony.
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = [
'https://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'author': quote.xpath('span/small/text()').get(),
'text': quote.css('span.text::text').get(),
}
next_page = response.css('li.next a::attr("href")').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
Taki kod zapisujemy do pliku “quotes_spider.py” i odpalamy naszego bota do scrapowania komendą:
scrapy runspider quotes_spider.py -o quotes.jl
Kiedy nasz bot skończy swoją pracę powinniśmy otrzymać plik “quotes.jl”, który będzie zawierać listę cytatów zapisanych w formacie json.
{"author": "Jane Austen", "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"}
{"author": "Steve Martin", "text": "\u201cA day without sunshine is like, you know, night.\u201d"}
{"author": "Garrison Keillor", "text": "\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d"}
...
Nasza oferta
Web development
Dowiedz się więcejMobile development
Dowiedz się więcejE-commerce
Dowiedz się więcejProjektowanie UX/UI
Dowiedz się więcejOutsourcing
Dowiedz się więcejPowiązane artykuły
Zastosowanie wzorca VO (Value Object) w projektach
26 kwi 2024
Wzorzec VO, czyli Value Object, to istotny element każdego projektu programistycznego. Często nie doceniany, a cichym bohaterem zwiększających efektywność kodu, jest sposobem na skuteczne zarządzanie danymi w aplikacjach. W tej serii artykułów pokażemy praktyczne zastosowania tego wzorca projektowego, które pomogą Ci w codziennej pracy dewelopera.
Content Security Policy (CSP) - Skuteczne techniki zabezpieczania strony internetowej
26 kwi 2024
Content Security Policy (CSP) to potężna technika bezpieczeństwa sieci, która służy do ograniczania zawartości możliwej do załadowania przez Twoją stronę. Dzięki niej, możemy skutecznie chronić naszą witrynę przed atakami takimi jak Cross-Site Scripting (XSS). W tym artykule zgłębimy najważniejsze aspekty konfiguracji CSP oraz przedstawimy przykłady jej zastosowań w praktyce.
Co to jest Xcode i jak go używać?
26 kwi 2024
Xcode to rozbudowane środowisko programistyczne firmy Apple, stworzone z myślą o tworzeniu aplikacji na urządzenia z systemem iOS czy macOS. Nasuwa się pytanie: jak skorzystać z tego narzędzia? W poniższym artykule przedstawimy najważniejsze funkcje Xcode oraz kroki prowadzące do pierwszego, własnego projektu.
Jak skutecznie wykorzystać marketing mobilny w strategii marki?
25 kwi 2024
W dobie cyfryzacji, marketing mobilny staje się niezbędnym narzędziem w promocji i rozwoju biznesu. W tym artykule poznamy skuteczne strategie.
MSTest: Co to jest i jakie są jego główne cechy?
25 kwi 2024
MSTest, wszechstronne narzędzie do testowania jednostkowego stworzone przez Microsoft, zyskuje na popularności wśród programistów .NET. Czy to ze względu na jego natywną integrację z Visual Studio, czy też za sprawą rozbudowanych funkcji? Pora rozejrzeć się po pokładzie MSTest, zgłębiając kluczowe aspekty jego architektury i funkcji.
Wzorzec Singletona: efektywne zarządzanie zasobami
25 kwi 2024
Singleton to wzorzec projektowy, który pomaga zarządzać zasobami w efektywny sposób. Daje on możliwość utworzenia tylko jednej instancji klasy, gwarantując jednorazowy dostęp do zasobu, zwiększając wydajność oraz poprawiając kontrolę nad procesami.
Pattern Matching w praktyce: zrozumienie i wykorzystanie w codziennym kodowaniu
24 kwi 2024
Pattern Matching to kluczowy aspekt wielu języków programowania, którym często nie poświęcamy dostatecznej uwagi. W tym artykule zgłębimy jego podstawy i zasady funkcjonowania. Pokażemy przykłady wykorzystania, które pomogą Wam efektywniej kodować na co dzień.
Zobacz wszystkie artykuły