Web Scraping APIs Guide: Funktionen, Leistung und Preise

In den letzten Jahren hat der Anstieg der Web-Scraping-Aktivitäten zur Entstehung verschiedener APIs geführt, die von Proxy-Diensten und Datenbeschaffungsunternehmen bereitgestellt werden.

Dieser Bericht befasst sich mit sieben herausragenden Anbietern im Bereich der Web-Scraping-APIs und analysiert deren Funktionen, Scraping-Fähigkeiten, Parsing-Effizienz und Kosten-Nutzen-Verhältnis.

Mit Fokus auf drei Schlüsselkategorien von Websites – Suchmaschinen, E-Commerce-Plattformen und soziale Medien – zielen wir darauf ab, Einblicke in den sich entwickelnden Bereich der Web-Scraping-APIs zu geben.

Evolution der Web Scraping APIs

Web-Scraping-APIs fungieren als entfernte Web-Scraper, die API-Anfragen mit Ziel-URLs und optionalen Parametern annehmen.

Hinter den Kulissen nutzen diese APIs Proxies, Header und sogar Headless-Browser, um HTML-Inhalte abzurufen. Einige fortschrittliche APIs verwenden KI-Vision und Mustererkennung für anspruchsvolle Aufgaben.

Preismodelle basieren oft auf erfolgreichen Anfragen, was Vorhersehbarkeit gewährleistet. Allerdings weisen einige Anbieter undurchsichtige Preisstrukturen auf.

Schlüsseleinsichten

➡️ Datenoutput und Parsing:

Sechs von sieben APIs geben rohes HTML zurück, mit fortgeschrittenen Parsern für spezifische Websites.
Google und Amazon sind die am meisten angezielten Websites, wobei Oxylabs ein maschinelles Lernmodell für das Parsen der meisten E-Commerce-Stores bietet.

➡️ Datentransfer und Anpassung:

APIs übertragen Daten über offene Verbindungen und fungieren oft als Proxies für eine nahtlose Integration.
Anpassungsoptionen beinhalten die Auswahl des Standorts, Gerätespezifikationen und benutzerdefinierte Header.
Vier APIs akzeptieren CSS-Selektoren und drei unterstützen Browser-Interaktionen für dynamische Scraping-Szenarien.

➡️ Leistung und Zuverlässigkeit:

Leistungstests zeigen unterschiedliche Geschwindigkeiten, wobei einige APIs beim Scraping von Google und Amazon hervorragend abschneiden.
Soziale Medien, insbesondere GraphQL, stellen für viele APIs eine Herausforderung dar.
Oxylabs, Smartproxy und Bright Data erweisen sich als die zuverlässigsten Anbieter mit robusten Parsern.

➡️ Preismodelle:

Bright Data verlangt einen einheitlichen Preis für alle Funktionen, während Oxylabs und Smartproxy Preise nach Zielgruppe differenzieren.
ScraperAPI und Zyte verwenden gestaffelte Preise, wobei die Tarife je nach Zielwebsite deutlich variieren.

Teilnehmerübersicht

Wir haben uns mit sieben führenden Unternehmen befasst, die Web-Scraping-APIs anbieten, darunter etablierte Namen und Proxy-Anbieter, die in diesen Bereich wechseln.

Die Teilnehmer gewährten uns bereitwillig Zugang zu ihren APIs für das Scraping von Google, Amazon und einem sozialen Netzwerk.

Teilnehmersnapshot

API	Getestete APIs	Startpreis
Oxylabs	Web Scraper API, SERP Scraper API, E-Commerce Scraper API	$99
Bright Data	Web Unlocker, SERP API	$3 (Pay-as-you-go), $500 (Plan)
Smartproxy	Web Scraping API, SERP Scraping API, E-Commerce Scraping API	$50
Zyte	Zyte API	$0 (Pay-as-you-go), $25 (Plan)
Rayobyte	Scraping Robot	$0.0018/Anfrage
ScraperAPI	ScraperAPI	$49
Shifter	Web Scraping API, SERP API	$44.95

Übersicht der Funktionen

Integrationsmethoden

Theoretisch verwenden alle Web-Scraping-APIs dieselbe Grundstruktur: Es gibt einen Endpunkt, an den Sie URLs senden, die Sie mit einem oder mehreren Parametern scrapen möchten.

In der Praxis kann die Implementierung jedoch erheblich variieren. Hier sind die vier Hauptmethoden, auf die wir gestoßen sind:

Anbieter	API (offene Verbindung)	API (asynchron)	Proxy	Bibliothek/SDK
Oxylabs	✅ Offene Verbindung für Anfragen.	✅ Unterstützt asynchrone Lieferung.	✅ Kann als Proxy integriert werden.	❌ Keine dedizierte Bibliothek oder SDK.
Bright Data	❌ Keine Methode mit offener Verbindung.	✅ Unterstützt asynchrone Lieferung.	✅ Kann als Proxy integriert werden.	❌ Keine dedizierte Bibliothek oder SDK.
Smartproxy	✅ Methode mit offener Verbindung verfügbar.	❌ Unterstützt keine asynchrone Lieferung.	✅ Kann als Proxy integriert werden.	❌ Keine dedizierte Bibliothek oder SDK.
Zyte	✅ Offene Verbindung für Anfragen.	❌ Unterstützt keine asynchrone Lieferung.	❌ Kann als Proxy verwendet werden.	✅ Bietet eine Bibliothek/SDK.
Rayobyte	✅ Offene Verbindung für Anfragen.	❌ Unterstützt keine asynchrone Lieferung.	❌ Kann als Proxy verwendet werden.	❌ Keine dedizierte Bibliothek oder SDK.
ScraperAPI	✅ Methode mit offener Verbindung.	✅ Unterstützt asynchrone Lieferung.	✅ Kann als Proxy integriert werden.	✅ Bietet eine Bibliothek/SDK.
Shifter	✅ Offene Verbindung für Anfragen.	❌ Unterstützt keine asynchrone Lieferung.	❌ Kann als Proxy verwendet werden.	✅ Bietet eine Bibliothek/SDK.

API (offene Verbindung):Offene Verbindung bedeutet, Anfragen an einen API-Endpunkt zu senden und auf die Antwort zu warten. GET- und POST-Methoden werden verwendet, mit Variationen in der Implementierung.
API (asynchron): Asynchrone Lieferung ermöglicht das Senden von API-Aufrufen mit einer ID und das Abrufen von Ergebnissen über einen Webhook, was für das Massen-Scraping nützlich ist.
Proxy: Die meisten APIs können als Proxies integriert werden, was den Übergang von regulären Proxy-Servern erleichtert.
Bibliothek/SDK: Einige Anbieter bieten SDKs für zusätzlichen Komfort an.

Zwei Softwareentwicklerinnen sprechen über Code

HTML-Scraping

Allgemeine APIs haben einen Endpunkt, der versucht, jede Website zu scrapen, und geben Seiten in rohem HTML zurück.

Alle Teilnehmer bieten eine API für allgemeines Scraping an:

Anbieter	Relevantes Werkzeug
Oxylabs	Web Scraper API
Bright Data	Web Unlocker
Smartproxy	Web Scraping API
Zyte	Zyte API
Rayobyte	Scraping Robot
ScraperAPI	ScraperAPI
Shifter	Web Scraping API

Parameter wie Geolokalisierung, Wohn-Proxy, Gerätetyp, Sitzungen, Cookies und Dateneingabe sind bei APIs üblich.

Headless-Scraping

Headless-Scraping ist entscheidend, um Website-Schutzsysteme zu überwinden.

Die meisten Anbieter verwalten Headless-Browser für Sie:

Anbieter	JavaScript-Rendering	Screenshots	Browser-Aktionen
Oxylabs	✅ JavaScript-Rendering ist universell verfügbar.	✅ Unterstützt das Erstellen von Screenshots.	❌ Unterstützt keine direkten Browser-Interaktionen.
Bright Data	✅ JavaScript wird automatisch gehandhabt.	❌ Unterstützt keine Screenshots.	❌ Unterstützt keine direkten Browser-Interaktionen.
Smartproxy	✅ JavaScript-Rendering ist universell verfügbar.	✅ Unterstützt das Erstellen von Screenshots.	❌ Unterstützt keine direkten Browser-Interaktionen.
Zyte	✅ JavaScript-Rendering ist universell verfügbar.	✅ Unterstützt das Erstellen von Screenshots.	✅ Ermöglicht direkte Browser-Interaktionen.
Rayobyte	✅ JavaScript-Rendering ist universell verfügbar.	✅ Unterstützt das Erstellen von Screenshots.	✅ Ermöglicht direkte Browser-Interaktionen.
ScraperAPI	✅ JavaScript-Rendering ist universell verfügbar.	❌ Unterstützt keine Screenshots.	❌ Unterstützt keine direkten Browser-Interaktionen.
Shifter	✅ JavaScript-Rendering ist universell verfügbar.	✅ Unterstützt das Erstellen von Screenshots.	✅ Ermöglicht fortgeschrittene Browser-Interaktionen.

JavaScript-Rendering ist universell verfügbar, und einige Anbieter ermöglichen Interaktionen mit dem Browser, wie Klicken und Scrollen.

Spezialisierte APIs

Spezialisierte APIs zielen auf spezifische Websitegruppen ab, um Kompatibilität und strukturiertes Scraping zu gewährleisten:

Anbieter	Suchmaschinen-APIs	E-Commerce-APIs	Social-Media-APIs
Oxylabs	Google, Baidu, Bing, Yandex	Amazon, Walmart, eBay, Wayfair + 7 weitere	❌
Bright Data	Google, Bing, DuckDuckGo, Yandex	❌	❌
Smartproxy	Google, Baidu, Bing, Yandex	Amazon, Idealo, Wayfair	❌
Zyte	❌ Keine spezialisierte Suchmaschinen-API.	❌ Keine spezialisierte E-Commerce-API.	❌
Rayobyte	Google	Amazon	❌
ScraperAPI	❌ Keine spezialisierte Suchmaschinen-API.	❌ Keine spezialisierte E-Commerce-API.	❌
Shifter	Google, Bing, Yandex	❌	❌

Suchmaschinen und E-Commerce-Seiten sind häufige Ziele, wobei Google und Amazon am meisten Beachtung finden.

Google-Funktionen

Google-Funktionen	Oxylabs	Bright Data	Smartproxy	Rayobyte	Shifter
APIs	Suche, Anzeigen, Hotels, Bilder, Autovervollständigung, Suchvolumen, Trends	Suche, Karten, Trends, Bewertungen, Hotels, umgekehrte Bildsuche	Suche, Anzeigen, Hotels, Bilder, Autovervollständigung, Trends	Suche	Suche, Karten, Autovervollständigung, Scholar, Produkte, umgekehrte Bildsuche, Jobs, Events, Google Play, Trends
Suchtyp (tbm)	✅ Unterstützt das Angeben von Suchtypen.	✅ Unterstützt das Angeben von Suchtypen.	✅ Unterstützt das Angeben von Suchtypen.	❌ Unterstützt keine Angabe von Suchtypen.	✅ Unterstützt das Angeben von Suchtypen.
Gerätetyp	✅ Unterstützt das Angeben von Gerätetypen.	✅ Unterstützt das Angeben von Gerätetypen.	✅ Unterstützt das Angeben von Gerätetypen.	❌ Unterstützt keine Angabe von Gerätetypen.	✅ Unterstützt das Angeben von Gerätetypen.
Standortauswahl	Stadtebene	Stadtebene	Stadtebene	Länderebene	Stadtebene
Lokalisierung	Domain, Sprache	Domain, Sprache	Domain, Sprache	Domain, Sprache	Domain, Sprache
Pagination	Start, Anzahl der Seiten	Start, Anzahl der Seiten	Start, Anzahl der Seiten	Anzahl der Seiten	Start, Anzahl der Seiten

Amazon-Funktionen

Amazon-Funktionen	Oxylabs	Smartproxy	Rayobyte
APIs	Bestseller, Preise, Produkt, QA, Bewertungen, Suche, Verkäufer	Produkt, Preise, Bewertungen, QA, Suche, Verkäufer	Produkt
Gerätetyp	✅	✅	❌
Domain	✅	✅	❌
Lieferort	✅	✅	❌
Pagination	Start, Anzahl der Seiten	Start, Anzahl der Seiten	❌

Daten-Parsing

Die Parsing-Fähigkeiten variieren zwischen den Anbietern. Einige bieten spezialisierte APIs mit integrierten Parsern an, während andere Selektoren für manuelles Parsing bereitstellen. Die allgemeinen Parsing-Fähigkeiten sind wie folgt:

Anbieter	Manuelles Parsing	Suchmaschinen-Parser	E-Commerce-Parser
Oxylabs	❌ Unterstützt kein manuelles Parsing.	Google	Amazon, Walmart, eBay, Wayfair, Target, Etsy, KI-Parsing
Bright Data	❌ Unterstützt kein manuelles Parsing.	Google, Bing, Yandex, DuckDuckGo	❌ Kein spezialisiertes E-Commerce-Parsing.
Smartproxy	❌ Unterstützt kein manuelles Parsing.	Google	Amazon
Zyte	CSS-Selektoren	❌ Kein spezialisiertes Suchmaschinen-Parsing.	❌ Kein spezialisiertes E-Commerce-Parsing.
Rayobyte	CSS-, XPath-Selektoren	Google	❌ Kein spezialisiertes E-Commerce-Parsing.
ScraperAPI	❌ Unterstützt kein manuelles Parsing.	Google	Amazon
Shifter	CSS-Selektoren	Google, Bing, Yandex	❌ Kein spezialisiertes Parsing.

Vorgefertigte Parser für Google sind üblich, und manuelles Parsing wird von einigen Anbietern angeboten. Spezialisierte Parser für Amazon sind verfügbar, wobei Oxylabs Ziele über Amazon hinaus unterstützt.

Google-Parsing

Google-Parsing	Oxylabs	Bright Data	Smartproxy	Rayobyte	ScraperAPI	Shifter
Datenformate	JSON, CSV	JSON	JSON	JSON	JSON	JSON
Parsbare Elemente	SERP	✅ Unterstützt das Parsen der Suchergebnisseite (SERP).	✅ Unterstützt das Parsen der SERP.	✅ Unterstützt das Parsen der SERP.	✅ Unterstützt das Parsen der SERP.
Suchtypen (tbms)	Bilder, Nachrichten, Shopping	Bilder, Nachrichten, Shopping, Videos, Karten, Hotels	Shopping	❌ Unterstützt keine Angabe von Suchtypen.	Shopping	Bilder, Nachrichten, Shopping, Videos, Karten
Sonstiges	Anzeigen, Autovervollständigung, umgekehrte Bildsuche, monatliches Suchvolumen, Trends	Umgekehrte Bildsuche, Trends, Bewertungen	Anzeigen, Autovervollständigung, Trends	❌ Unterstützt kein spezialisiertes Parsing.	❌ Unterstützt kein spezialisiertes Parsing.	Autovervollständigung, umgekehrte Bildsuche, Scholar, Play, Trends

Amazon-Parsing

Amazon-Parsing	Oxylabs	Smartproxy	Rayobyte	ScraperAPI
Datenformate	JSON	JSON	JSON	JSON
Parsbare Elemente	Suche	✅ Unterstützt das Parsen von Suchergebnissen.	✅ Unterstützt das Parsen von Suchergebnissen.	✅ Unterstützt das Parsen von Angebotslisten.
Produkt	✅ Unterstützt das Parsen von Produktinformationen.	✅ Unterstützt das Parsen von Produktinformationen.	✅ Unterstützt das Parsen von Produktinformationen.
Bewertungen	✅ Unterstützt das Parsen von Bewertungen.	❌ Unterstützt kein Parsing von Bewertungen.	✅ Unterstützt das Parsen von Bewertungen.
Sonstiges	Bestseller, ASIN-Preise, QA, Verkäuferinfo	ASIN-Preise, QA	❌ Unterstützt kein spezialisiertes Parsing.	❌ Unterstützt kein spezialisiertes Parsing.

Leistungsbenchmarks von Web Scraping APIs

In einer umfassenden Bewertung von Web-Scraping-APIs wurde ein benutzerdefiniertes Python-Skript unter Verwendung der Asyncio- und AIOHTTP-Bibliotheken für asynchrone Anfragen mit einem Timeout von 150 Sekunden eingesetzt.

Der Fokus lag auf der Bewertung von Google, Amazon und einer fotofokussierten Social-Media-Plattform in verschiedenen Szenarien.

import asyncio
import aiohttp
from aiohttp import ClientSession

async def fetch_data(session: ClientSession, url: str, timeout: int = 150) -> dict:
    try:
        async with session.get(url, timeout=timeout) as response:
            return await response.json()
    except aiohttp.ClientError as e:
        print(f"Fehler beim Abrufen von Daten von {url}: {e}")
        return {}

async def scrape_google():
    google_url = "https://www.google.com"
    async with aiohttp.ClientSession() as session:
        google_data = await fetch_data(session, google_url)
        print("Google-Daten:", google_data)

async def scrape_amazon():
    amazon_url = "https://www.amazon.com"
    async with aiohttp.ClientSession() as session:
        amazon_data = await fetch_data(session, amazon_url)
        print("Amazon-Daten:", amazon_data)

async def main():
    tasks = [
        scrape_google(),
        scrape_amazon(),
    ]
    await asyncio.gather(*tasks)

if __name__ == "__main__":
    asyncio.run(main())

Google

Unverarbeitete Ergebnisse

Anbieter	Erfolgsquote	Durchschn. Antwortzeit (s)
Oxylabs	100%	6.04
Bright Data	98.42%	4.62
Smartproxy	100%	6.09
Zyte	99.47%	4.72
Rayobyte	100%	6.53
ScraperAPI	94.10%	12.58
Shifter	81.76%	1.67

Die meisten APIs zeigten gute Leistungen, mit bemerkenswerten Ausnahmen. Shifters universeller Scraper hatte Herausforderungen mit Google, was zu einem 429-Erkennungsfehler bei jeder fünften Anfrage führte. Die spezialisierte API verbesserte die Leistung, erlebte jedoch eine Geschwindigkeitsabnahme.

Verarbeitete Ergebnisse

Anbieter	Erfolgsquote	Durchschn. Antwortzeit (s)
Oxylabs	99.90%	6.15
Bright Data	99.71%	6.03
Smartproxy	99.85%	6.04
Zyte	–	10.03
Rayobyte	99.93%	13.24
ScraperAPI	96.88%	10.08
Shifter	96.65%	–

Die Verwendung eines Datenparsers hatte minimale Auswirkungen auf die Antwortzeit, außer bei Rayobyte, das eine dreisekündige Verzögerung in den JSON-Ergebnissen aus unerklärlichen Gründen zeigte.

Amazon

Anbieter	Erfolgsquote	Durchschn. Antwortzeit (s)
Oxylabs	100%	4.69
Bright Data	98.42%	4.31
Smartproxy	100%	4.66
Zyte	85.50%	4.51
Rayobyte	95.60%	20.70
ScraperAPI	95.80%	9.69
Shifter	98.80%	5.35

Bright Data, Oxylabs und Smartproxy lieferten konsequent hervorragende Ergebnisse. Rayobytes langsame Reaktion wurde auf die Standardnutzung von Rechenzentrums-IPs für Amazon zurückgeführt, was mehrfache Anfrageversuche erforderte. Zyte stieß auf 520-Fehler, und ScraperAPI spiegelte seine Leistung bei Google wider. Shifter schnitt gut ab, aber sein Scraper hatte Herausforderungen.

GraphQL-Endpunkt

Anbieter	Erfolgsquote	Durchschn. Antwortzeit (s)
Oxylabs	100%	17.89
Bright Data	73.40%	3.71
Smartproxy	100%	8.95
Zyte	98.40%	2.59
Rayobyte	80%	4.52
ScraperAPI*	24.80%	8.08
Shifter	54.80%	1.77

Der GraphQL-Endpunkt stellte eine ernsthafte Herausforderung dar, wobei Shifter selbst mit aktiviertem Rendering Probleme hatte. ScraperAPI hatte Schwierigkeiten, während Zyte sich mit beachtlicher Leistung hervortat.

Headless-Rendering

Anbieter	Erfolgsquote	Durchschn. Antwortzeit (s)
Oxylabs	100%	28.88
Bright Data	100%	4.10
Smartproxy	100%	29.09
Zyte	94.00%	28.14
Rayobyte	98.60%	23.05
ScraperAPI*	98.20%	16.05
Shifter	62.40%	4.42

Der Headless-Test war verzeihender, wobei Bright Data überlegene Ergebnisse zeigte. Shifter war schnell, hatte aber Fehler. ScraperAPI zeigte verbesserte Leistung, und Oxylabs sowie Smartproxy hielten Erfolgsquoten auf Kosten einiger Geschwindigkeit.

Parallelität

Die Parallelität variierte, wobei Bright Data, Smartproxy und Oxylabs hohe parallele Anfragen zuließen. Rayobyte und Zyte hatten restriktivere Standardlimits, die hauptsächlich für Unternehmensbedürfnisse gelten.

Anbieter	Parallelität
Oxylabs	5 Anfragen/s bis unbegrenzt
Bright Data	Unbegrenzt
Smartproxy	Unspezifiziert
Zyte	2 Anfragen/s
Rayobyte	100 Anfragen/Min.
ScraperAPI	200-400 Threads
Shifter	Unspezifiziert

Bewertung der Parsing-Fähigkeiten in Web-Scraping-APIs

In einer differenzierten Untersuchung der Web-Scraping-APIs wurde ein qualitativer Test durchgeführt, um ihre Parsing-Fähigkeiten an vier verschiedenen Seitentypen zu bewerten: lokalisierte Google-Suchanfrage auf dem Desktop, lokalisierte Google-Suchanfrage auf dem Mobilgerät, Google Shopping-Anfrage und Amazon-Produktseiten.

Google SERP, Lokalisierte Desktop-Anfrage

Für die lokalisierte Desktop-Anfrage "bester Friseur in meiner Nähe" in London wurden die APIs anhand verschiedener Elemente bewertet:

Anbieter	Lokalisiert	Organisch	Snack Pack	Karte	Verwandte Suchanfragen	Personen fragen auch
Oxylabs	✅	✅	✅	❌	✅	✅
Bright Data	✅	✅	✅	✅	✅	✅
Smartproxy	✅	✅	✅	❌	✅	✅
Rayobyte	✅	✅	✅	❌	✅	✅
ScraperAPI	✅	✅	❌	❌	✅	✅
Shifter	❌	✅	✅	❌	✅	✅

Während ScraperAPI und Rayobyte sich auf wesentliche Informationen konzentrierten, zielten andere darauf ab, die gesamte SERP zu parsen. Auffallend war, dass Bright Data sogar einen Screenshot der Karte lieferte. Shifter hatte Probleme mit dem Standortparameter, was die Abfrage lokaler Ergebnisse erschwerte.

Google SERP, Lokalisierte Mobile Anfrage

Die mobile Anfrage mit den gleichen Parametern wie die Desktop-Anfrage lieferte folgende Ergebnisse:

Anbieter	Lokalisiert	Organisch	Snack Pack	Karte	Verwandte Suchanfragen	Personen fragen auch
Oxylabs	✅	✅	✅	❌	✅	✅
Bright Data	✅	✅	✅	✅	✅	✅
Smartproxy	✅	✅	✅	❌	✅	✅
Rayobyte	✅	✅	✅	❌	✅	✅
ScraperAPI	✅	✅	❌	❌	✅	✅
Shifter	❌	✅	✅	❌	✅	✅

Bright Data, Oxylabs und Smartproxy lieferten vollständige und genaue Ergebnisse. ScraperAPI versagte jedoch beim Scraping, und Shifters mobiler Parser beschränkte sich auf Hauptelemente der Seite und ließ lokale Daten aus.

Google Shopping

Die Google Shopping-Anfrage für "Nike Air Max" in London wurde in verschiedenen Aspekten analysiert:

Anbieter	Lokalisiert	Suchfilter	Anzeigen	Artikel	Preise	Händler	Lieferung	Bewertung	Sonstiges
Oxylabs	✅	✅	❌	✅	✅	✅	❌	✅
Bright Data	❌	❌	❌	✅	✅	✅	✅	✅	Preisvergleich
Smartproxy	✅	✅	❌	✅	✅	❌	✅	✅
ScraperAPI	✅	❌	✅	✅	✅	✅	✅	✅	Materialfilter, verwandte Suchanfragen, Preisvergleich
Shifter	❌	❌	✅	✅	✅	✅	❌	✅

ScraperAPI lieferte die umfassendsten Ergebnisse, einschließlich verwandter Suchanfragen und des "Das könnte Ihnen auch gefallen"-Blocks. Es gelang ihm, Anzeigenergebnisse abzurufen, ein Merkmal, das bei anderen Anbietern fehlte. Bright Data und Shifter scheiterten daran, die Seite für diese spezifische Anfrage zu lokalisieren.

Amazon-Produktseiten

Verschiedene Produktseiten von Kunstbedarf, Küchenutensilien und Elektronik wurden zum Parsen ausgewählt. Die Bewertung umfasste Elemente wie Brotkrumen, Artikelinformationen, Bilder, Preise, Händlerinformationen, Verfügbarkeit, Bestseller-Rang, Lieferung, Bewertung und Garantie.

Anbieter	Brotkrumen	Artikel	Bilder	Artikelvarianten	Preise	Händler	Verfügbarkeit	Bestseller-Rang	Lieferung	Bewertung	Garantie
Oxylabs	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Smartproxy	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Rayobyte	✅	✅	✅	❌	✅	✅	❌	✅	❌	✅	❌
ScraperAPI	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	❌

Alle vier APIs zeigten die Fähigkeit, die meisten Seitenelemente zu parsen. Oxylabs und Smartproxy lieferten die umfassendsten Ergebnisse, einschließlich Rabatten, Lieferung und Garantieinformationen. Rayobytes Parser war weniger informativ und schloss Artikelvarianten, Lieferung und Garantieinformationen aus. Shifter wählte den Ausschluss von Kaufbox-Daten und erlebte einige Formatierungsfehler.

Zusammenfassend enthüllte dieser qualitative Test die unterschiedlichen Parsing-Fähigkeiten von Web-Scraping-APIs und beleuchtete ihre Stärken und Grenzen bei verschiedenen Arten von Webseiten.

Preisgestaltungsmodelle

Web-Scraping-APIs verwenden überwiegend ein auf erfolgreichen Anfragen basierendes Preisstrukturmodell, was die Berechnung der Ausgaben vereinfacht. Anbieter berechnen in der Regel auf Basis der Anzahl erfolgreicher Anfragen, wodurch Benutzer Kosten leicht abschätzen können. Das Standardmaß für den Vergleich ist der CPM (Kosten pro 1.000 Anfragen).

Anbieter	Preisgestaltungsmodell	Struktur	Startpreis	Testversion
Oxylabs	Abonnement	Erfolgreiche Anfragen	$99	5.000 Anfragen für eine Woche
Bright Data	Pay-as-you-go, Abonnement	Erfolgreiche Anfragen	$3 (Pay-as-you-go), $500 (Plan)	7 Tage für Unternehmen
Smartproxy	Abonnement	Erfolgreiche Anfragen	$50	3.000 Anfragen für 3 Tage
Zyte	Pay-as-you-go, Abonnement	Erfolgreiche Anfragen	$0 (Pay-as-you-go), $25 (Plan)	$5 Gratis-Guthaben
Rayobyte	Pay-as-you-go	Erfolgreiche Anfragen	$0.0018/Anfrage	5.000 kostenlos pro Monat (erneuert)
ScraperAPI	Abonnement	Erfolgreiche Anfragen	$49	5.000 Credits für eine Woche
Shifter	Abonnement	Erfolgreiche Anfragen	$44	Geld-zurück-Garantie

Das dominierende Preisgestaltungsmodell bleibt das monatliche Abonnement, aber es gibt Variationen. Zyte führt einen interessanten Ansatz ein, bei dem Benutzer ein monatliches Limit festlegen und jeden Monat die Hälfte im Voraus bezahlen. Bemerkenswert ist, dass Testversionen bei den meisten Anbietern verfügbar sind, mit einem Standardangebot von 5.000 Anfragen.

Berechnung des Preises pro Anfrage

Obwohl das Preisgestaltungsmodell einfach erscheint, führen einige Web-Scraping-APIs Komplexitäten bei der Berechnung des Preises einer Anfrage ein.

Faktoren wie die Zielwebsite, JavaScript-Rendering, Wohn-Proxy und mehr tragen zu Preisänderungen bei, was zu signifikanten Kostenvariationen führt.

Anbieter	Preisänderungsfaktoren	Max. Preisunterschied
Oxylabs	Suchmaschinen, E-Commerce-Websites	x2-3
Bright Data	–	x1
Smartproxy	Suchmaschinen, E-Commerce-Websites	x1.5-3
Zyte	Ziel, JS-Rendering, Premium-Proxies, Screenshots, Browseraktionen	Individuell
Rayobyte	–	x1
ScraperAPI	Premium, Super-Premium-Proxies, Premium-Ziele, JS-Rendering	x75
Shifter	Premium-Proxies, JS-Rendering, Suchmaschinen	x25

ScraperAPI sticht mit einer komplexen Struktur hervor, die drei Ebenen von Proxy-Netzwerken und JavaScript-Rendering umfasst.

Die Preisgestaltung variiert je nach Faktoren wie der Verwendung von Wohn-Proxies, Headless-Scraping und Tarifen für spezifische Websites wie Google, Amazon und soziale Medien.

Oxylabs und Smartproxy verfolgen einen Differenzierungsansatz, mit höheren Kosten für Suchmaschinen-Scraper und etwa doppelten Ausgaben für E-Commerce-Scraper.

Shifter folgt einer ähnlichen Strategie für Suchmaschinen, während sein regulärer Scraper sich an ScraperAPIs Struktur orientiert.

Bright Data und Rayobyte halten ihre Preisgestaltung unabhängig davon konstant, ob sie benutzerdefinierte Scraper verwenden oder JavaScript rendern, was das Scraping von herausfordernden Zielen vereinfacht.

Zyte berechnet andererseits dynamisch den Preis pro Anfrage für jede Website, wobei Schwierigkeiten, JavaScript-Rendering, Screenshots und Browseraktionen berücksichtigt werden. Dieser dynamische Ansatz erschwert es, Ausgaben im Voraus abzuschätzen.

Fazit

Die Landschaft der Web-Scraping-APIs ist dynamisch und bietet vielfältige Funktionen und Preisstrukturen.

Wichtige Erkenntnisse sind die Entwicklung fortgeschrittener Funktionen, die Ausrichtung auf große Websites wie Google und Amazon sowie die Bedeutung von Parsing-Fähigkeiten.

Leistung und Zuverlässigkeit variieren, wobei Oxylabs, Smartproxy und Bright Data als zuverlässige Akteure hervorgehen.

Preismodelle basieren im Allgemeinen auf erfolgreichen Anfragen, aber einige Anbieter führen mit differenzierten Preisen Komplexität ein.

Organisationen sollten ihre Bedürfnisse und Budgetbeschränkungen sorgfältig abwägen, wenn sie eine Web-Scraping-API auswählen, und Faktoren wie Datenausgabe, Anpassung und Parsing-Fähigkeiten berücksichtigen. Eine kontinuierliche Überwachung ist in diesem wettbewerbsintensiven und sich entwickelnden Ökosystem unerlässlich.

Illustration einer Gruppe von Menschen, die vor einem Computer mit einem Fragezeichen-Monitor sitzen

Häufig gestellte Fragen

Wie handhaben Web-Scraping-APIs die Preisgestaltung?

Web-Scraping-APIs folgen typischerweise einem Preisgestaltungsmodell, das auf erfolgreichen Anfragen basiert. Benutzer werden für die Anzahl der erfolgreich abgeschlossenen Anfragen berechnet. Einige Anbieter führen zusätzliche Komplexitäten ein, wie differenzierte Preise für spezifische Websites oder Funktionen.

Welche Schlüsselfunktionen sollte man bei der Bewertung einer Web-Scraping-API berücksichtigen?

Wichtige Funktionen umfassen das Datenoutputformat, Anpassungsoptionen (z.B. Auswahl des Standorts, Gerätespezifikation), Parsing-Fähigkeiten und Leistung/Zuverlässigkeit. Auch die Berücksichtigung der Zielwebsites und die Fähigkeit, dynamische Inhalte und JavaScript zu handhaben, sind entscheidend.

Welche Herausforderungen gibt es beim Web-Scraping und wie können sie angegangen werden?

Herausforderungen umfassen den Umgang mit dynamischen Inhalten, CAPTCHAs und Änderungen in der Website-Struktur.

Um diese Herausforderungen anzugehen, wählen Sie eine Web-Scraping-API mit robusten Parsing-Fähigkeiten und Unterstützung für JavaScript-Rendering und erwägen Sie die Implementierung von Techniken wie rotierenden Proxies und Benutzeragenten, um eine Erkennung zu vermeiden. Überwachen und passen Sie Ihre Scraping-Strategie regelmäßig an, da sich Websites weiterentwickeln.

Für weiterführende Lektüre könnten Sie sich für Folgendes interessieren: