In den letzten Jahren hat der Anstieg der Web-Scraping-Aktivitäten zur Entstehung verschiedener APIs geführt, die von Proxy-Diensten und Datenbeschaffungsunternehmen bereitgestellt werden.
Dieser Bericht befasst sich mit sieben herausragenden Anbietern im Bereich der Web-Scraping-APIs und analysiert deren Funktionen, Scraping-Fähigkeiten, Parsing-Effizienz und Kosten-Nutzen-Verhältnis.
Mit Fokus auf drei Schlüsselkategorien von Websites – Suchmaschinen, E-Commerce-Plattformen und soziale Medien – zielen wir darauf ab, Einblicke in den sich entwickelnden Bereich der Web-Scraping-APIs zu geben.
Evolution der Web Scraping APIs
Web-Scraping-APIs fungieren als entfernte Web-Scraper, die API-Anfragen mit Ziel-URLs und optionalen Parametern annehmen.
Hinter den Kulissen nutzen diese APIs Proxies, Header und sogar Headless-Browser, um HTML-Inhalte abzurufen. Einige fortschrittliche APIs verwenden KI-Vision und Mustererkennung für anspruchsvolle Aufgaben.
Preismodelle basieren oft auf erfolgreichen Anfragen, was Vorhersehbarkeit gewährleistet. Allerdings weisen einige Anbieter undurchsichtige Preisstrukturen auf.
Schlüsseleinsichten
➡️ Datenoutput und Parsing:
- Sechs von sieben APIs geben rohes HTML zurück, mit fortgeschrittenen Parsern für spezifische Websites.
- Google und Amazon sind die am meisten angezielten Websites, wobei Oxylabs ein maschinelles Lernmodell für das Parsen der meisten E-Commerce-Stores bietet.
➡️ Datentransfer und Anpassung:
- APIs übertragen Daten über offene Verbindungen und fungieren oft als Proxies für eine nahtlose Integration.
- Anpassungsoptionen beinhalten die Auswahl des Standorts, Gerätespezifikationen und benutzerdefinierte Header.
- Vier APIs akzeptieren CSS-Selektoren und drei unterstützen Browser-Interaktionen für dynamische Scraping-Szenarien.
➡️ Leistung und Zuverlässigkeit:
- Leistungstests zeigen unterschiedliche Geschwindigkeiten, wobei einige APIs beim Scraping von Google und Amazon hervorragend abschneiden.
- Soziale Medien, insbesondere GraphQL, stellen für viele APIs eine Herausforderung dar.
- Oxylabs, Smartproxy und Bright Data erweisen sich als die zuverlässigsten Anbieter mit robusten Parsern.
➡️ Preismodelle:
- Bright Data verlangt einen einheitlichen Preis für alle Funktionen, während Oxylabs und Smartproxy Preise nach Zielgruppe differenzieren.
- ScraperAPI und Zyte verwenden gestaffelte Preise, wobei die Tarife je nach Zielwebsite deutlich variieren.
Teilnehmerübersicht
Wir haben uns mit sieben führenden Unternehmen befasst, die Web-Scraping-APIs anbieten, darunter etablierte Namen und Proxy-Anbieter, die in diesen Bereich wechseln.
Die Teilnehmer gewährten uns bereitwillig Zugang zu ihren APIs für das Scraping von Google, Amazon und einem sozialen Netzwerk.
Teilnehmersnapshot
API | Getestete APIs | Startpreis |
---|---|---|
Oxylabs | Web Scraper API, SERP Scraper API, E-Commerce Scraper API | $99 |
Bright Data | Web Unlocker, SERP API | $3 (Pay-as-you-go), $500 (Plan) |
Smartproxy | Web Scraping API, SERP Scraping API, E-Commerce Scraping API | $50 |
Zyte | Zyte API | $0 (Pay-as-you-go), $25 (Plan) |
Rayobyte | Scraping Robot | $0.0018/Anfrage |
ScraperAPI | ScraperAPI | $49 |
Shifter | Web Scraping API, SERP API | $44.95 |
Übersicht der Funktionen
Integrationsmethoden
Theoretisch verwenden alle Web-Scraping-APIs dieselbe Grundstruktur: Es gibt einen Endpunkt, an den Sie URLs senden, die Sie mit einem oder mehreren Parametern scrapen möchten.
In der Praxis kann die Implementierung jedoch erheblich variieren. Hier sind die vier Hauptmethoden, auf die wir gestoßen sind:
Anbieter | API (offene Verbindung) | API (asynchron) | Proxy | Bibliothek/SDK |
---|---|---|---|---|
Oxylabs | ✅ Offene Verbindung für Anfragen. | ✅ Unterstützt asynchrone Lieferung. | ✅ Kann als Proxy integriert werden. | ❌ Keine dedizierte Bibliothek oder SDK. |
Bright Data | ❌ Keine Methode mit offener Verbindung. | ✅ Unterstützt asynchrone Lieferung. | ✅ Kann als Proxy integriert werden. | ❌ Keine dedizierte Bibliothek oder SDK. |
Smartproxy | ✅ Methode mit offener Verbindung verfügbar. | ❌ Unterstützt keine asynchrone Lieferung. | ✅ Kann als Proxy integriert werden. | ❌ Keine dedizierte Bibliothek oder SDK. |
Zyte | ✅ Offene Verbindung für Anfragen. | ❌ Unterstützt keine asynchrone Lieferung. | ❌ Kann als Proxy verwendet werden. | ✅ Bietet eine Bibliothek/SDK. |
Rayobyte | ✅ Offene Verbindung für Anfragen. | ❌ Unterstützt keine asynchrone Lieferung. | ❌ Kann als Proxy verwendet werden. | ❌ Keine dedizierte Bibliothek oder SDK. |
ScraperAPI | ✅ Methode mit offener Verbindung. | ✅ Unterstützt asynchrone Lieferung. | ✅ Kann als Proxy integriert werden. | ✅ Bietet eine Bibliothek/SDK. |
Shifter | ✅ Offene Verbindung für Anfragen. | ❌ Unterstützt keine asynchrone Lieferung. | ❌ Kann als Proxy verwendet werden. | ✅ Bietet eine Bibliothek/SDK. |
- API (offene Verbindung):Offene Verbindung bedeutet, Anfragen an einen API-Endpunkt zu senden und auf die Antwort zu warten. GET- und POST-Methoden werden verwendet, mit Variationen in der Implementierung.
- API (asynchron): Asynchrone Lieferung ermöglicht das Senden von API-Aufrufen mit einer ID und das Abrufen von Ergebnissen über einen Webhook, was für das Massen-Scraping nützlich ist.
- Proxy: Die meisten APIs können als Proxies integriert werden, was den Übergang von regulären Proxy-Servern erleichtert.
- Bibliothek/SDK: Einige Anbieter bieten SDKs für zusätzlichen Komfort an.
HTML-Scraping
Allgemeine APIs haben einen Endpunkt, der versucht, jede Website zu scrapen, und geben Seiten in rohem HTML zurück.
Alle Teilnehmer bieten eine API für allgemeines Scraping an:
Anbieter | Relevantes Werkzeug |
---|---|
Oxylabs | Web Scraper API |
Bright Data | Web Unlocker |
Smartproxy | Web Scraping API |
Zyte | Zyte API |
Rayobyte | Scraping Robot |
ScraperAPI | ScraperAPI |
Shifter | Web Scraping API |
Parameter wie Geolokalisierung, Wohn-Proxy, Gerätetyp, Sitzungen, Cookies und Dateneingabe sind bei APIs üblich.
Headless-Scraping
Headless-Scraping ist entscheidend, um Website-Schutzsysteme zu überwinden.
Die meisten Anbieter verwalten Headless-Browser für Sie:
Anbieter | JavaScript-Rendering | Screenshots | Browser-Aktionen |
---|---|---|---|
Oxylabs | ✅ JavaScript-Rendering ist universell verfügbar. | ✅ Unterstützt das Erstellen von Screenshots. | ❌ Unterstützt keine direkten Browser-Interaktionen. |
Bright Data | ✅ JavaScript wird automatisch gehandhabt. | ❌ Unterstützt keine Screenshots. | ❌ Unterstützt keine direkten Browser-Interaktionen. |
Smartproxy | ✅ JavaScript-Rendering ist universell verfügbar. | ✅ Unterstützt das Erstellen von Screenshots. | ❌ Unterstützt keine direkten Browser-Interaktionen. |
Zyte | ✅ JavaScript-Rendering ist universell verfügbar. | ✅ Unterstützt das Erstellen von Screenshots. | ✅ Ermöglicht direkte Browser-Interaktionen. |
Rayobyte | ✅ JavaScript-Rendering ist universell verfügbar. | ✅ Unterstützt das Erstellen von Screenshots. | ✅ Ermöglicht direkte Browser-Interaktionen. |
ScraperAPI | ✅ JavaScript-Rendering ist universell verfügbar. | ❌ Unterstützt keine Screenshots. | ❌ Unterstützt keine direkten Browser-Interaktionen. |
Shifter | ✅ JavaScript-Rendering ist universell verfügbar. | ✅ Unterstützt das Erstellen von Screenshots. | ✅ Ermöglicht fortgeschrittene Browser-Interaktionen. |
JavaScript-Rendering ist universell verfügbar, und einige Anbieter ermöglichen Interaktionen mit dem Browser, wie Klicken und Scrollen.
Spezialisierte APIs
Spezialisierte APIs zielen auf spezifische Websitegruppen ab, um Kompatibilität und strukturiertes Scraping zu gewährleisten:
Anbieter | Suchmaschinen-APIs | E-Commerce-APIs | Social-Media-APIs |
---|---|---|---|
Oxylabs | Google, Baidu, Bing, Yandex | Amazon, Walmart, eBay, Wayfair + 7 weitere | ❌ |
Bright Data | Google, Bing, DuckDuckGo, Yandex | ❌ | ❌ |
Smartproxy | Google, Baidu, Bing, Yandex | Amazon, Idealo, Wayfair | ❌ |
Zyte | ❌ Keine spezialisierte Suchmaschinen-API. | ❌ Keine spezialisierte E-Commerce-API. | ❌ |
Rayobyte | Amazon | ❌ | |
ScraperAPI | ❌ Keine spezialisierte Suchmaschinen-API. | ❌ Keine spezialisierte E-Commerce-API. | ❌ |
Shifter | Google, Bing, Yandex | ❌ | ❌ |
Suchmaschinen und E-Commerce-Seiten sind häufige Ziele, wobei Google und Amazon am meisten Beachtung finden.
Google-Funktionen
Google-Funktionen | Oxylabs | Bright Data | Smartproxy | Rayobyte | Shifter |
---|---|---|---|---|---|
APIs | Suche, Anzeigen, Hotels, Bilder, Autovervollständigung, Suchvolumen, Trends | Suche, Karten, Trends, Bewertungen, Hotels, umgekehrte Bildsuche | Suche, Anzeigen, Hotels, Bilder, Autovervollständigung, Trends | Suche | Suche, Karten, Autovervollständigung, Scholar, Produkte, umgekehrte Bildsuche, Jobs, Events, Google Play, Trends |
Suchtyp (tbm) | ✅ Unterstützt das Angeben von Suchtypen. | ✅ Unterstützt das Angeben von Suchtypen. | ✅ Unterstützt das Angeben von Suchtypen. | ❌ Unterstützt keine Angabe von Suchtypen. | ✅ Unterstützt das Angeben von Suchtypen. |
Gerätetyp | ✅ Unterstützt das Angeben von Gerätetypen. | ✅ Unterstützt das Angeben von Gerätetypen. | ✅ Unterstützt das Angeben von Gerätetypen. | ❌ Unterstützt keine Angabe von Gerätetypen. | ✅ Unterstützt das Angeben von Gerätetypen. |
Standortauswahl | Stadtebene | Stadtebene | Stadtebene | Länderebene | Stadtebene |
Lokalisierung | Domain, Sprache | Domain, Sprache | Domain, Sprache | Domain, Sprache | Domain, Sprache |
Pagination | Start, Anzahl der Seiten | Start, Anzahl der Seiten | Start, Anzahl der Seiten | Anzahl der Seiten | Start, Anzahl der Seiten |
Amazon-Funktionen
Amazon-Funktionen | Oxylabs | Smartproxy | Rayobyte |
---|---|---|---|
APIs | Bestseller, Preise, Produkt, QA, Bewertungen, Suche, Verkäufer | Produkt, Preise, Bewertungen, QA, Suche, Verkäufer | Produkt |
Gerätetyp | ✅ | ✅ | ❌ |
Domain | ✅ | ✅ | ❌ |
Lieferort | ✅ | ✅ | ❌ |
Pagination | Start, Anzahl der Seiten | Start, Anzahl der Seiten | ❌ |
Daten-Parsing
Die Parsing-Fähigkeiten variieren zwischen den Anbietern. Einige bieten spezialisierte APIs mit integrierten Parsern an, während andere Selektoren für manuelles Parsing bereitstellen. Die allgemeinen Parsing-Fähigkeiten sind wie folgt:
Anbieter | Manuelles Parsing | Suchmaschinen-Parser | E-Commerce-Parser |
---|---|---|---|
Oxylabs | ❌ Unterstützt kein manuelles Parsing. | Amazon, Walmart, eBay, Wayfair, Target, Etsy, KI-Parsing | |
Bright Data | ❌ Unterstützt kein manuelles Parsing. | Google, Bing, Yandex, DuckDuckGo | ❌ Kein spezialisiertes E-Commerce-Parsing. |
Smartproxy | ❌ Unterstützt kein manuelles Parsing. | Amazon | |
Zyte | CSS-Selektoren | ❌ Kein spezialisiertes Suchmaschinen-Parsing. | ❌ Kein spezialisiertes E-Commerce-Parsing. |
Rayobyte | CSS-, XPath-Selektoren | ❌ Kein spezialisiertes E-Commerce-Parsing. | |
ScraperAPI | ❌ Unterstützt kein manuelles Parsing. | Amazon | |
Shifter | CSS-Selektoren | Google, Bing, Yandex | ❌ Kein spezialisiertes Parsing. |
Vorgefertigte Parser für Google sind üblich, und manuelles Parsing wird von einigen Anbietern angeboten. Spezialisierte Parser für Amazon sind verfügbar, wobei Oxylabs Ziele über Amazon hinaus unterstützt.
Google-Parsing
Google-Parsing | Oxylabs | Bright Data | Smartproxy | Rayobyte | ScraperAPI | Shifter |
---|---|---|---|---|---|---|
Datenformate | JSON, CSV | JSON | JSON | JSON | JSON | JSON |
Parsbare Elemente | SERP | ✅ Unterstützt das Parsen der Suchergebnisseite (SERP). | ✅ Unterstützt das Parsen der SERP. | ✅ Unterstützt das Parsen der SERP. | ✅ Unterstützt das Parsen der SERP. | |
Suchtypen (tbms) | Bilder, Nachrichten, Shopping | Bilder, Nachrichten, Shopping, Videos, Karten, Hotels | Shopping | ❌ Unterstützt keine Angabe von Suchtypen. | Shopping | Bilder, Nachrichten, Shopping, Videos, Karten |
Sonstiges | Anzeigen, Autovervollständigung, umgekehrte Bildsuche, monatliches Suchvolumen, Trends | Umgekehrte Bildsuche, Trends, Bewertungen | Anzeigen, Autovervollständigung, Trends | ❌ Unterstützt kein spezialisiertes Parsing. | ❌ Unterstützt kein spezialisiertes Parsing. | Autovervollständigung, umgekehrte Bildsuche, Scholar, Play, Trends |
Amazon-Parsing
Amazon-Parsing | Oxylabs | Smartproxy | Rayobyte | ScraperAPI |
---|---|---|---|---|
Datenformate | JSON | JSON | JSON | JSON |
Parsbare Elemente | Suche | ✅ Unterstützt das Parsen von Suchergebnissen. | ✅ Unterstützt das Parsen von Suchergebnissen. | ✅ Unterstützt das Parsen von Angebotslisten. |
Produkt | ✅ Unterstützt das Parsen von Produktinformationen. | ✅ Unterstützt das Parsen von Produktinformationen. | ✅ Unterstützt das Parsen von Produktinformationen. | |
Bewertungen | ✅ Unterstützt das Parsen von Bewertungen. | ❌ Unterstützt kein Parsing von Bewertungen. | ✅ Unterstützt das Parsen von Bewertungen. | |
Sonstiges | Bestseller, ASIN-Preise, QA, Verkäuferinfo | ASIN-Preise, QA | ❌ Unterstützt kein spezialisiertes Parsing. | ❌ Unterstützt kein spezialisiertes Parsing. |
Leistungsbenchmarks von Web Scraping APIs
In einer umfassenden Bewertung von Web-Scraping-APIs wurde ein benutzerdefiniertes Python-Skript unter Verwendung der Asyncio- und AIOHTTP-Bibliotheken für asynchrone Anfragen mit einem Timeout von 150 Sekunden eingesetzt.
Der Fokus lag auf der Bewertung von Google, Amazon und einer fotofokussierten Social-Media-Plattform in verschiedenen Szenarien.
import asyncio
import aiohttp
from aiohttp import ClientSession
async def fetch_data(session: ClientSession, url: str, timeout: int = 150) -> dict:
try:
async with session.get(url, timeout=timeout) as response:
return await response.json()
except aiohttp.ClientError as e:
print(f"Fehler beim Abrufen von Daten von {url}: {e}")
return {}
async def scrape_google():
google_url = "https://www.google.com"
async with aiohttp.ClientSession() as session:
google_data = await fetch_data(session, google_url)
print("Google-Daten:", google_data)
async def scrape_amazon():
amazon_url = "https://www.amazon.com"
async with aiohttp.ClientSession() as session:
amazon_data = await fetch_data(session, amazon_url)
print("Amazon-Daten:", amazon_data)
async def main():
tasks = [
scrape_google(),
scrape_amazon(),
]
await asyncio.gather(*tasks)
if __name__ == "__main__":
asyncio.run(main())
Unverarbeitete Ergebnisse
Anbieter | Erfolgsquote | Durchschn. Antwortzeit (s) |
---|---|---|
Oxylabs | 100% | 6.04 |
Bright Data | 98.42% | 4.62 |
Smartproxy | 100% | 6.09 |
Zyte | 99.47% | 4.72 |
Rayobyte | 100% | 6.53 |
ScraperAPI | 94.10% | 12.58 |
Shifter | 81.76% | 1.67 |
Die meisten APIs zeigten gute Leistungen, mit bemerkenswerten Ausnahmen. Shifters universeller Scraper hatte Herausforderungen mit Google, was zu einem 429-Erkennungsfehler bei jeder fünften Anfrage führte. Die spezialisierte API verbesserte die Leistung, erlebte jedoch eine Geschwindigkeitsabnahme.
Verarbeitete Ergebnisse
Anbieter | Erfolgsquote | Durchschn. Antwortzeit (s) |
---|---|---|
Oxylabs | 99.90% | 6.15 |
Bright Data | 99.71% | 6.03 |
Smartproxy | 99.85% | 6.04 |
Zyte | – | 10.03 |
Rayobyte | 99.93% | 13.24 |
ScraperAPI | 96.88% | 10.08 |
Shifter | 96.65% | – |
Die Verwendung eines Datenparsers hatte minimale Auswirkungen auf die Antwortzeit, außer bei Rayobyte, das eine dreisekündige Verzögerung in den JSON-Ergebnissen aus unerklärlichen Gründen zeigte.
Amazon
Anbieter | Erfolgsquote | Durchschn. Antwortzeit (s) |
---|---|---|
Oxylabs | 100% | 4.69 |
Bright Data | 98.42% | 4.31 |
Smartproxy | 100% | 4.66 |
Zyte | 85.50% | 4.51 |
Rayobyte | 95.60% | 20.70 |
ScraperAPI | 95.80% | 9.69 |
Shifter | 98.80% | 5.35 |
Bright Data, Oxylabs und Smartproxy lieferten konsequent hervorragende Ergebnisse. Rayobytes langsame Reaktion wurde auf die Standardnutzung von Rechenzentrums-IPs für Amazon zurückgeführt, was mehrfache Anfrageversuche erforderte. Zyte stieß auf 520-Fehler, und ScraperAPI spiegelte seine Leistung bei Google wider. Shifter schnitt gut ab, aber sein Scraper hatte Herausforderungen.
Fotozentrierte Social-Media-Plattform
GraphQL-Endpunkt
Anbieter | Erfolgsquote | Durchschn. Antwortzeit (s) |
---|---|---|
Oxylabs | 100% | 17.89 |
Bright Data | 73.40% | 3.71 |
Smartproxy | 100% | 8.95 |
Zyte | 98.40% | 2.59 |
Rayobyte | 80% | 4.52 |
ScraperAPI* | 24.80% | 8.08 |
Shifter | 54.80% | 1.77 |
Der GraphQL-Endpunkt stellte eine ernsthafte Herausforderung dar, wobei Shifter selbst mit aktiviertem Rendering Probleme hatte. ScraperAPI hatte Schwierigkeiten, während Zyte sich mit beachtlicher Leistung hervortat.
Headless-Rendering
Anbieter | Erfolgsquote | Durchschn. Antwortzeit (s) |
---|---|---|
Oxylabs | 100% | 28.88 |
Bright Data | 100% | 4.10 |
Smartproxy | 100% | 29.09 |
Zyte | 94.00% | 28.14 |
Rayobyte | 98.60% | 23.05 |
ScraperAPI* | 98.20% | 16.05 |
Shifter | 62.40% | 4.42 |
Der Headless-Test war verzeihender, wobei Bright Data überlegene Ergebnisse zeigte. Shifter war schnell, hatte aber Fehler. ScraperAPI zeigte verbesserte Leistung, und Oxylabs sowie Smartproxy hielten Erfolgsquoten auf Kosten einiger Geschwindigkeit.
Parallelität
Die Parallelität variierte, wobei Bright Data, Smartproxy und Oxylabs hohe parallele Anfragen zuließen. Rayobyte und Zyte hatten restriktivere Standardlimits, die hauptsächlich für Unternehmensbedürfnisse gelten.
Anbieter | Parallelität |
---|---|
Oxylabs | 5 Anfragen/s bis unbegrenzt |
Bright Data | Unbegrenzt |
Smartproxy | Unspezifiziert |
Zyte | 2 Anfragen/s |
Rayobyte | 100 Anfragen/Min. |
ScraperAPI | 200-400 Threads |
Shifter | Unspezifiziert |
Bewertung der Parsing-Fähigkeiten in Web-Scraping-APIs
In einer differenzierten Untersuchung der Web-Scraping-APIs wurde ein qualitativer Test durchgeführt, um ihre Parsing-Fähigkeiten an vier verschiedenen Seitentypen zu bewerten: lokalisierte Google-Suchanfrage auf dem Desktop, lokalisierte Google-Suchanfrage auf dem Mobilgerät, Google Shopping-Anfrage und Amazon-Produktseiten.
Google SERP, Lokalisierte Desktop-Anfrage
Für die lokalisierte Desktop-Anfrage "bester Friseur in meiner Nähe" in London wurden die APIs anhand verschiedener Elemente bewertet:
Anbieter | Lokalisiert | Organisch | Snack Pack | Karte | Verwandte Suchanfragen | Personen fragen auch |
---|---|---|---|---|---|---|
Oxylabs | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
Bright Data | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Smartproxy | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
Rayobyte | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
ScraperAPI | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
Shifter | ❌ | ✅ | ✅ | ❌ | ✅ | ✅ |
Während ScraperAPI und Rayobyte sich auf wesentliche Informationen konzentrierten, zielten andere darauf ab, die gesamte SERP zu parsen. Auffallend war, dass Bright Data sogar einen Screenshot der Karte lieferte. Shifter hatte Probleme mit dem Standortparameter, was die Abfrage lokaler Ergebnisse erschwerte.
Google SERP, Lokalisierte Mobile Anfrage
Die mobile Anfrage mit den gleichen Parametern wie die Desktop-Anfrage lieferte folgende Ergebnisse:
Anbieter | Lokalisiert | Organisch | Snack Pack | Karte | Verwandte Suchanfragen | Personen fragen auch |
---|---|---|---|---|---|---|
Oxylabs | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
Bright Data | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Smartproxy | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
Rayobyte | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
ScraperAPI | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
Shifter | ❌ | ✅ | ✅ | ❌ | ✅ | ✅ |
Bright Data, Oxylabs und Smartproxy lieferten vollständige und genaue Ergebnisse. ScraperAPI versagte jedoch beim Scraping, und Shifters mobiler Parser beschränkte sich auf Hauptelemente der Seite und ließ lokale Daten aus.
Google Shopping
Die Google Shopping-Anfrage für "Nike Air Max" in London wurde in verschiedenen Aspekten analysiert:
Anbieter | Lokalisiert | Suchfilter | Anzeigen | Artikel | Preise | Händler | Lieferung | Bewertung | Sonstiges |
---|---|---|---|---|---|---|---|---|---|
Oxylabs | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ | ❌ | ✅ | |
Bright Data | ❌ | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | Preisvergleich |
Smartproxy | ✅ | ✅ | ❌ | ✅ | ✅ | ❌ | ✅ | ✅ | |
ScraperAPI | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | Materialfilter, verwandte Suchanfragen, Preisvergleich |
Shifter | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
ScraperAPI lieferte die umfassendsten Ergebnisse, einschließlich verwandter Suchanfragen und des "Das könnte Ihnen auch gefallen"-Blocks. Es gelang ihm, Anzeigenergebnisse abzurufen, ein Merkmal, das bei anderen Anbietern fehlte. Bright Data und Shifter scheiterten daran, die Seite für diese spezifische Anfrage zu lokalisieren.
Amazon-Produktseiten
Verschiedene Produktseiten von Kunstbedarf, Küchenutensilien und Elektronik wurden zum Parsen ausgewählt. Die Bewertung umfasste Elemente wie Brotkrumen, Artikelinformationen, Bilder, Preise, Händlerinformationen, Verfügbarkeit, Bestseller-Rang, Lieferung, Bewertung und Garantie.
Anbieter | Brotkrumen | Artikel | Bilder | Artikelvarianten | Preise | Händler | Verfügbarkeit | Bestseller-Rang | Lieferung | Bewertung | Garantie |
---|---|---|---|---|---|---|---|---|---|---|---|
Oxylabs | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Smartproxy | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Rayobyte | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ | ❌ |
ScraperAPI | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |
Alle vier APIs zeigten die Fähigkeit, die meisten Seitenelemente zu parsen. Oxylabs und Smartproxy lieferten die umfassendsten Ergebnisse, einschließlich Rabatten, Lieferung und Garantieinformationen. Rayobytes Parser war weniger informativ und schloss Artikelvarianten, Lieferung und Garantieinformationen aus. Shifter wählte den Ausschluss von Kaufbox-Daten und erlebte einige Formatierungsfehler.
Zusammenfassend enthüllte dieser qualitative Test die unterschiedlichen Parsing-Fähigkeiten von Web-Scraping-APIs und beleuchtete ihre Stärken und Grenzen bei verschiedenen Arten von Webseiten.
Preisgestaltungsmodelle
Web-Scraping-APIs verwenden überwiegend ein auf erfolgreichen Anfragen basierendes Preisstrukturmodell, was die Berechnung der Ausgaben vereinfacht. Anbieter berechnen in der Regel auf Basis der Anzahl erfolgreicher Anfragen, wodurch Benutzer Kosten leicht abschätzen können. Das Standardmaß für den Vergleich ist der CPM (Kosten pro 1.000 Anfragen).
Anbieter | Preisgestaltungsmodell | Struktur | Startpreis | Testversion |
---|---|---|---|---|
Oxylabs | Abonnement | Erfolgreiche Anfragen | $99 | 5.000 Anfragen für eine Woche |
Bright Data | Pay-as-you-go, Abonnement | Erfolgreiche Anfragen | $3 (Pay-as-you-go), $500 (Plan) | 7 Tage für Unternehmen |
Smartproxy | Abonnement | Erfolgreiche Anfragen | $50 | 3.000 Anfragen für 3 Tage |
Zyte | Pay-as-you-go, Abonnement | Erfolgreiche Anfragen | $0 (Pay-as-you-go), $25 (Plan) | $5 Gratis-Guthaben |
Rayobyte | Pay-as-you-go | Erfolgreiche Anfragen | $0.0018/Anfrage | 5.000 kostenlos pro Monat (erneuert) |
ScraperAPI | Abonnement | Erfolgreiche Anfragen | $49 | 5.000 Credits für eine Woche |
Shifter | Abonnement | Erfolgreiche Anfragen | $44 | Geld-zurück-Garantie |
Das dominierende Preisgestaltungsmodell bleibt das monatliche Abonnement, aber es gibt Variationen. Zyte führt einen interessanten Ansatz ein, bei dem Benutzer ein monatliches Limit festlegen und jeden Monat die Hälfte im Voraus bezahlen. Bemerkenswert ist, dass Testversionen bei den meisten Anbietern verfügbar sind, mit einem Standardangebot von 5.000 Anfragen.
Berechnung des Preises pro Anfrage
Obwohl das Preisgestaltungsmodell einfach erscheint, führen einige Web-Scraping-APIs Komplexitäten bei der Berechnung des Preises einer Anfrage ein.
Faktoren wie die Zielwebsite, JavaScript-Rendering, Wohn-Proxy und mehr tragen zu Preisänderungen bei, was zu signifikanten Kostenvariationen führt.
Anbieter | Preisänderungsfaktoren | Max. Preisunterschied |
---|---|---|
Oxylabs | Suchmaschinen, E-Commerce-Websites | x2-3 |
Bright Data | – | x1 |
Smartproxy | Suchmaschinen, E-Commerce-Websites | x1.5-3 |
Zyte | Ziel, JS-Rendering, Premium-Proxies, Screenshots, Browseraktionen | Individuell |
Rayobyte | – | x1 |
ScraperAPI | Premium, Super-Premium-Proxies, Premium-Ziele, JS-Rendering | x75 |
Shifter | Premium-Proxies, JS-Rendering, Suchmaschinen | x25 |
ScraperAPI sticht mit einer komplexen Struktur hervor, die drei Ebenen von Proxy-Netzwerken und JavaScript-Rendering umfasst.
Die Preisgestaltung variiert je nach Faktoren wie der Verwendung von Wohn-Proxies, Headless-Scraping und Tarifen für spezifische Websites wie Google, Amazon und soziale Medien.
Oxylabs und Smartproxy verfolgen einen Differenzierungsansatz, mit höheren Kosten für Suchmaschinen-Scraper und etwa doppelten Ausgaben für E-Commerce-Scraper.
Shifter folgt einer ähnlichen Strategie für Suchmaschinen, während sein regulärer Scraper sich an ScraperAPIs Struktur orientiert.
Bright Data und Rayobyte halten ihre Preisgestaltung unabhängig davon konstant, ob sie benutzerdefinierte Scraper verwenden oder JavaScript rendern, was das Scraping von herausfordernden Zielen vereinfacht.
Zyte berechnet andererseits dynamisch den Preis pro Anfrage für jede Website, wobei Schwierigkeiten, JavaScript-Rendering, Screenshots und Browseraktionen berücksichtigt werden. Dieser dynamische Ansatz erschwert es, Ausgaben im Voraus abzuschätzen.
Fazit
Die Landschaft der Web-Scraping-APIs ist dynamisch und bietet vielfältige Funktionen und Preisstrukturen.
Wichtige Erkenntnisse sind die Entwicklung fortgeschrittener Funktionen, die Ausrichtung auf große Websites wie Google und Amazon sowie die Bedeutung von Parsing-Fähigkeiten.
Leistung und Zuverlässigkeit variieren, wobei Oxylabs, Smartproxy und Bright Data als zuverlässige Akteure hervorgehen.
Preismodelle basieren im Allgemeinen auf erfolgreichen Anfragen, aber einige Anbieter führen mit differenzierten Preisen Komplexität ein.
Organisationen sollten ihre Bedürfnisse und Budgetbeschränkungen sorgfältig abwägen, wenn sie eine Web-Scraping-API auswählen, und Faktoren wie Datenausgabe, Anpassung und Parsing-Fähigkeiten berücksichtigen. Eine kontinuierliche Überwachung ist in diesem wettbewerbsintensiven und sich entwickelnden Ökosystem unerlässlich.
Häufig gestellte Fragen
Wie handhaben Web-Scraping-APIs die Preisgestaltung?
Web-Scraping-APIs folgen typischerweise einem Preisgestaltungsmodell, das auf erfolgreichen Anfragen basiert. Benutzer werden für die Anzahl der erfolgreich abgeschlossenen Anfragen berechnet. Einige Anbieter führen zusätzliche Komplexitäten ein, wie differenzierte Preise für spezifische Websites oder Funktionen.
Welche Schlüsselfunktionen sollte man bei der Bewertung einer Web-Scraping-API berücksichtigen?
Wichtige Funktionen umfassen das Datenoutputformat, Anpassungsoptionen (z.B. Auswahl des Standorts, Gerätespezifikation), Parsing-Fähigkeiten und Leistung/Zuverlässigkeit. Auch die Berücksichtigung der Zielwebsites und die Fähigkeit, dynamische Inhalte und JavaScript zu handhaben, sind entscheidend.
Welche Herausforderungen gibt es beim Web-Scraping und wie können sie angegangen werden?
Herausforderungen umfassen den Umgang mit dynamischen Inhalten, CAPTCHAs und Änderungen in der Website-Struktur.
Um diese Herausforderungen anzugehen, wählen Sie eine Web-Scraping-API mit robusten Parsing-Fähigkeiten und Unterstützung für JavaScript-Rendering und erwägen Sie die Implementierung von Techniken wie rotierenden Proxies und Benutzeragenten, um eine Erkennung zu vermeiden. Überwachen und passen Sie Ihre Scraping-Strategie regelmäßig an, da sich Websites weiterentwickeln.
Für weiterführende Lektüre könnten Sie sich für Folgendes interessieren: