Woher kommen massenweise Links mit parametrisierten URLs?

Hallo zusammen,

habe eine knifflige Frage, zu der ich erst einmal das Problem schildern muss: Die Google Webmaster Tools geben unter Crawling-Fehlern für unseren Oxid-Shop 100.000 URLs an, die durch die robots.txt geblockt werden. Das macht stutzig, weil die Zahl erstens extrem hoch ist und der enorme Anstieg sprunghaft erfolgt ist (innerhalb von 2 Wochen).

Schaut man in die Liste der URLs, die beim Crawling nicht indexiert werden durften (wegen gewolltem Ausschluss in der robots.txt), findet man vor allem parametrisierte URLs (z.B. searchparam). Weil der Googlebot selbst keine Suchanfragen eingeben kann, also beim Crawlen solche URLs gar nicht selbst erzeugen kann, stellt sich die Frage, wie der Bot auf diese Unmengen von parametrisierten URLs kommt. Das geht eigentlich nur, wenn der Bot beim Crawlen auf Links mit parametrisierten URLs stößt. Da die Zahl unserer Backlinks deutlich geringer ist als 100.000 und diese enorm hohe Zahl innerhalb kurzer Zeit erreicht wurde, liegt die Vermutung nahe, dass Google diese URLs kennt, weil durch das System an irgendeiner Stelle automatisiert parametrisierte Links in großer Zahl gesetzt werden.

Jetzt also zur Frage: Woher könnten diese parametrisierten URLs (und Links) kommen? Gibt/gab es ähnliche Fälle bei anderen Shops? Wo könnte das Problem liegen und welche Lösung gibt es?

Vielen Dank für Eure Antwort(en)!
LG
Simone

Hallo Simone,

danke für den Hinweis. Kannst Du bei der internen Verlinkung etwas ähnliches erkennen? Die URLs müssen ja irgendwo her kommen.

Gruß

Eine URL zum Shop wäre hilfreich sowie evtl. die Parameter, die Du in den WMT findest.

sowas hier?

http://www.stahlwarenhaus-hebsacker.de/index.php?cl=moredetails&actpicid=1&anid=ff14a9f928f315cc6.16106691

http://www.stahlwarenhaus-hebsacker.de/index.php?cl=search&searchparam=31815&searchvendor=68342e2955d7401e6.*18967838

http://www.stahlwarenhaus-hebsacker.de/oxid.php/sid/x/shp/oxbaseshop/cl/details/cnid/veb49e744f4387c34.25291415/anid/*61731/Muela-Steakmesser-Hirschhorn-I//actpicid/2

Hab ich auch viele, ist mir bisher noch gar nicht wirklich aufgefallen…

Hallo zusammen,

vielen Dank für Euer Feedback. Die parametrisierten URLs, die uns in den GWTs besonders irritieren, sind diejenigen, die anders aussehen, als die parametrisierten URLs, die beim Surfen auf der Seite erzeugt werden (z.B. durch Verwenden der Shop-Suche). Wir nehmen an, dass URLs, die weder von Bots noch von Usern erzeugt werden, eigentlich nur vom Shop-System selbst generiert werden können und deshalb in den GWTs auftauchen, weil sie dem Bot durch automatisch gesetzte Links bekannt sind.

Beispiel:

Sucht man im Shop nach “suchanfrage”, wird eine URL mit folgender Struktur ausgegeben:
http://www.shop.de/index.php?stoken=A86F2F06&force_sid=h3res4ru9torev1b8mjcno5vj73th21c&lang=0&cl=search&searchfieldname=h3rf384cf265d4739a208798305a14d7&h3rf384cf265d4739a208798305a14d7=suchanfrage

In den GWTs werden aber parametrisierte URLs mit diesem Aufbau aufgeführt:

http://www.shop.de/oberkategorie/unterkategorie/artikel.html?searchparam=Suchanfrage

Bringt das irgendjemanden auf Ideen?
LG
Simone

Vielleicht wurden diese Seiten von einem anderen Bot gespidert und sind nun irgendwo verlinkt?
Oder Google hat jetzt angefangen RSS-Feeds auszulesen/füllen?
URL´s schon mal gegoogelt gebingt ?

die antwort ist janz einfach. google erkennt parameter und versucht diese automatisch zu handhaben. bei manchen gelingt das toll, bei anderen nicht. das ergebniss sieht man bei dir.

um google davon abzuhalten, solche urls zu crawlen, einfach mal in der parameterbehandlung genau diese parameter alle ausschliessen.(searchparam).

im übrigen wertet google sehr wohl viele sachen aus und kann daher auch diese links selbst erzeugen.
unabhängig davon stören diese links auch nicht…da ja unter robots.txt als geblockt markiert.

findet man in den GWT unter website einstellungen ->Parameterbehandlung