Wie kommen Shop-URLs in den Google Index?

wind · October 23, 2018, 2:24pm

Wieso kennt google die URLs, wenn ich die nicht per Sitemap-Datei veröffentliche?

Gruß
wind

vanilla_thunder · October 23, 2018, 2:32pm

Suchergebnis Nummer 1 für “wie funktioniert google index”:
https://www.suchhelden.de/suchmaschinenoptimierung/google-index.php

wind · October 23, 2018, 2:40pm

Aber die erzeugten seourls stehen ausschließlich in der oxseourl-Datenbank-Tabelle.
Wie liest google diese aus? Die Tabelle kann der Bot ja nicht auslesen.

wind · October 23, 2018, 2:46pm

Ich kann mir nur vorstellen, dass der Shop, wenn der Bot eine Artikelnummer sucht (die stehen in den sitemaps), diese seourl generiert und dem Bot dann erstmal ein redirect auf die seourl schickt und dieser dann von google indiziert wird.

Dann wäre die nächste Frage: wie schalte ich das ab?

vanilla_thunder · October 23, 2018, 3:06pm

der Google Bot kommt in den Shop und ruft jeden Link auf, den er findet.
So landet er z.B. auf der Kategorieseite und dort findet er die ganzen SEO Urls in Form von Links zu den Produkten, ruft sie dann auf und zack, sind die im Index.

Was genau abschalten? nur die SEO Urls? Und die hässlichen URLs dürfen in den Index?
Oder Index komplett abschalten?

wind · October 23, 2018, 3:32pm

In unserem Shop gibt es keine Kategorien.
Die Artikel werden ausschließlich über die Angabe der Artikelnummer in der Suchmaske bzw. mit
dem Link https://shop/index.php?cl=search&searchparam=ARTIKELNR in den sitemap-Dateien gefunden.

vanilla_thunder · October 23, 2018, 3:42pm

OK, wenn es so in der sitemap ist, ruft Google Index die URL auf und bekommt dann die seo URL. Schau vorsichtshalber, ob es einen canonical Tag auf den detailseiten gibt. Wenn ja, dann ist es definitiv so

wind · October 23, 2018, 3:48pm

Ja, canonical ist gesetzt.
Der lautet aber allgemein:
<rel=“canonical” href=“https://shop.de/”>

Unser Problem ist, dass diese seourl schnell ungültig werden, weil die Artikel jeden Monat gelöscht und neu eingelesen werden. Deshalb möchte ich diese Indizierung verhindern.

Black-Forest-Academy · October 23, 2018, 6:49pm

Hallo wind,
kannst du mal die richtige Shop-URL posten? Dann kann man direkt im Quelltext nachvollziehen, was als canonical drin steht und wie die Seiten verlinkt sind. Vielleicht wird es dann klarer was das Problem ist.

Grüße
Fabian

wind · October 23, 2018, 8:05pm

Ja gerne.
Es geht um:

Beispiel:
Artikelnr.: 0345G1
findet google unter:
https://www.originparts.de/LUFTDOSIERVORR.html

Gelesen wurde von googlebot (apache-logfile):
66.249.75.155 - - [18/Oct/2018:11:09:51 +0200] “GET /index.php?cl=search&searchparam=0345G1&listtype=search HTTP/1.1” 200 35034 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

http-Status 200 bedeutet ja, dass kein redirect stattfunden hat. Das müsste ja davor oder dahinter im Logfile auftauchen.

beat · October 24, 2018, 12:32pm

Der canonical zur Startseite deutet das diese ganzen Seiten nicht in den Index sollen.
Wenn das so sein soll muss man natürlich auch nur einen canonical-Link setzen.
Aktuell sind es 2 Stück.
Mit dem dann falschen canonical-Link zur Startseite wird das Ranking durch hreflang fehlerhaft.
Das wird alles durcheinander gewürfelt.

Deine Vorstellungen sind da ein wenig falsch.
Was nicht in den Index soll braucht ein noindex und keinen canonical.
Selbst wenn ständig alles neu eingelesen wird kann das ja so gestaltet werden das der Link gültig bleibt wenn sich bei dem Produkt nichts ändert.
Man erstellt dann halt nur eine Sitemap von den Produkten die sich geändert haben.

wind · October 24, 2018, 12:51pm

Danke für die Hinweise, die bringen mich schon mal weiter.

Da das Produkt gelöscht wird und neu eingeladen, ändert sich auf jeden Fall die OXID. Und über diese greift die oxseourl-Tabelle auf das Produkt zu.

Patrick_Haude · December 5, 2019, 6:19pm

Ich hatte das Problem auch auf meiner Seite. Da waren einige Seiten, die wollte ich nicht indexiert haben. Die Sitemap ist für Google lediglich eine Unterstützung. Falls man bestimmte Seiten nicht indexiert haben möchte muss man schon auf zurückgreifen.

Das stoppt übrigens nicht unbedingt alle Crawler, manche indexieren die Seite tatsächlich dennoch.