Nahezu vollständiger Rausschmiss Artikelseiten aus Google dank Oxid .htaccess

roland76 · January 9, 2011, 1:51am

Hast du die alten URL’s noch irgendwo gespeichert? In einer alten Sitemap.xml? Dann kannst du in den Webmastertools die 301 (permanente Weiterleitung) einrichten. Noch besser ist es, wenn du dies über die htaccess oder wie im Tutorial (findest du im Wiki) beschrieben machst. Die 301 muss für jede URL aus dem 3er Shop eingerichtet werden.

Locke · January 9, 2011, 2:24am

Hallo Marco,

1.wenn ich auf den Link für die robots.txt klicke kommt folgendes:
You are not authorized to access this page.

2.Hab mir die oxseohistory in der Datenbank angeschaut aber ich kann keine URL´s aus dem Zahlensalat entschlüsseln. So gut sind meine Kenntnisse auch nicht. Wie müsste so ein Eintag ausehen.

Die aktuelle sitemap habe ich schon hochgeladen

Hupi · January 9, 2011, 10:09am

Hi Locke,

sehr hilfreich wäre hier in der Diskussion erst einmal die URL um die es geht. Vielleicht schickste mir die mal als PN.

Zuerst einmal will ich Dich beruhigen: auch wir haben letzten Oktober auf die 4er upgedatet. Ich bin sogar noch einen Schritt weitergegangen und hab die Oxid-Standard-URL des 4er noch verkürzt. Dadurch hab ich praktisch einen komplett neue Seitenstruktur gehabt. Und es hat funktioniert.

Der 3er hatte doch bei Dir sicher auch die “normalen” URL drin - also /kat/unterkat/produkt.html ? Wenn das der Fall ist, wären alle URL mit “sid=” doppelt - also Double Content. Von daher finde ich auch die alte robots.txt das Update-Packs in Ordnung.

Ich kann Dir nun erst einmal raten, keine Schnellschüsse zu machen!!! Lad die Original-robots.txt wieder rein. Denn überleg mal, es haben vor Dir schon mehrere 100 Shops auf die 4er upgedatet - warum solltest Du der Erste und Einzige sein wo das schief läuft?

Mein Tipp:

robots.txt wiederherstellen
Sitemap mit Gsitecrawler erstellen und aufladen - auch wenn diese “übersichtlicher” ist.
wenn Du Linkpartner hast die auf eine alte Seite mit “sid=” linken, bitte Sie um Änderung des Linkziels auf die neue Seite
gedulde Dich etwas - auch wenns schwer fällt

Google braucht ein paar Tage um die neuen Seiten einzusortieren, das geht dann halt mit kurzfristigen Positionsverlusten einher. Aber ich bin mir sicher, dass Du mit den neuen Seiten mittelfristig besser rankst. Deine Befürchtung mit der Sandbox ist quatsch - das betrifft neue Domains aber keine Webseiten die nur mal die Seitenstruktur geändert haben.

Um die Sache kurz zu machen - mach jetzt mal einen Schnitt und lass Google Deine alten “sid=” Seiten rausschmeissen und starte mit einer neuen, sauberen URL-Struktur.

Gruß
Alex

simply_because · January 9, 2011, 10:13am

@ Locke
Es ist durchaus normal, das eine Domain im Google-Index nach der Änderung der URLs nach hinten verschoben wird. Wenn ich das richtig gelesen habe, hast Du zwischen Weihnachten und Neujahr 2010 die Umstellung gemacht. Das sind gerade mal 2 Wochen.

Ohne Deine Domain zu kennen, ist es schlecht, hier Tipps zu geben.

ChristophH · January 9, 2011, 11:11am

**** edit, hab die 2 Folgezeiten übersehen, das iPad ist schuld :-/ *****

Locke · January 9, 2011, 2:12pm

Hallo Hupi,

jeder meint jetzt was anderes. Aber ich denke wenn es schon eine abgeänderte Version der robots.txt für umsteiger von 3 auf 4 gibt es die doch aus guten Grund. Andrerseits weiß ich nicht wenn mann diese nachträglich einreicht und die orginale schon zwei Wochen drin hatte ob es noch Sinn macht die abgeänderte hochzuladen. Kommt einer an die Datei von Marco ran? Meine Domain ist die www.lohenstein.de. Bin auch am überlegen den alten 3er shop wieder hochzuladen was meint Ihr?

Gruß Locke

roland76 · January 9, 2011, 2:52pm

Hin- und herswitchen ist wohl das schlechteste bei Google.

simply_because · January 9, 2011, 4:16pm

[QUOTE=roland76;47953]Hin- und herswitchen ist wohl das schlechteste bei Google.[/QUOTE]
Korrekt.

@Locke
Warum werden die alten URLs nicht auf die Neuen weitergeleitet?
Warum hast Du den canonical-tag nicht im header?

Hupi · January 9, 2011, 4:22pm

@roland76 100% Zustimmung!

@simply because Recht hast Du - der canonical-Tag fehlt!

Mach mal bei Google folgende Abfrage: site:http://www.lohenstein.de/ -inurl:sid

Das sieht erstmal gar nicht so schlecht aus - das sind alle Seite, die im Index sind und auf die Google uneingeschränkt Zugriff hat.

Eine normale robots.txt kannst Du bei jedem Oxid-Shop Deines Vertraues herunterladen. Gib dazu einfach die URL mit /robots.txt ein z.B. bei uns: http://www.endlichzuhause.de/robots.txt

Ich würd das jetzt so machen:

Du machst die robots.txt wieder auf Originalzustand und sperrst das sid-Zeugs - das ist eh Double Content - da Du intern eh auf eine andere URL links.

Ich hab mir grad mal Deine historischen Rankings angesehen - die waren echt teilweise nicht schlecht - aber ich bin mir sicher, dass Du die in ein paar Wochen wieder hast - noch dazu weil die meisten eh die Startseite waren.

Nochmal zum Verständnis: der Crawler folgt erst einmal prinzipiell den Links die Du auf Deiner Seite verbaut hast - und Du linkst ja jetzt mit dem neuen Shop auf keine einzige sid-URL mehr. Google wird daher den nächsten Tagen und Wochen sowieso die neuen Seiten aufnehmen.

Gruß
Alex

simply_because · January 9, 2011, 4:27pm

[QUOTE=Hupi;47959]
Du machst die robots.txt wieder auf Originalzustand und sperrst das sid-Zeugs - das ist eh Double Content - da Du intern eh auf eine andere URL links.
[/QUOTE]
Für den Fall, das es standardmäßig in der aktuellen PE 4 keine automatischen redirects der alten auf die neuen URLs mehr gibt, macht das natürlich Sinn, zumal kein canonical-tag vorhanden ist.

Wenn es tatsächlich so ist, dass es nach einem Upgrade von PE 3 auf PE 4 keine Redirects der alten auf die neuen URLs mehr gibt, frage ich mich warum das so ist.

Hupi · January 9, 2011, 4:36pm

Hi,

nein, eine Weiterleitung macht der Shop nicht, normal gibts aber wenigstens einen canonical tag. Hier ein Beispiel aus dem Index:

http://www.lohenstein.de/oxid.php/sid/x/shp/oxbaseshop/cl/details/anid/0de44a173e7a00e61.26085532/A-02-LED-Mini-Taschenlampe/

Da gibts keinerlei Weiterleitung. Da die Seite eh keine internen Links mehr hat wird sie eh früher oder später aus dem Index verschwinden.

Gruß
Alex

Locke · January 9, 2011, 5:07pm

Hallo,
der Link den Marco geschickt hat beinhaltet er eine normale robots.txt oder ein vom upgrade package?
Simply u. Hupi ihr seid beide der Meinung, daß ich eine robots.txt aus der 4er hochladen soll?

Sollte ich einen canonical-Tag einfügen? Der wird doch in die .htaccess eingefügt oder?
Wenn ja wie sollte der aussehen hier meine momentane .htaccess

Welchen Lösungsansatz verfolgt Marco wenn er nach der oxseohistory fragt?

<IfModule mod_rewrite.c>

Options +FollowSymLinks
RewriteEngine On
RewriteBase /

RewriteCond %{REQUEST_URI} oxseo\.php$
RewriteCond %{QUERY_STRING} mod_rewrite_module_is=off
RewriteRule oxseo\.php$ oxseo.php?mod_rewrite_module_is=on [L]

RewriteCond %{REQUEST_URI} !(\/admin\/|\/core\/|\/export\/|\/modules\/|\/out\/|\/setup\/|\/tmp\/|\/views\/)
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule !(\.html|\/|\.jpg|\.css|\.pdf|\.doc|\.gif|\.png|\.js)$ %{REQUEST_URI}/ [R=301,L]

RewriteCond %{REQUEST_URI} !(\/admin\/|\/core\/|\/export\/|\/modules\/|\/out\/|\/setup\/|\/tmp\/|\/views\/)
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule (\.html|\/)$ oxseo.php


</IfModule>

# disabling log file access from outside
<FilesMatch "(EXCEPTION_LOG\.txt|\.log$|\.tpl$)">
order allow,deny
deny from all
</FilesMatch>

Options -Indexes
DirectoryIndex index.php index.html

Hupi · January 9, 2011, 7:15pm

Hi Locke,

wenn Du das edit aus Marcos URL entfernst gehts:

http://www.oxid-esales.com/en/comment/6808

Ich weiß trotzdem nicht!? Ich würd das Sperren der sid drin lassen. Warte mal 1,2 Wochen, dann wirst Du sehen, dass Google die neuen Seiten vernünftig aufnimmt. Kümmer Dich in der Zeit lieber um bessere Seitentitel und Linktausch. Dann geht das von alleine und Du hast ein für allemal Schliff drin.

Der canonical-Tag ist im Header jeder Seite. Hast Du da irgend etwas aus der header.tpl rausgelöscht?

Gruß
Alex

simply_because · January 9, 2011, 7:16pm

Ich war bisher der Meinung, bei einem Upgrade von PE 3 auf PE 4 werden die alten PE-3-URLs auf die neuen PE-4-URLs weitergeleitet. Unser Upgrade ist allerdings schon lange her und wir hatten Sonderanpassungen was die URLs angeht. Ich bin mir nicht sicher, ob unser Partner das dann entsprechend hingedreht hatte, das die 3er-URLs auf die 4er-URLs umgeleitet wurden. Jedenfalls wurden sie es - wenn auch nicht zu 100%.
Die restlichen 3er URLs habe ich dann in die .htaccess gepackt. War halt Arbeit, weil es ein paar hundert Zeilen waren.

Es gibt unterschiedliche Möglichkeiten, Deine PE 3 URLs aus dem Index zu bekommen.

Die einfachste, schnellste (und wie SuMa-Gurus sagen sicherste) Art ist, die alten URLs per Redirect 301 auf die neuen URLs zu leiten. Google muss Deine neuen URLs nicht neu bewerten und Du fängst auch Deeplinks auf Kategorien und Artikel ab.
Für den Fall ist der entsprechende Eintrag in der robots.txt nicht nötig, da Du Google sonst daran hindern würdest, die “alten” URLs zu crawlen.

Solltest Du keine Weiterleitung der Alten auf die Neuen haben (wollen), solltest Du die robots.txt um den Teil ergänzen, der das Crawlen der alten URLs verhindert. Sonst besteht die Gefahr des doppelten Contents.

Auf jeden Fall solltest Du schleunigst den canonical-tag in den header packen, um Google mitzuteilen, welches die Haupt-URL der Artikel und Kategorien ist.

Wenn Du eine Sitemap hast, hilft das schon mal.
Wenn Du Deine Artikel bei Google Produktsuche meldest, solltest Du dafür sorgen, das dort die Haupt-URL der Artikel gemeldet wird.

Ansonsten keine Panik und daraus lernen. Klingt hart, ist aber so.
Für die Zukunft weißt Du, das Du lieber noch mal testest, bevor Du umschaltest und noch mal testest und noch mal testest.
Was enorm hilft: mach Dich nicht abhängig von den organischen Ergebnissen der Suchmaschinen (und wenn das nur heißt, das Du genug Budget für Adwords hast).
Die Auswirkungen erlebst Du gerade.

Hupi · January 9, 2011, 7:25pm

@simply because Wir hatten vorher das NFQ-Modul.
/kat/unterkat/name.html

Ich hab mir dann mit dem 4er die URLs trotzdem nochmal umgebogen auf

/name.html

allerdings sind die Kat-Seiten-URL gleich geblieben.

Ein guter Kompromiss für Locke wäre zumindest die Kats per 301 zu redirecten, denn auch die haben sich geändert.

Man müsste jetzt mal testen was der canonical-Tag sagt wenn man ne Seite mit sid aufruft. Wenn der in Ordnung ist könnte man die robot-Sperrung aufheben.

simply_because · January 9, 2011, 7:34pm

[QUOTE=Hupi;47972]@simply because Wir hatten vorher das NFQ-Modul.
/kat/unterkat/name.html

Ich hab mir dann mit dem 4er die URLs trotzdem nochmal umgebogen auf

/name.html

allerdings sind die Kat-Seiten-URL gleich geblieben.
[/QUOTE]
Wir sind von den Standard-PE-3-URLs auf die von Dir genannte Variante gewechselt.
Hatte Frank Knapp damals gemacht.
Da es allerdings mit jedem Update neue Probleme mit den URLs gab, hab ich irgendwann die Notbremse gezogen und die URL-Modifikation wieder rausgenommen. Jetzt haben wir sie wie im Standard, außer das sie klein geschrieben werden.
Mein .htaccess sieht vielleicht aus, um die ständigen Änderungen abzufangen. :eek:

[QUOTE=Hupi;47972]
… Wenn der in Ordnung ist könnte man die robot-Sperrung aufheben.[/QUOTE]
Korrekt.
Ist nicht die optimalste Lösung, aber hilft schon mal.

Hupi · January 9, 2011, 7:51pm

@simply because Ich hab das mit der URL-Verkürzung selbst gebaut - bzw. hatten wir das teilweise beim Anzido-Programmierworkshop erarbeitet. Läuft absolut perfekt und Vorteil ist, dass ein Artikel in mehreren Kats immer die gleiche URL hat. Aber ist schon immer kritisch sone globale Änderung. Deshalb kann ich Locke auch gut verstehen wenn er etwas nervös geworden ist.

Locke · January 9, 2011, 8:07pm

Hi,

so sieht meine header.tpl aus dem update package aus ( ohne canonical_url Eintrag):

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html[{if $oView->getActiveLangAbbr()}] lang="[{ $oView->getActiveLangAbbr() }]"[{/if}]>
<head>
    [{assign var="_titlesuffix" value=$_titlesuffix|default:$oView->getTitleSuffix()}]
    [{assign var="title" value=$title|default:$oView->getTitle() }]
    <title>[{$oxcmp_shop->oxshops__oxtitleprefix->value}][{if $title}] | [{$title|strip_tags}][{/if}][{if $_titlesuffix}] | [{$_titlesuffix}][{/if}]</title>
    <meta http-equiv="Content-Type" content="text/html; charset=[{$charset}]">
    [{if $oView->noIndex() == 1 }]
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
    [{elseif $oView->noIndex() == 2 }]
    <meta name="ROBOTS" content="NOINDEX, FOLLOW">
    [{/if}]
    [{if $oView->getMetaDescription()}]<meta name="description" content="[{$oView->getMetaDescription()}]">[{/if}]
    [{if $oView->getMetaKeywords()}]<meta name="keywords" content="[{$oView->getMetaKeywords()}]">[{/if}]
    <link rel="shortcut icon" href="[{ $oViewConf->getBaseDir() }]favicon.ico">
    <link rel="stylesheet" type="text/css" href="[{ $oViewConf->getResourceUrl() }]oxid.css">
    <!--[if lt IE 8]><link rel="stylesheet" type="text/css" href="[{ $oViewConf->getResourceUrl() }]oxidbc.css"><![endif]-->

    [{if $rsslinks}]
      [{foreach from=$rsslinks item='rssentry'}]
        <link rel="alternate" type="application/rss+xml" title="[{$rssentry.title|strip_tags}]" href="[{$rssentry.link}]">
      [{/foreach}]
    [{/if}]
</head>

Hab mir eine header.tpl aus einer 4.4 angeschaut da gibt es den Eintrag für canonical_url.
Wie teste ich den canonical-Tag anhand dieser URL: http://www.lohenstein.de/oxid.php/sid/x/shp/oxbaseshop/cl/alist/cnid/8ea4475fb5cca9872.22320608

gruß Locke

simply_because · January 9, 2011, 9:52pm

[QUOTE=Locke;47976]Wie teste ich den canonical-Tag anhand dieser URL: [/QUOTE]
In dem Du Dir den Quelltext ansiehst und diesen Eintrag findest:
<link rel=“canonical” href=“http://www.lohenstein.de/Mini-Taschenlampen/”>
Es funktioniert also.
Wenn jetzt der Googlebot auf die Seite mit der alten URL kommt, findet er den canonical-tag und weiß somit, dass die Haupt-URL die dort angegebene ist. Über kurz oder lang wird die alte URL aus dem Index verschwinden.

Locke · January 9, 2011, 10:25pm

Hallo simply,

habs jetzt gefunden und es scheint zu funktionieren aber nur weil ich eine 4.4 header.tpl aufgespielt habe. Wenn du dir meine header.tpl aus dem update package von 3 auf die 4 Version anschaust feht die Zeile mit dem canonical_url Eintrag. Die header.tpl aus der 4.4 sieht so aus:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html[{if $oView->getActiveLangAbbr()}] lang="[{ $oView->getActiveLangAbbr() }]"[{/if}] [{if $oViewConf->getFbAppId()}]xmlns:fb="http://www.facebook.com/2008/fbml"[{/if}]>
<head>
    [{assign var="_titlesuffix" value=$_titlesuffix|default:$oView->getTitleSuffix()}]
    [{assign var="_titleprefix" value=$_titleprefix|default:$oView->getTitlePrefix() }]
    [{assign var="title" value=$title|default:$oView->getTitle() }]
    <title>[{ $_titleprefix }][{if $title&& $_titleprefix }] | [{/if}][{$title|strip_tags}][{if $_titlesuffix}] | [{$_titlesuffix}][{/if}][{if $titlepagesuffix}] | [{$titlepagesuffix}][{/if}]</title>
    <meta http-equiv="Content-Type" content="text/html; charset=[{$charset}]">
    [{if $oView->noIndex() == 1 }]
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
    [{elseif $oView->noIndex() == 2 }]
    <meta name="ROBOTS" content="NOINDEX, FOLLOW">
    [{/if}]
    [{if $oView->getMetaDescription()}]<meta name="description" content="[{$oView->getMetaDescription()}]">[{/if}]
    [{if $oView->getMetaKeywords()}]<meta name="keywords" content="[{$oView->getMetaKeywords()}]">[{/if}]
   [B] [{assign var="canonical_url" value=$oView->getCanonicalUrl()}][/B]
    [{if $canonical_url }]<link rel="canonical" href="[{ $canonical_url }]">[{/if}]
    <link rel="shortcut icon" href="[{ $oViewConf->getBaseDir() }]favicon.ico">
    <link rel="stylesheet" type="text/css" href="[{ $oViewConf->getResourceUrl() }]oxid.css">
    <!--[if IE 8]><link rel="stylesheet" type="text/css" href="[{ $oViewConf->getResourceUrl() }]oxid_ie8.css"><![endif]-->
    <!--[if IE 7]><link rel="stylesheet" type="text/css" href="[{ $oViewConf->getResourceUrl() }]oxid_ie7.css"><![endif]-->
    <!--[if IE 6]><link rel="stylesheet" type="text/css" href="[{ $oViewConf->getResourceUrl() }]oxid_ie6.css"><![endif]-->

    [{if $rsslinks}]
      [{foreach from=$rsslinks item='rssentry'}]
        <link rel="alternate" type="application/rss+xml" title="[{$rssentry.title|strip_tags}]" href="[{$rssentry.link}]">
      [{/foreach}]
    [{/if}]
</head>

Besser so jetzt oder? Wenn ich euch richtig verstanden habe soll ich jetzt die robots.txt
nehmen ohne diese Werte:
Disallow: //sid/
Disallow: /?sid=
Disallow: /*&sid=

Euch allen vielen vielen Dank für die tolle Hilfe und Zeit die Ihr aufgebracht habt.

Gruß Locke