AGB indiziert von google -> robots.txt

In der robots.txt ist per default

Disallow: /agb/

eingetragen.

Dies sollte in

Disallow: /AGB/

geändert/ergänzt werden, da sonst google die AGB’s indiziert.

Ich hatte das gerade mit einem frisch aufgesetzten Shop. Screenshot von den Suchergebnissen gerne an forums mod auf Anfrage. Hab mich auch gewundert.

das stimmt, die URLs in robots.txt sind case sensitive.
Sollte man konsequent AGB aus dem Index raushalten wollten, müsste man alle 2^3 = 8 Schreibweisen dafür hinterlege:
agb
agB
aGb
aGB
Agb
AgB
AGb
AGB

für Mein-Konto wären es 2^9 = 512
Impressum auch 512
mein-wunschzettel 2^16 = 65 536

ein noindex meta Tag wäre da deutlich sinnvoller, denke ich.

Ich rede hier von default

Jemand hat bei der Erstellung von Oxid wohl gedacht:

AGB’s sollte man google verbieten, das führt nur zu Abmahnungen und keinem nutzen für Kundschaft.

Dieser Gedanke ist super. Nun wurde im default der disallow für agb eingetragen.
Der default für die AGB Seite ist aber “AGB”

Also wird der edle Gedanke nur durch die Schreibweise nicht umgesetzt (offensichtlich ein versehen). Ich halte die Schreibweise in der CMS für richtig. Deswegen würde ich beantragen den default für die robots.txt zu ändern.

Deine Aufführung der Permutation verstehe ich nicht. Ich glaube kaum einer ändert die default Einstellungen zur AGB. Warum auch. Aber wenn das noindex meta Tag als default reinkommt => auch super.

Hi,
dann stell ein Antrag auf Änderung im Bugtracker. Dann schaut sich dass ein Entwickler an und wenn er der Meinung ist der Vorschlag ist ok, dann ändert er es.

Wenn es die Standard-URL ist sollte diese auch in den Robots passen. Wobei ich es nicht so schlimm finde, wenn man die AGB eines Shop findet, aber jedem das seine.

cya

@Firefax
Lass mich raten, du bist Entwickler und kein Betreiber?

Leider steht man als Betreiber immer mit einem Fuß in einem Rechtlichem Schlamassel.

Wenn sich nun die Rechtslage ändert gibt es leider Firmen die nach alten Passagen AGBs durchsuchen und dann mit wirtschaftlichem Interesse massenhaft Abmahnen.
Sobald die AGB’s nicht in google Indiziert sind, können sie dieses vorgehen wenigstens nicht automatisiert Anwenden. Kunden die die AGB wirklich brauchen finden diese immer auf der Seite oder in der Bestellbestätigungsmail.

Bug tracker: ID 0006703

Hallo @Tecki,

danke für den Bugeintrag. Du könntest übrigens auch direkt einen Pull-Request dafür schicken: https://github.com/OXID-eSales/oxideshop_ce/blob/master/source/robots.txt

Ich denke übrigens auch wie Marat: es ist ein schwieriges Thema, das vollumfänglich, selbst im Standard, abzubilden.

  • Mir war bisher nicht bekannt, dass Google tatsächlich case sensitive auswertet.
  • Wenn dem so ist, ergeben sich eine Fülle von Möglichkeiten, z.B. müsste man auch beim Fixieren der URLs auf dieses Phänomen hinweisen.
  • Die robots.txt ist nach wie vor eher eine Richtlinie mit einer Bitte an die Suchmaschine.
  • Wenn ich das richtig sehe, wird in der robots.txt sowieso die Standardsprache Deutsch vorausgesetzt. Man kann sich aber auch für Englisch als Hauptsprache entscheiden, dann musst Du sowieso die komplette robots.txt umschreiben.

Gruß

Marat bin übrigens ich, falls es nicht aus dem Kontext klar wird :wink:

Hallo Marco,

so sehr wie ich auch Eure Ansätze zur Gesamteinschätzung schätze, möchte ich das Problem dennoch darauf vereinfachen, dass dort wo bereits die Intention war durch die robots.txt etwas im default zu verbieten, dies auch umzusetzen.

Die Fülle der Möglichkeiten sowie die Permutation die erwähnt wurden haben keinen kausalen Ursprung. Niemand will so was abdecken und keiner kann es.
Wenn jemand den Permalink von Hand ändert, ist das seine Sache das nachzuziehen.

Ich konzentriere mich auf Sachen die überschaubar sind und die man ändern kann.

Das die robots.txt nur eine Richtlinie ist finde ich hier ebenfalls komisch angebracht. Mich interessiert nur Google (weil >80%), Google hält sich an die robots.txt, ergo alles Prima!
Warum erwähnst Du das mit der Richtlinie? Was ist den der Umkehrschluss? Verschwörungstheorien über böse crawler die sich an eh nix halten?
Ich finde die Argumentation nicht zielführend.

Das mit Englisch hängt von der Ausrichtung der Firma Oxid ab,
wenn Die Verteilung wie im Forum ist (20 zu 1 => 5% Englisch, Int) könnte man auch argumentieren das ist vernachlässigbar. Wenn Englisch Firmenpolitisch gewollt ist natürlich nicht.

_

Der Umkehrschluss ist, dass wenn jemand das vor hat, was Du beschreibst, dann hindert ihn weder die jetzige noch die angepasste robots.txt daran. Und intention hin oder her, der Fakt ist, dass sie nicht für die breite Masse passt, auch wenn der Einwand natürlich berechtigt ist. Und daher sollte die endgültige Lösung anders aussehen, als alles in die robots.txt einzubauen.

Außerdem glaube ich irgendwie, dass es sinnvoller wäre, eine anständige und konforme AGB zu haben, als sie vor fremden Augen versuchen zu verstecken. Aber ich bin auch nur ein Entwickler und kein Shopbetreiber, ich habe da keine Ahnung.

“Ich bin ja nur Entwickler” ach Grumpycat
Ich rechne Dir ja auch hoch an das ich am Feiertag ne Version von TinyMCE bekomm :wink:
Bei sowas weiß ich dann auch von alleine wer Marat ist.

Das der Ideale Zustand eine nicht Abmahnfähige AGB ist, geb ich Dir recht. Wenn Du sowas hast bau ich das sofort ein…

[QUOTE=Tecki;189833]
Lass mich raten, du bist Entwickler und kein Betreiber?
[/QUOTE]

Falsch geraten, bin Shopbetreiber. Um einen Shop rechtssicher zu machen sind die AGB aus meiner Sicht das kleinste Problem, wenn man sich professionelle Hilfe holt. Deinen Ansatz sehe ich eher als Fahrlässigkeit an, man versteckt die AGB damit man, wahrscheinlich bewußt, mit veralteten Rechtslagen oder so durchkommen möchte. Wenn man einen Shop betreibt gehört es einfach dazu sich auch um Rechtssicherheit zu kümmern. So aufwändig ist das eigenlicht nicht. Rechtssichere AGB klappen natürlich nicht, wenn man sich diese zusammenkopiert. Dann ist es besser auf AGB zu verzichten, dann gilt das BGB.
Viel problematischer wie die AGB sind beim Thema Rechtssicherheit eher die Punkte Marken- und Urheberrechte sowie z.B. Grundpreisangaben, … Wer seine AGB verstecken muss hat mMn noch andere und größere Probleme und sollte es mit einem Shop eher sein lassen.

cya

Also die AGB beim Anwalt hat 500€ gekostet mit dem Spruch “Rechtssicherheit gibts eh keine”.

Bei der Masse die noch die Salvatorische Klausel drin haben, geh ich mal davon aus es fällt vielen schwer das aktuell zu halten.

Sich vor Massenabmahner zu schützen, ist aus meiner Sicht legitim. Ich halte das Geschäftsmodel für moralisch fragwürdig.

Das es viel mehr Probleme gibt, da geb ich Dir recht. Der Punkt mit weglassen und BGB gilt ist für viele sicherlich hilfreich.

Aber die AGB’s waren in der robots.txt vorgesehen, halt nur falsch umgesetzt.

I stand my point.

Ich darf als ehemaliger Ero-Webmaster mal beitragen, dass es für Abmahnanwälte & Co. Tools gibt, die eine Suchmaschine obsolet machen (wir haben seinerzeit mit solchen Tools Atikelverzeichnisse, Internetforen und sonstige Spamopfer gesucht) - und die selbstredend weder ein noindex-Tag, noch eine robots.txt beachten.

Halbwegs sinnvoll in Tecki’s “Situation” wäre also das Umbenennen von Standard-URLs (nach denen wird nämlich zunächst mal per se gesucht) und das entsprechende Verankern in der robots.txt und das Sperren diverser Bots via htaccess …

Ich glaub das es die bösen Crawler gibt, ich hab selbst als freelancer schon spider für Projekte gebraucht. Ich glaub nicht das ich die aussperren kann. Dazu bräuchte ich die IP oder den User Agent und jedes 14 jährige scriptkiddy kann die ändern. Und da ich die eh nicht wegbekomm bringt mir auch eine andre url nix, die ist ja eh auf der ersten Ebene der Startseite verknüpft, egal wie sie heißt, also findet sie auch der bot.
Wenn Ihr da was sauberes habt, als her damit, mir fällt da nix ein an der Stelle.

Ich will die robots.txt um einen sinnfreien Eintrag im default verbessern, keinen super sicheren Bunker bauen

Seiten die nicht in den Index sollen müssen ein noindex im robots-meta-Tag haben.
Die robots.txt bewirkt das Gegenteil wenn man Dateien nicht im Index haben will.
Verbietet man das crawlen werden die nach einem noindex auch nicht deindexiert.

Eine weitestgehend leere robots.txt ist immer besser für einen Shop.

ich glaube nicht das die robots.txt das Gegenteil bewirkt

https://support.google.com/webmasters/answer/6062602?hl=en

raushauen aus dem Index geht am schnellsten und sichersten die search console

ein <meta name=“robots” content=“noindex”>
ist bestimmt keine dumme idee

__

[QUOTE=Tecki;189853]… bringt mir auch eine andre url nix, die ist ja eh auf der ersten Ebene der Startseite verknüpft, egal wie sie heißt, also findet sie auch der bot.
Wenn Ihr da was sauberes habt, als her damit, mir fällt da nix ein an der Stelle.

[/QUOTE]
schau dir mal dieses Konzept an:
http://forum.oxid-esales.com/showthread.php?t=17697
script ist schon 5 Jahre alt - würde ich heute anders machen - funktioniert aber bestens

Kann man sinngemäß für die AGBs auch anwenden. Ich habe es bisher nur für die Mailadresse umgesetzt und fast null Spammails über die Shop-Mailadresse

[QUOTE=patchwork.de;189857]schau dir mal dieses Konzept an:
http://forum.oxid-esales.com/showthread.php?t=17697
[/QUOTE]

Mega! Danke! probier ich über WE gleich mal aus!

Könnte man die AGB nicht erst nach captcha anzeigen? Impressum muss leicht zugänglich sein, von AGB war nie die Rede in den üblichen Vorgaben für Shops