Nu får vi brug for Robot
“Indexing, all my files… not wise it would be!”
Robots.txt filen kan blokere for det du ikke ønsker skal være offentligt tilgængelig
På nettet er der mange finurligheder, Robots.txt er en af disse små finurligheder.
Robots.txt er en lille tekstfil man placerer i bunden (root) af sit webhotel som kan give søgemaskinerne en ide om hvad man ønsker, at de ikke skal medtage i deres indeks. Det betyder ikke altid at de retter sig derefter.
Det er faktisk meget nemt at lave, du kan selv sparke notepad i gang (det er en alm. tekst-editor, som ligger standard på alle PC’ere). Så skriver du følgende: (Jeg gaflede lige robots.txt fra google.dk men klippede den lidt til (den er stor).)
Som du kan se er der muligheder for, at udelukke de mapper man ikke ønsker online for alle. F.eks et medlems forum /forum eller /members. Men det kunne også være et nyt site man lige ville bygge færdigt (der skal du også benytte “nofollow” på hver side hvis du agter at flytte sitet ud i root eller ud til en evt. kunde).
Som du kan se i eksemplet kan man også angive url’en til sine sitemaps. Det er faktisk ganske smart, da de mange “ukendte” søgebots (søgerobotter) lige lurer i robots.txt (deraf navnet) og vupti du leder dem direkte til dit sitemap, for sådanne et har du vel allerede?
Problemet med robots.txt er ikke så stort på et normalt størrelse site. De fleste småsite vil jo bare have alt indekseret og helst så hurtigt som muligt. Men forstil dig at du har en shop, der med lidt automatik indlæser varer/produkter ind i shoppen via et feed eller api. Så har du lige kastet “kopier” af andres data ind i din butik! det vil du jo gerne, for du er købmand og skal sælge disse produkter.
Automatikken sparer dig for en masse arbejde og opdateringerne er super gode og friske etc. Men men… hold lige på hatten! Kopieret data er hvad søgemaskinerne betegner som “duplicate content“, og det kan dit site blive straffet for.
Nu får vi brug for Robot
Men fat mod… hvis du nu indlæser disse i en mappen /feed-produkter og tilhørende billeder i /feed-pic så kan vi nu vise at vi ikke ønsker søgerobotterne at indekserer disse vha. robots.txt
Sådan her ville det se ud:
User-agent: * Disallow: /feed-produkter Disallow: /feed-pic
Enkelt – lige til og nemt. Nu skal filen blot smides op i root – den skal hedde robots.txt.
Hvis du ikke har overblik, tid eller tekniks snilde til selv at lave sådanne een fætter kan du sagtens finde en “pille” i mit apotek, der fjerner både smerten og en håndfuld mønter …