Robots.txt - upotreba robots.txt fajla i robots meta tagova

Kategorija: SEO Delicious Delicious Stumble It!

Robots.txt fajl je običan tekstualni fajl pomoću koga je moguće dati određene instrukcije pretraživačima ili web robotima u pogledu toga koje stranice na sajtu da indeksiraju, a koje ne. Na primer, Google ima svoje web robote tj. programe koji pretražuju internet i indeksiraju sve web stranice na koje naiđu. Pomoću robots.txt fajla moguće je reći Googlu da neku stranicu ili ceo direktorijum ne indeksira i samim tim ne prikazuje u rezultatima pretraživanja.

Dakle, pomoću robots.txt fajla se govori botovima pretraživača šta da indeksiraju na sajtu a šta ne, tako da je pravljenje ovog fajla jedna od prvih stvari koje se rade u procesu optimizacije sajta za pretraživače.


Photo by Anne Helmond

Da bi se napravio robots.txt fajl moguće je koristiti običan Notepad. Primer jednog osnovnog robots fajla bio bi:

User-agent: *
Disallow: /

Sa ove dve linije zabranjuje se svim pretraživačima da indeksiraju bilo šta sa web sajta. Naravno, ovo je pod pretpostavkom da pretraživač koji je posetio sajt poštuje Robots Exclusion Protocol, što glavni pretraživači i čine (za razliku od spam ili malware botova).

Pogledajmo još neke naredbe koje se mogu napisati u robots.txt fajlu:

User-agent: Yahoo! Slurp
Disallow: /neki-folder

Ako bi vam iz nekog razloga trebalo da baš Yahoo web crawler koji je poznat kao Slurp ne indeksira neki folder, to biste postigli sa gornjom naredbom. Znači, pomoću naredbe Disallow: / može se sakriti od pretraživača neki folder ili neki fajl. Spisak svih web crawlera ili botova možete pogledati na ovoj adresi http://www.user-agents.org/

User-agent: Google
Disallow:
User-agent: *
Disallow: /

na ovaj način Google robot ima pristup celom sajtu (samo se izostavi kosa crta / posle Disallow:) dok je svim ostalim robotima zabranjeno da pristupe.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

na ovaj način se brani pristup samo navedenim direktorijumima, dok je ostatak sajta slobodan za indeksiranje.

Robots.txt može biti korisan u raznim situacijama, na primer dok je sajt još uvek u fazi izrade ili testiranja, ako postoje dve verzije istog sajta ili istog fajla, ako ne želite da se neka stranica nađe u rezultatima pretraživanja itd.

Osim posebnog robots.txt fajla koji se postavlja u root direktorijum sajta na web serveru (www.sajt.com/robots.txt), mogu se koristiti i robots meta tagovi, koji se ubacuju u head deo html dokumenta. Moguće varijante su:

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Prilikom korišćenja robots.txt fajla treba imati u vidu da pojedini roboti mogu jednostavno da ignorišu robots.txt fajl (malware ili spam botovi), kao i da je robots.txt fajl moguće lako videti. Drugim rečima, ne koristite robots.txt fajl da biste sakrili važne informacije na sajtu.

Potencijalno povezani tekstovi:

Google SEO vodič za početnike

Važnost izlaznih linkova na sajtu

Zbrka sa rezultatima Google pretrage ili koliko dobro poznajete Google

SEO za početnike - osnovna optimizacija sajta za pretraživače

SEO za početnike - osnovna optimizacija sajta 2. deo: linkovi

Flash sajtovi i optimizacija za pretraživače

Provera linkova - lako pronađite neispravne linkove na sajtu

SEO profesionalac – rezultat na SEO Expert kvizu

Komentari

  1. Danijel - 2011-08-21 20:10

    Hvala ti na ovim informacijama, imam jedno pitanje.
    Vec neka 3,4 dana sam u robots.txt
    User-agent: *
    Disallow: /
    Zeleo sam da me google sto brze indexira, ali ovo sam stavio greskom (kopirao sa 1 sajta i mislio da tako treba)

    Sada sam izbrisao samo kosu crtu.
    Da li je google zavrsio sa indexiranjem moga sajta videvsi ono disallow / i vise se nece vracati na njega? Ili jos uvek ima nade za moj sajt?
    Hvala

  2. Andrija - 2011-08-22 10:52

    Ima nade ne brini :) vratice se Google i indeksirace sajt, mozda treba da prodje malo vremena, ne znam koliko, ali vratice se..

  3. lazar - 2011-12-21 20:05

    koristim .htaccess za “zaštitu”

    Options +FollowSymLinks
    RewriteEngine On
    RewriteBase /

    ErrorDocument 404 /greska.html

    Options All -Indexes

    <files .htaccess>
    order allow,deny
    deny from all
    </files>

    AuthType Basic
    AuthName “Ovaj deo stranice je zabranjen. Pristup imaju samo administratori”
    AuthUserFile “folder/passwd.htpasswd”
    require valid-user

    —————————————-

    I pored svega:
    moj_domen.com/folder/tekst.txt ovaj file je dostupan svakom preko browsera, i to bih hteo da sprečim, već da bude čitljiv samo php fajlu.
    Hvala

  4. Dejan - 2012-01-25 19:41

    Pozdrav, hvala na ovim informacijama..imam jedno pitanje..

    Upladovao sam sajt, google je indeksirao sve stranice (sto mi ne odgovara jer su neke stranice samo izvori za iframe koji se otvara u index stranici). Koliko vremena ce biti potrebno (ako ubacim html varijantu u stranice na koje ne zelim da se pojavljuju u pretrazivanju) da google te stranice ukloni iz pretrage i da mi se pojavljuje samo index stranca? Da li treba da radim jos nesto kako bi se te stranice uklonile?

    Hvala :)

  5. Andrija - 2012-01-25 22:53

    Nisam bas razumeo, “ (ako ubacim html varijantu u stranice na koje ne zelim da se pojavljuju u pretrazivanju) “ , ali u svakom slucaju, ako te stranice blokiras pomocu robots.txt fajla, trebace malo vremena, sve zavisi koliko cesto google posecuje tvoj sajt, ali ne bi trebalo mnogo, mozda nedelju dve dana, manje vise, zavisi od sajta do sajta..

  6. Kolarski - 2013-01-02 15:00

    Interesuje me da li u polje robots.txt ako zelim da mi je sve javno i zelim da privucem sto veci broj posetilaca traba da koristim ovaj robot sto posedujem sada
    ———————-
    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow:

    Sitemap:http://gamesbalkan.blogspot.com/
    ————————————
    ili treba da koristim neki od ovih gore ponudjenih…
    I jos nesto jer treba da se kopiraju te kose crtice i zvezdice ili umesto njih treba nesto drugo da se upise…
    HVALA

  7. Zorica - 2013-05-13 23:08

    Treba mi vaša pomoć! Naime, postovi na mom blogu se od 18.marta ove godine ne pojavljuju na Kontrolnoj tabli Blogera za čitanje, tj.praćenje. Ne znam da li je u pitanju robots.txt ili nešto drugo? Molim vas ukoliko je ovo pitanje za vas, odgovorite mi i pomozite kako da rešim ovaj problem. Pozdrav!

  8. Dinco - 2015-06-16 13:07

    Pozdrav! Da li možeš da mi pojasniš kako ovo primeniti za seo i dali uopšte ovo pomaže za seo?

Komentarisanje zatvoreno.