Aveți nevoie de un fișier txt roboți. Exemple de directive gazdă ignorate

Fiecare blog are propriul răspuns la aceasta. Prin urmare, noii veniți la promovarea motoarelor de căutare devin adesea confuzi, astfel:

Ce fel de roboți ex ti?

Fişier robots.txt sau fișier index- un document text obișnuit în codificare UTF-8, valabil pentru protocoalele http, https și FTP. Fișierul oferă roboților de căutare recomandări: ce pagini/fișiere trebuie accesate cu crawlere. Dacă fișierul conține caractere într-o altă codificare decât UTF-8, roboții de căutare le pot procesa incorect. Regulile enumerate în fișierul robots.txt sunt valabile numai pentru gazda, protocolul și numărul portului în care se află fișierul.

Fișierul ar trebui să fie localizat în directorul rădăcină ca document text simplu și să fie disponibil la: https://site.com.ua/robots.txt.

În alte fișiere este obișnuit să se marcheze BOM (Byte Order Mark). Acesta este un caracter Unicode care este folosit pentru a determina secvența de octeți la citirea informațiilor. Caracterul său de cod este U+FEFF. La începutul fișierului robots.txt, marcajul secvenței de octeți este ignorat.

Google a stabilit o limită de dimensiune pentru fișierul robots.txt - acesta nu trebuie să cântărească mai mult de 500 KB.

Bine, dacă sunteți interesat de detalii pur tehnice, fișierul robots.txt este o descriere în forma Backus-Naur (BNF). Acesta folosește regulile RFC 822.

Când procesează regulile în fișierul robots.txt, roboții de căutare primesc una dintre cele trei instrucțiuni:

acces parțial: este disponibilă scanarea elementelor individuale ale site-ului web;
acces complet: poți scana totul;
interdicție completă: robotul nu poate scana nimic.

Când scanează fișierul robots.txt, roboții primesc următoarele răspunsuri:

2xx — scanarea a avut succes;
3xx — robotul de căutare urmează redirecționarea până când primește un alt răspuns. Cel mai adesea, există cinci încercări pentru ca robotul să primească un răspuns altul decât un răspuns 3xx, apoi se înregistrează o eroare 404;
4xx — robotul de căutare consideră că este posibil să acceseze cu crawlere întregul conținut al site-ului;
5xx — sunt evaluate ca erori temporare ale serverului, scanarea este complet interzisă. Robotul va accesa fișierul până când va primi un alt răspuns.Robotul de căutare Google poate determina dacă răspunsul paginilor lipsă de pe site este configurat corect sau incorect, adică dacă în loc de o eroare 404 pagina returnează un răspuns 5xx, în în acest caz pagina va fi procesată cu codul de răspuns 404.

Încă nu se știe cum este procesat fișierul robots.txt, care este inaccesibil din cauza problemelor serverului cu accesul la Internet.

De ce aveți nevoie de un fișier robots.txt?

De exemplu, uneori roboții nu ar trebui să viziteze:

pagini cu informații personale ale utilizatorilor de pe site;
pagini cu diverse formulare pentru trimiterea de informații;
site-uri oglindă;
paginile cu rezultatele căutării.

Important: chiar dacă pagina se află în fișierul robots.txt, există posibilitatea ca aceasta să apară în rezultate dacă un link către aceasta a fost găsit în site sau undeva pe o resursă externă.

Iată cum văd roboții motoarelor de căutare un site cu și fără fișier robots.txt:

Fără robots.txt, informațiile care ar trebui ascunse privirilor indiscrete pot ajunge în rezultatele căutării și, din această cauză, atât dvs., cât și site-ul veți avea de suferit.

Iată cum vede robotul motorului de căutare fișierul robots.txt:

Google a detectat fișierul robots.txt de pe site și a găsit regulile după care paginile site-ului ar trebui să fie accesate cu crawlere

Cum se creează un fișier robots.txt

Folosind Notepad, Notepad, Sublime sau orice alt editor de text.

User-agent - carte de vizită pentru roboți

User-agent—o regulă despre care roboții trebuie să vadă instrucțiunile descrise în fișierul robots.txt. În prezent, există 302 roboți de căutare cunoscuți

Se spune că specificăm reguli în robots.txt pentru toți roboții de căutare.

Pentru Google, robotul principal este Googlebot. Dacă vrem să luăm în considerare doar acest lucru, intrarea în fișier va fi astfel:

În acest caz, toți ceilalți roboți vor accesa cu crawlere conținutul pe baza directivelor lor pentru procesarea unui fișier robots.txt gol.

Pentru Yandex, robotul principal este... Yandex:

Alți roboți speciali:

Mediapartners-Google— pentru serviciul AdSense;
AdsBot-Google— pentru a verifica calitatea paginii de destinație;
YandexImagini— Yandex.Indexator de imagini;
Googlebot-Imagine- pentru poze;
YandexMetrika— robot Yandex.Metrica;
YandexMedia— un robot care indexează date multimedia;
YaDirectFetcher— Yandex.Robot direct;
Googlebot-Video— pentru video;
Googlebot-Mobil- pentru versiunea mobilă;
YandexDirectDyn— robot dinamic generator de bannere;
YandexBlogs— un robot de căutare a blogurilor care indexează postările și comentariile;
YandexMarket— Robot Yandex.Market;
YandexNews— Robot Yandex.News;
YandexDirect— descarcă informații despre conținutul site-urilor partenere ale rețelei de publicitate pentru a-și clarifica subiectele pentru selectarea reclamelor relevante;
YandexPagechecker— validator de micro markup;
YandexCalendar— Yandex.robot Calendar.

Nu permiteți - plasarea „cărămizilor”

Merită folosit dacă site-ul este în proces de îmbunătățiri și nu doriți să apară în rezultatele căutării în starea sa actuală.

Este important să eliminați această regulă de îndată ce site-ul este pregătit pentru ca utilizatorii să o vadă. Din păcate, mulți webmasteri uită de acest lucru.

Exemplu. Cum să configurați o regulă de respingere pentru a sfătui roboții să nu vadă conținutul unui folder /papka/:

Această linie interzice indexarea tuturor fișierelor cu extensia .gif

Permite - direcționăm roboții

Allow permite scanarea oricărui fișier/directiv/pagină. Să presupunem că doriți ca roboții să poată vizualiza numai paginile care încep cu /catalog și să închidă restul conținutului. În acest caz, este prescrisă următoarea combinație:

Regulile de permis și de respingere sunt sortate după lungimea prefixului URL (de la cel mai mic la cel mai mare) și sunt aplicate secvenţial. Dacă mai multe reguli corespund unei pagini, robotul selectează ultima regulă din lista sortată.

Gazdă - selectați un site oglindă

Gazda este una dintre regulile obligatorii pentru robots.txt; îi spune robotului Yandex care dintre oglinzile site-ului ar trebui luate în considerare pentru indexare.

O oglindă a site-ului este o copie exactă sau aproape exactă a unui site, disponibilă la diferite adrese.

Robotul nu va fi confuz când va găsi oglinzi de site și va înțelege că oglinda principală este specificată în fișierul robots.txt. Adresa site-ului este indicată fără prefixul „http://”, dar dacă site-ul rulează pe HTTPS, trebuie specificat prefixul „https://”.

Cum se scrie această regulă:

Un exemplu de fișier robots.txt dacă site-ul rulează pe protocolul HTTPS:

Harta site - harta medicala a site-ului

Harta site-ului le spune roboților că toate adresele URL ale site-urilor necesare pentru indexare se află la http://site.ua/sitemap.xml. Cu fiecare accesare cu crawlere, robotul va analiza ce modificări au fost aduse acestui fișier și va actualiza rapid informațiile despre site din bazele de date ale motorului de căutare.

Crawl-delay - cronometru pentru servere slabe

Crawl-delay este un parametru care poate fi utilizat pentru a seta perioada după care se vor încărca paginile site-ului. Această regulă este relevantă dacă aveți un server slab. În acest caz, pot exista întârzieri mari atunci când roboții de căutare accesează paginile site-ului. Acest parametru este măsurat în secunde.

Clean-param - vânător de conținut duplicat

Clean-param ajută la rezolvarea parametrilor de obținere pentru a evita duplicarea conținutului care poate fi disponibil la diferite adrese dinamice (cu semne de întrebare). Astfel de adrese apar dacă site-ul are diverse sortări, ID-uri de sesiune și așa mai departe.

Să presupunem că pagina este disponibilă la următoarele adrese:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

În acest caz, fișierul robots.txt va arăta astfel:

Aici ref indică de unde provine linkul, deci este scris chiar de la început și abia apoi este indicat restul adresei.

Dar înainte de a trece la fișierul de referință, mai trebuie să aflați despre unele semne care sunt folosite atunci când scrieți un fișier robots.txt.

Simboluri în robots.txt

Caracterele principale ale fișierului sunt „/, *, $, #”.

Prin utilizarea bară oblică "/" arătăm că vrem să prevenim detectarea de către roboți. De exemplu, dacă există o bară oblică în regula de respingere, interzicem scanarea întregului site. Folosind două caractere oblice, puteți preveni scanarea unui anumit director, de exemplu: /catalog/.

Această intrare spune că interzicem scanarea întregului conținut al folderului de catalog, dar dacă scriem /catalog, vom interzice toate linkurile de pe site care încep cu /catalog.

Asterisc „*”înseamnă orice secvență de caractere din fișier. Este plasat după fiecare regulă.

Această intrare spune că toți roboții nu ar trebui să indexeze niciun fișier cu extensie .gif în folderul /catalog/

Semnul dolarului «$» limitează acțiunile semnului asterisc. Dacă doriți să blocați întregul conținut al folderului catalog, dar nu puteți bloca adresele URL care conțin /catalog, intrarea în fișierul index va fi astfel:

Grilă "#" folosit pentru comentariile pe care un webmaster le lasă pentru el sau pentru alți webmasteri. Robotul nu le va ține cont atunci când scanează site-ul.

De exemplu:

Cum arată robots.txt ideal

Fișierul deschide conținutul site-ului pentru indexare, gazda este înregistrată și este indicată o hartă a site-ului, care va permite motoarelor de căutare să vadă mereu adresele care ar trebui indexate. Regulile pentru Yandex sunt specificate separat, deoarece nu toți roboții înțeleg instrucțiunile Gazdă.

Dar nu vă grăbiți să copiați conținutul fișierului către dvs. - fiecare site trebuie să aibă reguli unice, care depind de tipul de site și de CMS. Prin urmare, merită să vă amintiți toate regulile atunci când completați fișierul robots.txt.

Cum să vă verificați fișierul robots.txt

Dacă doriți să aflați dacă fișierul robots.txt a fost completat corect, verificați-l în instrumentele pentru webmasteri Googleși Yandex. Pur și simplu introduceți codul sursă al fișierului robots.txt în formular prin intermediul linkului și specificați site-ul care urmează să fie verificat.

Cum să nu completați fișierul robots.txt

Adesea, la completarea unui fișier index, se fac greșeli enervante și sunt asociate cu neatenția sau graba obișnuită. Mai jos este un grafic al erorilor pe care le-am întâlnit în practică.

2. Scrierea mai multor foldere/directoare într-o singură declarație Disallow:

O astfel de intrare poate deruta roboții de căutare; este posibil să nu înțeleagă ce anume nu ar trebui să indexeze: fie primul folder, fie ultimul, așa că trebuie să scrieți fiecare regulă separat.

3. Fișierul în sine trebuie apelat numai robots.txt,și nu Robots.txt, ROBOTS.TXT sau orice altceva.

4. Nu puteți lăsa regula User-agent goală - trebuie să spuneți care robot ar trebui să țină cont de regulile scrise în fișier.

5. Caractere suplimentare în fișier (bare oblice, asteriscuri).

6. Adăugarea paginilor la fișier care nu ar trebui să fie în index.

Utilizarea non-standard a robots.txt

Pe lângă funcțiile directe, fișierul index poate deveni o platformă pentru creativitate și o modalitate de a găsi noi angajați.

Iată un site în care robots.txt este în sine un site mic cu elemente de lucru și chiar o unitate de anunțuri.

Fișierul este folosit în principal de agențiile SEO ca platformă pentru căutarea specialiștilor. Cine altcineva ar putea ști despre existența lui? :)

Și Google are un fișier special oameni.txt, ca să nu vă permiteți să vă gândiți la discriminarea specialiștilor din piele și carne.

concluzii

Cu ajutorul Robots.txt puteți da instrucțiuni pentru a căuta roboți, a vă face publicitate, a mărcii dvs. și a căuta specialiști. Acesta este un domeniu grozav pentru experimentare. Principalul lucru este să vă amintiți despre completarea corectă a fișierului și despre greșelile tipice.

Reguli, cunoscute și ca directive, cunoscute și ca instrucțiuni în fișierul robots.txt:

User-agent - o regulă despre care roboții trebuie să vadă instrucțiunile descrise în robots.txt.
Disallow oferă recomandări cu privire la informațiile care nu ar trebui scanate.
Sitemap le spune roboților că toate adresele URL ale site-urilor necesare pentru indexare se află la http://site.ua/sitemap.xml.
Gazda îi spune robotului Yandex care dintre oglinzile site-ului ar trebui luate în considerare pentru indexare.
Allow permite scanarea oricărui fișier/directiv/pagină.

Semne la compilarea robots.txt:

Semnul dolar „$” limitează acțiunile semnului asterisc.
Folosind bara oblică „/” indicăm că vrem să-l ascundem de la detectarea de către roboți.
Asteriscul „*” înseamnă orice secvență de caractere din fișier. Este plasat după fiecare regulă.
Hash „#” este folosit pentru a indica comentariile pe care un webmaster le scrie pentru el sau pentru alți webmasteri.

Utilizați fișierul index cu înțelepciune - iar site-ul va fi întotdeauna în rezultatele căutării.

Buna ziua! A fost o perioadă în viața mea când nu știam absolut nimic despre crearea de site-uri web și, cu siguranță, nu aveam idee despre existența fișierului robots.txt.

Când un simplu interes a devenit un hobby serios, au apărut forța și dorința de a studia toate complexitățile. Pe forumuri găsești multe subiecte legate de acest fișier, de ce? Este simplu: robots.txt reglementează accesul motoarelor de căutare la site, gestionând indexarea, iar acest lucru este foarte important!

Robots.txt este un fișier text conceput pentru a limita accesul roboților de căutare la secțiuni și pagini ale site-ului care trebuie excluse din accesarea cu crawlere și din rezultatele căutării.

De ce să ascundeți anumite conținuturi ale site-ului? Este puțin probabil să fii fericit dacă un robot de căutare indexează fișierele de administrare a site-ului, care pot conține parole sau alte informații sensibile.

Există mai multe directive pentru a reglementa accesul:

User-agent - agent utilizator pentru care sunt specificate reguli de acces,
Disallow - interzice accesul la adresa URL,
Permite - permite accesul la adresa URL,
Harta site-ului - indică calea către,
Crawl-delay - setează intervalul de accesare cu crawlere a adresei URL (numai pentru Yandex),
Clean-param - ignoră parametrii URL dinamici (numai pentru Yandex),
Gazdă - indică oglinda principală a site-ului (numai pentru Yandex).

Vă rugăm să rețineți că, începând cu 20 martie 2018, Yandex a încetat oficial să mai susțină directiva Gazdă. Poate fi eliminat din robots.txt, iar dacă este lăsat, robotul îl va ignora pur și simplu.

Fișierul trebuie să fie localizat în directorul rădăcină al site-ului. Dacă site-ul are subdomenii, atunci propriul său robots.txt este compilat pentru fiecare subdomeniu.

Ar trebui să vă amintiți întotdeauna siguranța. Acest fișier poate fi vizualizat de oricine, deci nu este nevoie să specificați o cale explicită către resursele administrative (panouri de control etc.) în el. După cum se spune, cu cât știi mai puțin, cu atât dormi mai bine. Prin urmare, dacă nu există link-uri către o pagină și nu doriți să o indexați, atunci nu trebuie să o înregistrați în roboți, oricum nimeni nu o va găsi, nici măcar roboții păianjen.

Când un robot de căutare accesează cu crawlere un site, verifică mai întâi prezența fișierului robots.txt pe site și apoi urmează directivele acestuia atunci când accesează cu crawlere paginile.

Aș dori să notez imediat că motoarele de căutare tratează acest fișier în mod diferit. De exemplu, Yandex își urmează necondiționat regulile și exclude paginile interzise de la indexare, în timp ce Google percepe acest fișier ca o recomandare și nimic mai mult.

Pentru a interzice indexarea paginilor, puteți utiliza alte mijloace:

redirecționează sau către un director folosind fișierul .htaccess,
noindex metaetichetă (a nu se confunda cu pentru a interzice indexarea unei părți a textului),
atribut pentru link-uri, precum și eliminarea link-urilor către pagini inutile.

În același timp, Google poate adăuga cu succes pagini cărora le este interzisă indexarea la rezultatele căutării, în ciuda tuturor restricțiilor. Argumentul său principal este că, dacă o pagină este legată, atunci aceasta poate apărea în rezultatele căutării. În acest caz, este recomandat să nu faceți linkuri către astfel de pagini, dar scuzați-mă, fișierul robots.txt are tocmai scopul de a exclude astfel de pagini din rezultatele căutării... În opinia mea, nu există nicio logică 🙄

Eliminarea paginilor din căutare

Dacă paginile interzise sunt încă indexate, atunci trebuie să utilizați Google Search Console și instrumentul de eliminare URL inclus:

Un instrument similar este disponibil în Yandex Webmaster. Citiți mai multe despre eliminarea paginilor din indexul motorului de căutare într-un articol separat.

Se verifică robots.txt

Continuând tema cu Google, puteți utiliza un alt instrument Search Console și puteți verifica fișierul robots.txt pentru a vedea dacă este compilat corect pentru a preveni indexarea anumitor pagini:

Pentru a face acest lucru, introduceți pur și simplu adresele URL care trebuie verificate în câmpul de text și faceți clic pe butonul Verificare - în urma verificării, se va dezvălui dacă această pagină nu are acces la indexare sau dacă conținutul ei este accesibil roboților de căutare. .

Yandex are, de asemenea, un instrument similar situat în Webmaster, verificarea se efectuează într-un mod similar:

Dacă nu știți cum să creați corect un fișier, atunci pur și simplu creați un document text gol cu numele robots.txt, iar pe măsură ce studiați caracteristicile CMS și structura site-ului, completați-l cu directivele necesare.

Pentru informații despre cum să compilați corect un fișier, vă rugăm să urmați linkul. Te văd!

Fișierul robots.txt se află în folderul rădăcină al site-ului dvs. Este necesar să se indice robotului de căutare ce pagini ale site-ului pot fi incluse sau nu incluse în index.

Acest lucru este necesar în principal dacă site-ul dvs. conține informații sensibile despre utilizatori care nu ar trebui să fie indexate în căutări. Folosind robots.txt, puteți opri cu ușurință indexarea oricărei pagini. Acest fișier are, de asemenea, scopul de a rezolva o altă problemă. La urma urmei, motorul WordPress poate crea pagini cu arhive, etichete și categorii, unde conținutul este de obicei repetat în mod regulat. Iar robotul nu are ce face în panoul de administrare al blogului.De regulă, un motor de căutare permite pagini duplicate, dar o poate face incorect. Pentru a corecta această situație, trebuie să utilizați fișierul robots.txt. La urma urmei, cu ajutorul acestuia puteți preveni indexarea categoriilor, arhivelor sau etichetelor duplicate.

Dacă site-ul dvs. găzduiește un forum, atunci folosind acest fișier puteți dezactiva și indexarea profilurilor pentru a le proteja de posibilele spam. Astfel, robots.txt poate oferi cu ușurință site-ului o indexare adecvată de către motoarele de căutare și protecția informațiilor sensibile.

Ar trebui să examinați în detaliu întregul fișier robots.txt.

Linia User-agent trebuie să conțină numele robotului de căutare.

Agent utilizator: *

Asteriscul indică faptul că directivele se pot aplica oricărui job de căutare. Și trebuie să contactați personal Yandex.

Agent utilizator: Yandex

Directiva Disallow, la rândul său, indică secțiuni și pagini care nu trebuie indexate.

Disallow: /cgi-bin Disallow: /wp-admin

O hartă de site este menită să trimită către un fișier care are o hartă de site.

Harta site-ului: http://blogozar.ru/sitemap.xml

Pentru a crea robots.txt, puteți utiliza pluginul special pentru PC Robots.txt, care trebuie mai întâi instalat și activat. Un fișier standard se află în setările pluginului. Conține un număr mare de directive care sunt destinate diverșilor roboți. Astfel, puteți împiedica roboții spam să vă indexeze site-ul, dar aceștia nu vor acorda atenție directivelor care sunt incluse în robots.txt. Prin urmare, puteți lăsa în fișier doar acele secțiuni pe care doriți să le interziceți.

Dar este mai bine să nu abuzați de pluginuri. În loc de acest plugin, este mai bine să instalați altul. Fișierul Robots.txt. De asemenea, îl puteți instala manual.

Robots.txt este creat într-un bloc de note obișnuit. Deschideți blocnotes, scrieți text sau copiați (mai jos). Salvați „salvare ca...”. În linia „nume fișier” introduceți: roboți format .TXT va fi inserat automat. Apoi încărcați acest fișier pe server în folderul rădăcină al blogului. Pentru cei care nu știu cum să creeze robots.txt corect, îmi puteți copia robots.txt.

User-agent: * Crawl-delay: 4 Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content /themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* User-agent: Yandex Crawl-delay: 4 Disallow : /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?.com/sitemap.xml

Nu uitați să schimbați ultimele două rânduri. În loc de site-ul web introduceți domeniul dvs.

Fișierul este fără bibelouri sau comenzi speciale. Standard general. Principalul lucru este că este testat și funcționează.

Salutări, dragi cititori ai blogului Pingo SEO. În acest articol vreau să-mi subliniez ideea despre cum să compun corect robots.txt pentru un site web. La un moment dat, am fost foarte enervat că informațiile de pe Internet despre această problemă erau destul de fragmentare. Din cauza asta, a trebuit să mă târăsc în jur un numar mare resurse, filtrarea constantă a informațiilor repetitive și identificarea de informații noi.

Astfel, aici voi încerca să răspund la majoritatea întrebărilor, începând cu definiția și terminând cu exemple de probleme reale rezolvate de acest instrument. Dacă uit ceva, scrieți despre asta în comentarii - voi cerceta problema și voi adăuga la material.

Robots.txt - ce este, de ce este necesar și unde locuiește?

Deci, în primul rând, un program educațional pentru cei care nu sunt complet familiarizați cu acest subiect.

Robots.txt este un fișier text care conține instrucțiuni pentru indexarea unui site pentru roboții motoarelor de căutare. În acest fișier, webmasterul poate defini parametrii de indexare ai site-ului său atât pentru toți roboții simultan, cât și pentru fiecare motor de căutare separat (de exemplu, pentru Google).

Unde se află robots.txt? Se află în folderul rădăcină al site-ului FTP și, de fapt, este un document obișnuit în format txt, care poate fi editat folosind orice editor de text (personal, prefer Notepad++). Conținutul fișierului roboți poate fi văzut introducând http://www.your-site.ru/robots.txt în bara de adrese a browserului dumneavoastră. Dacă, desigur, există.

Cum se creează robots.txt pentru un site web? Este suficient să faci un fișier text obișnuit cu același nume și să îl încarci pe site. Cum să o configurați și să compuneți corect va fi discutată mai jos.

Structura și configurarea corectă a fișierului robots.txt

Cum ar trebui să arate fișierul robots txt corect pentru un site? Structura poate fi descrisă după cum urmează:

1. Directiva utilizator-agent

Ce să scrieți în această secțiune? Această directivă stabilește cărui robot sunt destinate următoarele instrucțiuni. De exemplu, dacă sunt destinate tuturor roboților, atunci următorul design este suficient:

În sintaxa fișierului robots.txt, semnul „*” este echivalent cu expresia „orice”. Dacă trebuie să specificați instrucțiuni pentru un anumit motor de căutare sau robot, atunci numele acestuia este scris în locul asteriscului din exemplul anterior, de exemplu:

Agent utilizator: YandexBot

Fiecare motor de căutare are un întreg set de roboți care îndeplinesc anumite funcții. Sunt descriși roboții motorului de căutare Yandex. În termeni generali, există următoarele:

Yandex - referință la roboții Yandex.
GoogleBot este principalul robot de indexare.
MSNBot este robotul de indexare principal al Bing.
Aport - roboți Aport.
Mail.Ru - roboți PS Mail.

Dacă există o directivă pentru un anumit motor de căutare sau robot, atunci cele generale sunt ignorate.

2. Permite directivă

Permite pagini individuale ale unei secțiuni dacă, de exemplu, aceasta a fost complet închisă anterior de la indexare. De exemplu:

Agent utilizator: *
Nu permite: /
Permite: /open-page.html

În acest exemplu, interzicem indexarea întregului site, cu excepția paginii poni.html

Această directivă servește într-o oarecare măsură pentru a indica excepții de la regulile specificate de directiva Disallow. Dacă nu există astfel de situații, este posibil ca directiva să nu fie folosită deloc. Nu vă permite să deschideți un site pentru indexare, așa cum cred mulți oameni, deoarece dacă nu există nicio interdicție precum Disallow: /, atunci este deschis implicit.

2. Disallow directivă

Este antipodul directivei Allow și blochează paginile individuale, secțiunile sau întregul site de la indexare. Este analog cu eticheta noindex. De exemplu:

Agent utilizator: *
Nu permiteți: /closed-page.html

3. Directiva gazdă

Folosit numai pentru Yandex și indică oglinda principală a site-ului. Arata cam asa.

Oglinda principala fara www:

Oglinda principală de pe www:

Gazdă: www.site.ru

Site-ul pe https:

Gazdă: https://site.ru

Nu puteți scrie directiva gazdă într-un fișier de două ori. Dacă acest lucru se întâmplă din cauza unei erori, atunci directiva care vine prima este procesată, iar a doua este ignorată.

4. Directiva Sitemap

Folosit pentru a specifica calea către sitemap-ul XML sitemap.xml (dacă există). Sintaxa este următoarea:

Harta site-ului: http://www.site.ru/sitemap.xml

5. Directiva Clean-param

Folosit pentru a bloca paginile cu parametri care pot fi duplicate de la indexare. O directivă foarte utilă, în opinia mea, care taie coada parametrică a URL-urilor, lăsând doar coloana vertebrală, care este adresa originală a paginii.

Această problemă este frecventă în special atunci când lucrați cu cataloage și magazine online.

Să presupunem că avem o pagină:

http://www.site.ru/index.php

Și această pagină în proces de lucru poate deveni acoperită de clone ale speciei.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Pentru a scăpa de toate variantele posibile ale acestui spam, este suficient să indicați următoarea construcție:

Clean-param: opțiunea /index.php

Cred că sintaxa din exemplu este clară:

Clean-param: # specifica directiva
opțiunea # specificați parametrul de spam
/index.php # specifica coloana vertebrală a adresei URL cu parametrul spam

Dacă există mai mulți parametri, atunci îi listăm pur și simplu folosind un ampersand (&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # URL cu doi parametri
Clean-param: option&big /index.php # doi parametri sunt specificati folosind un ampersand

Este luat un exemplu simplu care explică esența. Aș dori în special să spun mulțumiri acestui parametru atunci când lucrez cu CMS Bitrix.

Directiva privind întârzierea cu crawl

Vă permite să setați un timeout pentru încărcarea paginilor site-ului de către robotul Yandex. Este folosit atunci când serverul este încărcat puternic și pur și simplu nu are timp să returneze rapid conținutul. În opinia mea, acesta este un anacronism care nu se mai ține cont și care nu poate fi folosit.

Întârziere de accesare cu crawlere: 3,5 #timeout 3,5 secunde

Sintaxă

# - folosit pentru a scrie comentarii:

User-agent: * Directiva se aplică tuturor roboților

* - înseamnă orice succesiune de caractere, adică:

Disallow: /page* # interzice toate paginile care încep cu pagina

Nu permiteți: /*pagina # nu permiteți toate paginile care se termină cu pagină

Nu permiteți: /cgi-bin/*.aspx # nu permiteți toate paginile aspx din folderul cgi-bin

$ - trunchierea regulii, antipodul semnului asterisc:

Disallow: /page$ # va închide numai /page, nu /page.html sau pageline.html

Exemplu de fișier robots.txt

Pentru a consolida înțelegerea structurii și regulilor descrise mai sus, prezentăm textul standard al roboților pentru CMS Data Life Engine.

User-agent: *# directivele sunt destinate tuturor motoarelor de căutare
Disallow: /engine/go.php # dezactivează anumite secțiuni și pagini
Nu permiteți: /engine/download.php #
Nu permiteți: /utilizator/ #
Nu permiteți: /postări noi/ #
Disallow: /*subaction=userinfo # închide pagini cu parametri individuali
Nu permiteți: /*subaction=postări noi #
Nu permiteți: /*do=ultimele comentarii #
Nu permiteți: /*do=feedback #
Nu permiteți: /*do=register #
Nu permiteți: /*do=parola pierdută #
Gazdă: www.site # indică oglinda principală a site-ului
Harta site-ului: https://site/sitemap.xml # indica calea către harta site-ului
User-agent: Aport # indică direcția regulilor pe PS Aport
Disallow: / # să presupunem că nu vrem să fim prieteni cu ei

Se verifică robots.txt

Cum se verifică corectitudinea textului roboților? Opțiunea standard este validatorul Yandex - http://webmaster.yandex.ru/robots.xml. Introduceți calea către fișierul dvs. roboți sau inserați imediat conținutul acestuia în câmpul de text. Introducem o listă de adrese URL pe care vrem să le verificăm - dacă sunt închise sau deschise conform directivelor date - faceți clic pe „Verifică” și voila! Profit.

Se afișează starea paginii - indiferent dacă este deschisă pentru indexare sau închisă. Dacă este închis, atunci este indicat de ce regulă. Pentru a permite indexarea unei astfel de pagini, trebuie să modificați regula indicată de validator. Dacă există erori de sintaxă în fișier, validatorul va raporta și acest lucru.

Generator Robots.txt - creare online

Dacă nu aveți dorința sau timpul să studiați sintaxa, dar este nevoie să închideți paginile de spam de pe site, atunci puteți utiliza orice generator online gratuit care vă va permite să creați roboți txt pentru site într-un câteva clicuri. Apoi, tot ce trebuie să faceți este să descărcați fișierul și să-l încărcați pe site-ul dvs. web. Când lucrați cu acesta, trebuie doar să verificați setările evidente și, de asemenea, să indicați paginile pe care doriți să le blocați de la indexare. Generatorul va face restul pentru tine.

Fișiere gata făcute pentru CMS popular

Robots.txt pentru DataLife Engine (DLE)

Agent utilizator: *
Nu permiteți: /engine/go.php
Nu permiteți: /engine/download.php
Nu permiteți: /engine/classes/highslide/
Nu permiteți: /utilizator/
Nu permiteți: /etichete/
Nu permiteți: /postări noi/
Nu permiteți: /statistics.html
Nu permiteți: /*subaction=userinfo
Nu permiteți: /*subaction=postări noi
Nu permiteți: /*do=ultimele comentarii
Nu permiteți: /*do=feedback
Nu permite: /*do=register
Nu permiteți: /*do=parola pierdută
Nu permiteți: /*do=addnews
Nu permiteți: /*do=stats
Nu permiteți: /*do=pm
Nu permiteți: /*do=căutare
Gazdă: www.site.ru
Harta site-ului: http://www.site.ru/sitemap.xml

Robots.txt pentru Joomla

Agent utilizator: *
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permite: /include/
Nu permiteți: /instalare/
Nu permiteți: /limba/
Nu permiteți: /biblioteci/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Nu permiteți: /tmp/
Nu permiteți: /xmlrpc/
Nu permite: *tipărește
Nu permiteți: /*utm_source
Nu permiteți: /*mailto*
Nu permite: /*începe*
Nu permiteți: /*feed*
Nu permiteți: /*căutare*
Nu permiteți: /*utilizatori*
Gazdă: www.site.ru
Harta site-ului: http://www.site.ru/sitemap.xml

Robots.txt pentru Wordpress

Agent utilizator: *
Nu permiteți: /cgi-bin
Nu permiteți: /wp-admin
Nu permiteți: /wp-includes
Nu permiteți: /wp-content/plugins
Nu permiteți: /wp-content/cache
Nu permiteți: /wp-content/themes
Nu permite: */trackback
Nu permiteți: */feed
Nu permiteți: /wp-login.php
Nu permiteți: /wp-register.php
Gazdă: www.site.ru
Harta site-ului: http://www.site.ru/sitemap.xml

Robots.txt pentru Ucoz

Agent utilizator: *
Nu permiteți: /a/
Nu permiteți: /stat/
Nu permiteți: /index/1
Nu permiteți: /index/2
Nu permiteți: /index/3
Nu permiteți: /index/5
Nu permiteți: /index/7
Nu permiteți: /index/8
Nu permiteți: /index/9
Nu permiteți: /panel/
Nu permiteți: /admin/
Nu permiteți: /secure/
Nu permiteți: /informator/
Nu permiteți: /mchat
Nu permite: /căutare
Nu permiteți: /magazin/comandă/
Nu permite: /?ssid=
Nu permiteți: /google
Nu permite: /

Aveți nevoie de un fișier txt roboți. Exemple de directive gazdă ignorate

Ce fel de roboți ex ti?

De ce aveți nevoie de un fișier robots.txt?

Cum se creează un fișier robots.txt

User-agent - carte de vizită pentru roboți

Nu permiteți - plasarea „cărămizilor”

Permite - direcționăm roboții

Gazdă - selectați un site oglindă

Harta site - harta medicala a site-ului

Crawl-delay - cronometru pentru servere slabe

Clean-param - vânător de conținut duplicat

Simboluri în robots.txt

Cum arată robots.txt ideal

Cum să vă verificați fișierul robots.txt

Cum să nu completați fișierul robots.txt

Utilizarea non-standard a robots.txt

concluzii

Eliminarea paginilor din căutare

Se verifică robots.txt

Robots.txt - ce este, de ce este necesar și unde locuiește?

Structura și configurarea corectă a fișierului robots.txt

1. Directiva utilizator-agent

2. Permite directivă

2. Disallow directivă

3. Directiva gazdă

4. Directiva Sitemap

5. Directiva Clean-param

Directiva privind întârzierea cu crawl

Sintaxă

Exemplu de fișier robots.txt

Se verifică robots.txt

Generator Robots.txt - creare online

Fișiere gata făcute pentru CMS popular

Fișier Robots.txt pentru un site pe 1C Bitrix

Robots.txt pentru DataLife Engine (DLE)

Robots.txt pentru Joomla

Robots.txt pentru Wordpress

Robots.txt pentru Ucoz