De ce contează un robots.txt bine structurat
Când configurezi un site, primul fișier pe care îl întâlnești în rădăcină este robots.txt. Acesta este singurul mijloc prin care îi comunici motoarelor de căutare ce părți ale site‑ului pot fi accesate și ce zone trebuie să rămână private. Un fișier incorect scris poate bloca indexarea paginilor profitabile, poate permite accesul la conținut duplicat și poate genera consum inutil de buget de crawl. În practică, un robots.txt bine gândit devine un filtru de calitate pentru traficul organic, reducând costurile de server și îmbunătățind semnalele de relevanță pentru Google.
Structura de bază a unui robots.txt
Formatul este simplu: grupuri de directive asociate unui User‑agent. Fiecare grup începe cu linia User-agent:, urmată de una sau mai multe directive precum Disallow, Allow, Crawl-delay sau Sitemap. Ordinea nu contează, dar este recomandat să păstrezi grupurile separate pentru claritate.
Exemplu minimal
User-agent: * Disallow: /admin/ Sitemap: https://exemplu.com/sitemap.xml
Acest snippet spune tuturor roboților să nu acceseze directorul /admin/ și le oferă locația sitemap‑ului, facilitând descoperirea paginilor importante.
Directive esențiale și când să le folosești
Fiecare directivă are un scop precis. Iată-le pe cele pe care nu ar trebui să le omiți niciodată.
- User-agent: identifică crawlerul căruia se adresează grupul. Folosește
*pentru a acoperi toți roboții, dar poți crea grupuri specifice pentru Googlebot, Bingbot etc., dacă ai nevoie de reguli diferite. - Disallow: blochează accesul la un path. Poți specifica un director (
/temp/) sau o pagină exactă (/login.html). Pentru a interzice tot site‑ul, scrieDisallow: /. - Allow: permite accesul în interiorul unui director deja blocat. Util când vrei să excluzi un subdirector dintr‑un director restricționat, de exemplu
Disallow: /private/șiAllow: /private/public/. - Crawl-delay: indică intervalul (în secunde) între cererile consecutive ale unui crawler. Este util pentru servere cu resurse limitate, dar majoritatea motoarelor principale ignoră această directivă în favoarea rate‑limiting‑ului intern.
- Sitemap: specifică locația fișierului sitemap. Poți declara mai multe linii
Sitemapdacă ai sitemap‑uri segmentate pe limbi sau tipuri de conținut. - Host (opțional, folosit de Yandex): indică domeniul preferat în caz de versiuni duplicate (ex:
example.comvswww.example.com).
Reguli avansate: wildcard‑uri și expresii de tip regex
De la 2022, majoritatea roboților acceptă caracterele * și $ în directive. Acestea permit filtrarea fină a URL‑urilor fără a lista fiecare cale în parte.
Wildcard pentru extensii
User-agent: * Disallow: /*.pdf$
Aici interzici accesul la toate fișierele PDF, indiferent de director. Este ideal când PDF‑urile sunt destinate exclusiv utilizatorilor înregistrați.
Wildcard pentru parametri de query
User-agent: * Disallow: /*?sessionid=
Blochezi toate URL‑urile care conțin parametrul sessionid, evitând indexarea paginilor cu conținut duplicat generat de sesiuni.
Ce să nu incluzi în robots.txt
Deși pare tentant să folosești fișierul pentru a „ascunde” informații sensibile, există capcane clare.
- Nu adăuga parole sau tokenuri în fișier – acestea devin publice și pot fi exploatate.
- Nu încredințați securitatea site‑ului pe
Disallow. Dacă o pagină nu trebuie să fie accesată de nimeni, protejeaz‑o prin autentificare sau prin blocarea la nivel de server. - Evitați directivele contradictorii în același grup (ex:
Disallow: /blog/șiAllow: /blog/fără clarificare). Acestea pot genera comportamente neașteptate în funcție de motorul de căutare.
Testarea și validarea fișierului
După ce ai scris fișierul, nu lăsa niciun pas nevalidat. Instrumentele de testare din Google Search Console și Bing Webmaster Tools îți afișează exact ce pagini sunt permise sau blocate pentru fiecare crawler. În plus, poți folosi comanda curl -I https://exemplu.com/robots.txt pentru a verifica răspunsul HTTP – ar trebui să fie 200 OK și să aibă headerul Content-Type: text/plain.
Check‑list rapid
- Fișierul este accesibil la
https://domeniu.com/robots.txtși nu returnează erori 404. - Primele 2 KB conțin toate directivele – motoarele ignoră conținutul dincolo de această limită.
- Nu există spații inutile la începutul liniei (ex:
Disallow:). - Toate URL‑urile menționate respectă formatul relativ (încep cu
/). - Ai testat fiecare grup de
User-agentîn Search Console.
Studiu de caz: optimizarea crawl‑budgetului pentru un magazin de fashion
Un retailer online cu peste 200 000 de pagini de produse a observat o scădere a traficului organic în urma unei migrații. Analiza log‑urilor a arătat că Googlebot petrecea 30 % din bugetul de crawl pe pagini de filtrare (ex: /categ/rochi?size=xl&color=red), care nu aduc valoare SEO. Soluția a constat în trei pași:
- Adăugarea unei directive
Disallow: /*?*pentru a bloca toate URL‑urile cu parametri de filtrare. - Crearea unui sitemap dedicat doar paginilor de produs, cu prioritate ridicată.
- Implementarea unui
Crawl-delay: 5exclusiv pentru Bingbot, care genera un trafic semnificativ pe server în perioadele de vârf.
După 4 săptămâni, rata de indexare a paginilor de produs a crescut cu 18 %, iar timpul mediu de încărcare al paginilor a scăzut cu 0,3 secunde, reflectând un buget de crawl mai eficient.
Gestionarea sitemap‑urilor în robots.txt
Deși poți declara sitemap‑ul în Search Console, includerea lui în robots.txt oferă un backup automat pentru toate motoarele. Dacă ai un site multilingv, specifică fiecare sitemap separat:
Sitemap: https://exemplu.com/sitemap-en.xml Sitemap: https://exemplu.com/sitemap-fr.xml Sitemap: https://exemplu.com/sitemap-ro.xml
Acest lucru permite crawlerelor să acceseze rapid variantele de limbă, fără să depindă de detectarea automată a hreflang.
Actualizarea dinamică a robots.txt în medii CI/CD
În proiectele cu livrări frecvente, menținerea unui fișier static devine riscantă. Integrarea generării dinamice în pipeline‑ul de deploy asigură că directivele reflectă întotdeauna structura curentă a site‑ului. De exemplu, poți folosi un script care:
- Recuperează lista de directoare temporare din configurarea serverului.
- Generează automat linii
Disallowpentru fiecare. - Injectează automat URL‑urile de sitemap generate în timpul build‑ului.
Rezultatul este un robots.txt mereu aliniat cu codul, fără intervenție manuală.
Gestionarea erorilor comune
După publicarea fișierului, monitorizează log‑urile pentru a identifica eventuale blocări neintenționate. Cele mai frecvente semnale de alarmă sunt:
- 404 în robots.txt – indică faptul că fișierul nu a fost încărcat corect.
- 500 Internal Server Error la accesarea fișierului – poate fi cauzat de permisiuni incorecte pe server.
- „Crawl blocked by robots.txt” în Search Console pentru pagini importante – semnalează că o regulă
Disalloweste prea largă.
Corectarea rapidă a acestor probleme previne pierderi de trafic și menține sănătatea SEO.
Încheiere – pașii pe care îi poți implementa chiar azi
Pentru a transforma robots.txt dintr-un simplu fișier de configurare într-un instrument strategic, urmează acești pași:
- Revizuiește structura site‑ului și identifică directoarele care nu aduc valoare SEO (ex: pagini de administrare, filtre, arhive).
- Scrie grupuri de
User-agentclare, cu directiveDisallowșiAllowbine delimitate. - Adaugă toate sitemap‑urile relevante, inclusiv pe cele pe limbi diferite.
- Testează fișierul în Search Console și verifică răspunsul HTTP.
- Integrează generarea automată în pipeline‑ul de deploy pentru a evita erorile de sincronizare.
Aplicând aceste practici, vei reduce consumul inutil de crawl‑budget, vei proteja zonele sensibile ale site‑ului și vei oferi motoarelor de căutare o hartă clară a conținutului valoros. În final, un robots.txt bine gândit devine un aliat discret, dar puternic, în strategia ta de vizibilitate online.



