Robots.txt failas, saugomas jūsų svetainės šaknyje, praneša žiniatinklio robotams, kaip paieškos varikliams, kokius katalogus ir failus jie gali nuskaityti. Failo robots.txt paprasta naudoti, tačiau yra keletas dalykų, kuriuos turėtumėte prisiminti:
- "Blackhat" robotų ignoruoja jūsų robots.txt failą. Dažniausiai pasitaikantys tipai yra kenkėjiškų programų robotų ir robotai, ieškantys el. Pašto adresų derliaus nuėmimui.
- Kai kurie nauji programuotojai parašys robotai, kurie ignoruoja robots.txt failą. Paprastai tai atliekama klaidingai.
- Kiekvienas gali matyti failą robots.txt. Jie visada vadinami robots.txt ir visada saugomi svetainės šaknyje.
- Galų gale, jei kas nors susieja failą ar katalogą, kurio failas robots.txt buvo pašalintas iš puslapio, kurio robots.txt failas nėra pašalintas, paieškos varikliai vis tiek gali jį rasti.
Nenaudokite robots.txt failų, kad paslėptumėte ką nors svarbų. Vietoj to, turėtumėte įdėti svarbią informaciją už saugių slaptažodžių arba visiškai palikti ją internete.
Kaip naudotis šiais mėginių failais
Kopijuoti tekstą iš pavyzdžio, kuris yra arčiausiai to, ką norite padaryti, ir įklijuokite jį robots.txt failo atmintyje. Keiskite robotą, katalogą ir failų pavadinimus, kad atitiktumėte pageidaujamą konfigūraciją.
Du pagrindiniai robots.txt failai
Vartotojo atstovas: *Neleisti: / Šis failas sako, kad bet koks robotas ( Vartotojo atstovas: *), kuri turi prieigą, turėtų ignoruoti kiekvieną svetainės puslapį ( Neleisti: /). Vartotojo atstovas: *Neleisti: Šis failas sako, kad bet koks robotas ( Vartotojo atstovas: *), prie kurio leidžiama peržiūrėti kiekvieną svetainės puslapį ( Neleisti:). Taip pat galite tai padaryti, paliekant robots.txt failą tuščią arba visiškai neturint jo svetainėje. Vartotojo atstovas: *Neleisti: / cgi-bin /Neleisti: / temp / Šis failas sako, kad bet koks robotas ( Vartotojo atstovas: *), kuri turi prieigą, turėtų ignoruoti katalogus / cgi-bin / ir / temp / ( Neleiskite: / cgi-bin / Disallow: / temp /). Vartotojo atstovas: *Neleiskite: /jenns-stuff.htmNeleiskite: /private.php Šis failas sako, kad bet koks robotas ( Vartotojo atstovas: *), kuris turi prieigą, turėtų ignoruoti failus /jenns-stuff.htm ir /private.php ( Neleiskite: /jenns-stuff.htm Neleiskite: /private.php). Vartotojo agentas: Lycos / x.xNeleisti: / Šis failas sako, kad "Lycos bot" ( Vartotojo agentas: Lycos / x.x) neleidžiama pasiekti bet kurioje svetainės vietoje ( Vartotojo atstovas: *Neleisti: /Naudotojo agentas: "Googlebot"Neleisti: Šis failas visų pirma atmetė visus robotai, kaip mes padarėme aukščiau, o tada aiškiai leidžia "Googlebot" ( Naudotojo agentas: "Googlebot") turi prieigą prie visko ( Nors geriau naudoti labai įtraukią "User-agent" eilutę, pvz., "User-agent": *, galite būti tokia pat specifika, kokią jums patinka. Atminkite, kad robotai skaito failą pagal tvarką. Taigi, jei pirmosios eilutės sako, kad visi robotai yra užblokuoti iš visko, o vėliau rinkmenoje sakoma, kad visiems robotams leidžiama pasiekti viską, robotai turės prieigą prie visko. Jei nesate tikri, ar teisingai įrašėte failą robots.txt, galite naudoti "Google" žiniatinklio valdytojo įrankius, kad patikrintumėte failą robots.txt arba parašytumėte naują. Apsaugokite konkrečius katalogus iš robočių
Apsaugokite konkrečius puslapius iš robočių
Neleiskite konkrečiam robotui patekti į jūsų svetainę
Leisti tik vieną konkrečią prieigą prie roboto
Sujunkite kelias linijas, kad gautumėte tiksliai reikalingas išimtis