Escludere una pagina Web o un sito da motori di ricerca utilizzando un file di testo Robots

È possibile utilizzare un file di testo i robot per bloccare una spider dei motori di ricerca di eseguire la scansione del sito Web o di una parte del tuo sito. Ad esempio, si può avere una versione di sviluppo del sito Web in cui si lavora sulle modifiche e integrazioni alla prova prima che diventino parte del tuo sito web in tempo reale. Tu non vuoi i motori di ricerca di indicizzare questa copia "in-progress" del sito Web perché causerebbe un conflitto duplicato contenuto con il tuo sito web vero e proprio. Inoltre, non vorrebbe agli utenti di trovare le pagine in-progress. Quindi è necessario bloccare i motori di ricerca di vedere quelle pagine.

Il lavoro del file di testo robot è quello di dare le istruzioni motori di ricerca su cosa non ragno all'interno del tuo sito web. Si tratta di un semplice file di testo che è possibile creare utilizzando un programma come Blocco note e quindi salvare con il nome del file robots.txt. Inserire il file nella directory principale del tuo sito web (ad esempio www. Yourdomain .com / robots.txt), che è dove i ragni si aspettano di trovare. In effetti, ogni volta che gli spider dei motori di ricerca arrivano al tuo sito, la prima cosa che cercano è il file di testo robot. Questo è il motivo per cui si dovrebbe sempre avere un file di testo robot sul tuo sito, anche se è vuoto. Tu non vuoi prima impressione del vostro sito ragni 'essere un errore 404 (l'errore che si apre quando un file non può essere individuato).

Con un file di robot di testo, è possibile selettivamente escludere particolari pagine, directory o l'intero sito. Devi scrivere il codice HTML così, o i ragni ignorarlo. La sintassi del comando è necessario utilizzare viene dal protocollo di esclusione robot (REP), che è un protocollo standard per tutti i siti Web. Ed è molto preciso; solo comandi specifici sono consentiti, e devono essere scritti correttamente con particolare posizionamento, lettere maiuscole / minuscole, punteggiatura e spaziatura. Questo file è un posto in cui non si desidera che il vostro Webmaster ottenere creativo.

Un semplice file di testo robot potrebbe essere la seguente:

User-agent: *
Disallow: / personale /

Questo file di testo robot racconta tutti i robot dei motori di ricerca che sono invitati a strisciare qualsiasi parte del sito Web, tranne per la directory chiamata / / personale.

Prima di scrivere una riga di comando (come Disallow: / personal /), bisogna prima identificare quali robot (s) si sta affrontando. In questo caso, la linea User-agent: * Indirizzi tutti i robot perché utilizza un asterisco, che è conosciuto come il carattere jolly perché rappresenta qualsiasi carattere. Se si vuole dare istruzioni diverse per diversi motori di ricerca, come molti siti fanno, scrivere le linee user-agent distinti seguite dai loro linee di comando specifiche. In ogni User-agent: linea, si dovrebbe sostituire il carattere asterisco (*) con il nome di un robot specifico:

User-agent: Googlebot potrebbe attirare l'attenzione di Google.

User-agent: Slurp affronterebbe Yahoo !.

User-agent: MSNBot affronti Microsoft Live Search.

Si noti che se il file di testo ha i vostri robot User-agent: * istruzioni e un'altra User-agent: linea specificando un robot specifico, il robot specifico segue i comandi hai dato individualmente invece delle istruzioni più generali.

È possibile digitare pochi comandi diversi in un file robots.txt:

  • . Escludendo l'intero sito di escludere il robot l'intero server, si utilizza il comando:

    Disallow: /

    Questo comando in realtà rimuove tutte le pagine web del tuo sito dall'indice di ricerca, quindi fate attenzione a non fare questo a meno che questo è ciò che si vuole veramente.

  • Escludendo una directory (Una parola di cautela - di solito, si vuole essere molto più selettivo di escludere un'intera directory.) Per escludere una directory (compresi tutti i suoi contenuti e sottodirectory), metterlo barre all'interno.:

    Disallow: / personale /
  • Esclusione di una pagina. È possibile scrivere un comando per escludere solo una pagina particolare. Si utilizza solo una barra all'inizio e deve includere l'estensione del file alla fine. Ecco un esempio:

    Disallow: /private-file.htm

  • . Direzione i ragni al tuo mappa del sito Oltre a Non consentire :, un altro comando utile per i vostri sforzi di SEO specifica dove il robot può trovare il tuo mappa del sito - la pagina contenente i link tutta l'organizzazione del sito, come una tabella di contenuti:

Sitemap: http://www.yourdomain.com/sitemap.xml

Va rilevato che, oltre ai comandi precedentemente elencati, Google riconosce accettano pure. Questo è applicabile solo Google e può confondere altri motori, così si dovrebbe evitare di utilizzarlo.

Si deve sempre includere alla fine del testo robot un file Sitemap: linea di comando. Questo assicura che i robot trova il tuo mappa del sito, che aiuta a navigare più pienamente attraverso il vostro sito in modo che più del tuo sito viene indicizzato.

Alcune note sulla sintassi robot file di testo:

  • I comandi sono case-sensitive, quindi è necessario un capitale D Disallow.
  • Ci dovrebbe essere sempre uno spazio dopo i due punti dopo il comando.
  • Per escludere un'intera directory, inserire una barra dopo e prima il nome della directory.
  • Se si esegue su una macchina UNIX, tutto è case-sensitive.
  • Tutti i file non espressamente esclusi sono disponibili per spidering e indicizzazione.

Per visualizzare un elenco completo dei comandi, nomi di robot, e le istruzioni sulla scrittura robot file di testo, andare alle pagine Web Robot.

Come ulteriore salvaguardia, renderlo parte del vostro sito manutenzione settimanale per controllare il file di testo dei robot. E 'una tale potente interruttore on / off per gli sforzi di SEO del tuo sito che merita una sbirciatina regolare per assicurarsi che sia ancora "on" e funziona correttamente.