Aunque el archivo robots.txt es un archivo muy importante si usted desea buenas clasificaciones en motores de búsqueda, muchos sitios web no ofrecen este archivo.
Si su sitio web aún no tiene un archivo robots.txt, aprenda como crear uno. Si ya tiene un archivo robots.txt, lea nuestros consejos para asegurarse que no contiene errores.
¿Qué es un robots.txt?
Cuando un crawler de un motor de búsqueda viene a su sitio, buscará un archivo especial en su sitio. Este archivo es llamado robots.txt y le dice al spider del motor de búsqueda, cuales páginas de sus sitio deberían ser indexadas y cuales ignoradas.
El archivo robots.txt es un archivo de texto simple (no HTML), que debe ser colocado en su directorio raíz, por ejemplo:
http://www.example.com/robots.txt
¿Cómo creo un archivo robots.txt?
Como mencionamos antes, el archivo robots.txt es un archivo de texto simple. Abra un editor de texto para crearlo. El contenido del archivo robots.txt consta de los llamados "records".
Un record contiene la información para un motor de búsqueda en especial. Cada record consta de dos campos: la línea user agent y una o más líneas Disallow. He aqui un ejemplo:
|
User-agent: googlebot |
Este archivo robots.txt debería permitir a "googlebot", que es el spider del motor de búsqueda Google, recuperar cada página de su sitio excepto los archios del directorio "cgi-bin". Todos los archivos del directorio "cgi-bin" serán ignorados por el googlebot.
|
User-agent: googlebot |
tanto "/support-desk/index.html" como "/support/index.html" así como todos los otros archivos del directorio "support" no deberían ser indexados por los motores de búsquedas.
Si deja en blanco la línea Disallow, le está diciendo al motor de búsquedas que todos los archivos pueden ser indexados. En cualquier caso, usted debe ingresar una línea Disallow para cada record User-agent.
Si quiere dar a todos los spiders de motores de búsquedas los mismos privilegios, use el siguiente contenido en el robots.txt:
| User-agent: * Disallow: /cgi-bin/ |
¿Donde puedo encontrar los nombres de los user agent?
Puede encontrar los nombres de los user agent en sus archivos log revisando las solicitudes al robots.txt. La mayoría de las veces, todos los spiders de los motores de búsquedas deberían tener los mismos privilegios. En este caso, use "User-agent: *" como mencionamos arriba.
Cosas que debería evitar
Si no formatea apropiadamente su archivo robots.txt, algunos o todos los archivos de su sitio web podrían no ser indexados por los motores de búsquedas. Para evitar esto, haga lo siguiente:
- No use comentarios en el archivo robots.txt
Aunque los comentarios están permitidos en un archivo robots.txt, podrían confundir a algunos spiders de motores de búsquedas.
"Disallow: support # Don’t index the support directory" podría ser malinterpretado como "Disallow: support#Don’t index the support directory".
- No use espacios en blanco al principio de una línea. Por ejemplo no escriba
placeholder User-agent: *
place Disallow: /supportsino
User-agent: *
Disallow: /support
- No cambie el orden de los comandos. Si su archivo robots.txt debe funcionar, no lo mezcle. No escriba
Disallow: /support
User-agent: *sino
User-agent: *
Disallow: /support - No use más de un directorio en una línea Disallow. No use lo siguiente
User-agent: *
Disallow: /support /cgi-bin/ /images/los spiders de motores de búsquedas no pueden entender este formato. La sintaxis correcta para esto es
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/
- Asegúrese de usar el tipo de letra correcto. Los nombres de archivo en su servidor son sensibles a mayúsculas y minúsculas. Si el nombre de su directorio es "Support", no escriba "support" en el archivo robots.txt.
- No liste todos los archivos. Si quiere que el spider de un motor de búsquedas ignore todos los archivos de un directorio en especial, no liste todos los archivos. Por ejemplo:
User-agent: *
Disallow: /support/orders.html
Disallow: /support/technical.html
Disallow: /support/helpdesk.html
Disallow: /support/index.htmlPuede reemplazar esto con
User-agent: *
Disallow: /support - No hay un comando "Allow".
No use un comando "Allow" en su archivo robots.txt. Sólo mencione los archivos y directorios que no quiere que sean indexados. Todos los otros archivos serán indexados automáticamente si están enlazados en su sitio.
Trucos y Consejos:
1. Cómo permitir a todos los spiders de motores de búsquedas indexar todos los archivos
Use el siguiente contenido para su archivo robots.txt si quiere permitir a todos los spiders de motores de búsquedas indexar todos los archivos de su sitio web:
|
User-agent: * |
2. Cómo deshabilitar a todos los spiders de indexar cualquier archivo
Si no quiere que los motores de búsquedas indexen ningún archivo de su sitio web, use lo siguiente:
|
User-agent: * |
3. Donde encontrar ejemplos más complejos.
Si quiere ver ejemplos más complejos de archivos robots.txts, vea el archivo robots.txts de los grandes sitios web:
Su sitio web debería tener un apropiado archivo robots.txt si quiere tener buenas clasificaciones en los motores de búsquedas. Sólo si los motores de búsquedas saben que hacer con sus páginas, ellos podrán darle una buena clasificación.
