You are on page 1of 24

Los robots Páginas Web

Web robots (también conocidos como Web Wanderers, Crawlers, o arañas), son programas
que recorren la Web de forma automática. Los motores de búsqueda como Google y utilizar
para indexar el contenido de la web, los spammers los utilizan para buscar direcciones de
correo electrónico, y tienen muchos otros usos.

En este sitio usted puede aprender más acerca de robots web.

 Acerca de / robots.txt explica qué / robots.txt es y cómo usarlo.


 El FAQ responde a muchas preguntas frecuentes, tales como ¿Cómo puedo dejar de
robots visitando mi sitio? y ¿Cómo puedo obtener la mejor cotización en los motores de
búsqueda? "
 Los otros sitios de enlaces de la página de recursos externos para los escritores del
robot y los webmasters.
 La base de datos de los robots tiene una lista de los robots.
 El robots.txt corrector / puede comprobar su sitio / archivo robots.txt y
metaetiquetas.
 La búsqueda de PI puede ayudar a saber más acerca de lo que son los robots que
visitan.

Acerca de / robots.txt
In a nutshell En una palabra

Web site owners use the /robots.txt file to give instructions about their site to web robots;
this is called . propietarios de sitios Web utilizan el archivo robots.txt / a dar instrucciones
sobre su sitio web a los robots, lo que se llama El Protocolo de Exclusión de Robots.

It works likes this: a robot wants to vists a Web site URL, say
http://www.example.com/welcome.html. Funciona le gusta esto: un robot quiere los visiten
una URL del sitio Web, por ejemplo http://www.example.com/welcome.html. Before it does
so, it firsts checks for http://www.example.com/robots.txt, and finds: Antes de hacerlo, lo
primeros controles de http://www.example.com/robots.txt, y encuentra:

User-agent: * User-agent: *
Disallow: / Disallow: /

The " " means this section applies to all robots. El "User-agent: *" significa que esta
sección se aplica a todos los robots. The " " tells the robot that it should not visit any pages
on the site. El "No permitir: /" le dice al robot que no debe visitar las páginas en el
sitio.

There are two important considerations when using /robots.txt: Hay dos consideraciones
importantes cuando se utiliza / robots.txt:

 robots can ignore your /robots.txt. los robots pueden ignorar su / robots.txt.
Especially malware robots that scan the web for security vulnerabilities, and email
address harvesters used by spammers will pay no attention. Especialmente los
robots de software malicioso que exploran la web en busca de vulnerabilidades de
seguridad, y cosechadoras dirección de correo electrónico utilizada por los spammers
no prestan atención.
 the /robots.txt file is a publicly available file. el fichero / robots.txt es un archivo a
disposición del público. Anyone can see what sections of your server you don't want
robots to use. Cualquiera puede ver qué secciones de su servidor en el que no quiere
robots de usar.

So don't try to use /robots.txt to hide information. Así que no trate de usar / robots.txt para
ocultar información.

See also: Ver también:

o ¿Puedo bloquear los robots malos justo?


o ¿Por qué este robot ignorar mi / robots.txt?
o ¿Cuáles son las implicaciones de seguridad de / robots.txt?

The details Los detalles

The /robots.txt is a de-facto standard, and is not owned by any standards body. El robots.txt
/ es un estándar de facto, y no es propiedad de ningún organismo de normalización. There
are two historical descriptions: Hay dos descripciones históricas:

 the original 1994 document. original de 1994 Un estándar para exclusión de robots
documento.
 a 1997 Internet Draft specification en 1997 un proyecto de especificación de
Internet un método para control de robots web

In addition there are external resources: Además, hay recursos externos:

 HTML 4.01, apéndice B.4.1


 Wikipedia - Los robots estándar de exclusión

The /robots.txt standard is not actively developed. El estándar / robots.txt no está


desarrollado activamente. See for more discussion. Ver ¿Qué pasa con un mayor desarrollo
de / robots.txt? para más discusión.

The rest of this page gives an overview of how to use /robots.txt on your server, with some
simple recipes. El resto de esta página ofrece una visión general de cómo usar / robots.txt
en su servidor, con algunas recetas sencillas. To learn more see also the . Para obtener más
información, véase también el FAQ .

How to create a /robots.txt file Cómo crear un fichero / robots.txt

Where to put it Donde ponerlo

The short answer: in the top-level directory of your web server. La respuesta corta: en el
directorio de nivel superior de su servidor web.

The longer answer: La respuesta larga:

When a robot looks for the "/robots.txt" file for URL, it strips the path component from the
URL (everything from the first single slash), and puts "/robots.txt" in its place. Cuando un
robot se ve para el "/ robots.txt" archivo de la URL, se quita el componente de ruta de la URL
(todo, desde la barra primer single), y pone "/ robots.txt" en su lugar.

For example, for " , it will remove the " ", and replace it with " ", and will end up with
"http://www.example.com/robots.txt". Por ejemplo, para
"http://www.example.com/shop/index.html, también eliminará el directorio" /
tienda / index.html ", y sustituirlo por" "/ robots.txt, y terminará con
"http://www.example.com/robots.txt".
So, as a web site owner you need to put it in the right place on your web server for that
resulting URL to work. Así que, como propietario de un sitio web es necesario ponerlo en el
lugar correcto en el servidor web para que los URL que se obtiene al trabajo. Usually that is
the same place where you put your web site's main " " welcome page. Por lo general, que es
el mismo lugar donde poner su sitio web principal "index.html" página de bienvenida.
Where exactly that is, and how to put the file there, depends on your web server software.
¿Dónde exactamente que es, y cómo poner el archivo existe, depende de su software de
servidor web.

Remember to use all lower case for the filename: " ", not " . Recuerde que debe utilizar
todo en minúsculas el nombre de archivo "robots.txt", no "robots.txt.

See also: Ver también:

o ¿Qué programa debo usar para crear / robots.txt?


o ¿Cómo se usa / robots.txt en una máquina virtual?
o ¿Cómo se usa / robots.txt en un servidor compartido?

What to put in it Qué poner en ella


The "/robots.txt" file is a text file, with one or more records. El "/ robots.txt" es un archivo
de texto, con uno o más registros. Usually contains a single record looking like this: Por lo
general, contiene un único registro en busca de este:

User-agent: * User-agent: *
Disallow: /cgi-bin/ Disallow: / cgi-bin /
Disallow: /tmp/ Disallow: / tmp /
Disallow: /~joe/ Disallow: / ~ juan /

In this example, three directories are excluded. En este ejemplo, tres directorios son
excluidos.

Note that you need a separate "Disallow" line for every URL prefix you want to exclude --
you cannot say "Disallow: /cgi-bin/ /tmp/" on a single line. Tenga en cuenta que necesita
separar la "Disallow" línea para cada prefijo de URL que desea excluir - no se puede decir
"No permitir: / cgi-bin / / tmp /" en una sola línea. Also, you may not have blank lines in a
record, as they are used to delimit multiple records. Además, no puede haber líneas en
blanco en un registro, ya que se utilizan para delimitar varios registros.

Note also that globbing and regular expression are supported in either the User-agent or
Disallow lines. Tenga en cuenta también que esta expansión y de expresiones regulares no
son compatibles ni en el usuario-agente o líneas Disallow. The '*' in the User-agent field is a
special value meaning "any robot". El '*' en el campo User-agent es un valor especial que
significa "ningún robot". Specifically, you cannot have lines like "User-agent: *bot*",
"Disallow: /tmp/*" or "Disallow: *.gif". En concreto, no se puede tener líneas como "User-
agent: * * bot", "No permitir: / tmp / *" o "Disallow: *. gif".

What you want to exclude depends on your server. Lo que quiere excluir depende de tu
servidor. Everything not explicitly disallowed is considered fair game to retrieve. Todo lo que
no se considera explícitamente rechazado juego justo para recuperar. Here follow some
examples: He aquí algunos ejemplos:

To exclude all robots from the entire server Para excluir todos los robots de
todo el servidor

User-agent: * User-agent: *
Disallow: / Disallow: /

To allow all robots complete access Para permitir que todos los robots de
acceso completo

User-agent: * User-agent: *
Disallow: No permitir:

(or just create an empty "/robots.txt" file, or don't use one at all) (O simplemente crear un
vacío "/ robots.txt" archivo, o no usar ninguno en absoluto)

To exclude all robots from part of the server Para excluir todos los robots de
la parte del servidor

User-agent: * User-agent: *
Disallow: /cgi-bin/ Disallow: / cgi-bin /
Disallow: /tmp/ Disallow: / tmp /
Disallow: /junk/ Disallow: / basura /

To exclude a single robot Para excluir un solo robot

User-agent: BadBot User-agent: BadBot


Disallow: / Disallow: /

To allow a single robot Para permitir que un solo robot

User-agent: Google User-agent: Google


Disallow: No permitir:

User-agent: * User-agent: *
Disallow: / Disallow: /

To exclude all files except one Para excluir todos los archivos excepto uno
This is currently a bit awkward, as there is no "Allow" field. Este es actualmente un poco
incómodo, ya que no hay "Permitir" sobre el terreno. The easy way is to put all files to be
disallowed into a separate directory, say "stuff", and leave the one file in the level above this
directory: La forma más fácil es poner todos los archivos a ser rechazado en un directorio
aparte, decir "cosas", y dejar el archivo en un nivel por encima de este directorio:

User-agent: * User-agent: *
Disallow: /~joe/stuff/ Disallow: / ~ juan / cosas /

Alternatively you can explicitly disallow all disallowed pages: Alternativamente, usted puede
prohibir explícitamente todas las páginas no permitidos:

User-agent: * User-agent: *
Disallow: /~joe/junk.html Disallow: / ~ juan / junk.html
Disallow: /~joe/foo.html Disallow: / ~ juan / foo.html
Disallow: /~joe/bar.html Disallow: / ~ juan / bar.html

El robot.txt es un fichero en el cual nosotros le damos algunas instrucciones o


mejor dicho recomendaciones a los crawlers (los robot que utilizan los
buscadores para rastrear nuestro sitio) que deben seguir mientras visitan
nuestro sitio, para crearlo solo tenemos que abrir nuestro bloc de notas e
introducirle dichas instrucciones que acontinuacion explicare.

User-agent: Aqui introduciremos el nombre del crawler si es que lo


conocemos, en caso de que no, tan solo podemos poner un asterisco * el cual
indicara que cualquier crawler puede escanear nuestro sitio, pero mucho
cuidado ya que varios crawler en lugar de darnos beneficios, tan solo nos
perjudican.

Disallow: En esta linea podemos ingresar la ruta de algun archivo o directorio


que no queramos que sea escaneada por el crawler, ejemplo; disallow:
/ejemplo/ lo que hemos hecho es indicarle al crawler que no rastree el directorio
"ejemplo" de nuestro sitio.

Craw-delay: 30 Con esto le decimos al crawler que espere 30 segundos entre


cada acceso, pero ojo ya que no todos los crawler soportan el craw-delay
(actualmente ya no se utiliza).

Visit-time: 0300-0400 En esta linea le indicamos al crawler que visite nuestro


sitio de 3 am a 4 am, Recuerda que las horas siempre se colocan en
Greenwitch (actualmente ya no se utiliza).

Request-rate: 1/30 Siendo el 1 el numero de documentos a rastrear y el 30 el


tiempo que transcurre entre un rastreo y el siguiente, algo parecido al craw-
delay, en mi opinion mas efectivo (actualmente ya no se utiliza).

NOTA.- solo falta recordarles de no dejar lineas en blanco, ya que el crawler al


encontrarlas deja de leer el archivo, ademas de que si quieren agregar un
comentario a alguna linea del archivo, lo pueden hacer con el siguiente simbolo
#.

A continuacion muestro un ejemplo de un archivo robots.txt bien estructurado.-

1. User-agent: * #Para todos los crawlers
2. Disallow: /ejemplo/
3. Disallow: /admin/
4. Allow: /
5.  
Veran que en la ultima linea se agrego "Allow: /", esto significa que todo el
contenido es accesible, claro con exepcion de los directorios delimitados por el
Disallow.

Leer más: http://www.programacionazteca.com/seo-Que-es-y-para-que-sirve-el-


robot.txt-33.html#ixzz1GSVQXsE5

robots.txt
Los buscadores tipo google se sirven de robots, programas con
algoritmos mas o menos complejos, que les permiten leer una página
web, recuperar y guardar su contenido -o partes relevantes del
mismo- en una base de datos y seguir los enlaces que tenga a otras
páginas web

Estos programas navegan incansablemente saltando de enlace a


enlace. Su labor es utilisima, ya que permite que estos buscadores
tengan resultados que ofrecernos. Pero también puede ser
perjudicial. Los propietarios de una página pueden desear que parte
de su contenido no sea indexado (por ejemplo, porque se trata de
contenido temporal) o puede suceder que los robots (spiders)
sometan al servidor a un esfuerzo excesivo, al pedir demasiadas
páginas muy seguidas.
O puede suceder lo contrario ... que deseemos asegurarnos que
determinadas páginas son indexadas.

Con diversas limitaciones, podemos dar instrucciones a los robots.


¿Como? mediante el archivo robots.txt.

El archivo robots.txt
Cuando un robot visita una página, por ejemplo
http://www.ignside.net/, lo primero que solicita al servidor es el
archivo http://www.ignside.net/robots.txt.

Si puede localizar el documento, lo analiza para ver si está permitido


acceder a su contenido, y de ser así, analiza las directivas existentes
respecto de la indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a


los robots de determinados buscadores, o para excluir solo
determinados directorios o páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS


las busquedas a TODOS los robots:

User-agent: * # aplicable a todos


Disallow: / # impide la indexacion de todas las paginas

En cuanto a la colocacion del archivo robots.txt, solo puede haber uno


en cada sitio web, precisamente en el directorio raiz
Un robot no buscará nunca el archivo robots.txt en un subdirectorio,
por lo que es inútil colocarlo alli.

Al preparar tu archivo robots.txt ten en cuenta que las urls son


sensibles a mayúsculas y minúsculas

El archivo se compondrá de diversas directivas agrupadas en relación


con el robot al que se aplican. Dentro de cada uno de estos grupos de
directivas NO puede haber lineas en blanco.

Cada sección o grupo de directivas empezará con el campo User-


agent, que sirve para identificar al robot a que dichas directivas se
refieren. Siempre tiene que existir este campo

A continuacion pondremos una o mas directivas Disallow: .


Aqui tienes algun ejemplo. Nota que el signo # señala que la linea
que le sigue es un comentario, y no será leida:

# Establecemos total libertad para webcrawler


# Ya que dejamos Disallow vacio

User-agent: webcrawler
Disallow:

# En cambio lycra y BadBot


# tiene prohibido integramente el acceso

User-agent: lycra
User-agent: BadBot
Disallow: /

# El resto de bots (señalado mediante *)


# tiene prohibido el acceso a los directorios
# /tmp y /log; libertad para el resto.

User-agent: *
Disallow: /tmp
Disallow: /logs
Puedes consultar una lista de los robots conocidos en robotstxt.org

Recuerda que si el valor de User-agent es *, las directivas que le sigan


se aplicarán a cualquier robot que no tenga directivas específicas.

Mediante las directivas "Disallow" especificamos los directorios o


archivos concretos que deseamos excluir. Por ejemplo:

Disallow: /help # afecta a /help.html y a /help/index.html


Disallow: /help/ # afecta a /help/index.html pero no a
/help.html.

Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio


indicamos que no contiene restricción ninguna.

Ten en cuenta que en la directiva Disallow no se admiten comodines.


/help/* no serviría (el equivalente sería /help).

Robots y etiquetas META


Si no podemos crear un archivo robots.txt, o si queremos
personalizar las instrucciones página por página, podemos utilizar las
etiquetas META:

<META name="ROBOTS" content="NOINDEX, NOFOLLOW">

Este ejemplo indica al robot que no debe ni indexar el documento ni


seguir sus links.

Las opciones a poner en content son ALL, INDEX, NOFOLLOW,


NOINDEX

Visit-time
Se están intentando añadir nuevas directivas que permitan controlar
el tiempo en el que los robots indexan las páginas:

...

# Permitir trabajar a los botsde 2 am a 7:45 am


# Las horas son siempre Greenwitch

Visit-time: 0200-0745
# Un documento CADA 30 minutos

Request-rate: 1/30m

# Combinado: 1 doc cada 10 minutos


# y solo de una a 5 tarde
Request-rate: 1/10m 1300-1659

¿necesitas mas?

http://www.w3.org/TR/html40/appendix/notes.html#h-B.4.1.1
http://www.robotstxt.org/wc/norobots.html
http://www.robotstxt.org/wc/robots.html
http://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txt
http://www.robotstxt.org/wc/faq.html
http://www.conman.org/people/spc/robots2.html#format.directives.visit-time

El archivo Robots.txt es ideal tenerlo en cada uno de los sitios, ya que con él podremos
indicar a los buscadores lo que queremos que indexe y lo que no, pudiendo decirle el
tiempo máximo que puede estar por cada carpeta.
Veamos una lista de los tres mejores generadores de robots.txt

En Mcanerin nos presentan una aplicación para generar archivos para robots, en él nos
permite especificar las carpetas que queremos que rastreen y el tiempo máximo que
deben estar los robots en dicha carpeta/página.

Frobee.com nos permite validar nuestro archivo robots.txt, para ver si éste está correcto
antes de mostrarlo a los robots.

En invision-graphics.com nos presentan a su herramienta de gestión de archivos


robots.txt, en ella podremos decir qué acciones va a poder realizar cada uno de los
robots y en qué carpetas va a poder acceder.

En definitiva, es mejor tener un archivo Robot.txt para que no tengamos problemas con
los buscadores, ya que sin él podrían indexar hasta la carpeta de administración del sitio.

Robot.txt: Decide el contenido de tu web que no quieres que sea indexado

Escrito por Gonzalo Valverde

El protagonista del actual post suele llevarse menos menciones que los demás factores de una estrategia
SEO de una manera injusta ya que es quien nos permite indicar a los buscadores, en sus rastreos, que
páginas deseamos que sean indexadas y, por el contrario, que tipo de contenidos no queremos que
aparezcan en los resultados de búsqueda. Nos referimos al fichero “robots.txt”

Si entre nuestra estructura del site existen parcelas de la misma que aloja contenidos que no queremos
que sean indexados por los buscadores, podemos utilizar el archivo “robots.txt” para dar esa orden pues
es el primero de los ficheros que analizan las arañas de los motores de búsqueda para seguir sus
instrucciones. Eso si, no es obligatorio contar con este tipo de archivos aunque esto puede dar lugar que
en nuestras estadísticas de tráfico aparezcan errores 404 (de ficheros no encontrados). Pero es de gran
utilidad, por ejemplo, para que nuestra web no tenga indexado el mismo contenido dependiente de
diferentes urls, es decir, contenido duplicado. O bien para nuestra página de estadísticas si las tenemos
abiertas o de acceso a nuestro CMS.

“Robot.txt” debe colocarse en al directorio raíz o root directory de nuestro site y, además, introducir la
etiqueta del Robot en el encabezado de la página:

<head>
<title> Marketing Online Blog - Lineas de Marketing</title>
<meta name="description" content="Blog de las disciplinas del
marketing online">
<meta name="robots" content="index, follow">
</head>

En los ejemplos que os ofrecemos a continuación, indicaremos a los buscadores que es lo que deseamos
que nunca aparezca en un resultado de búsqueda.

El archivo robots.txt más simple utiliza dos reglas:

 User-Agent – El robot al que se aplica la siguiente regla


 Disallow – La URL que desea bloquear

Estas líneas se consideran una única entrada en el archivo. Puede incluir todas las entradas que desee,
varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores.
Por ejemplo:

User-agent: *
Disallow: /carpeta1/
User-Agent: Googlebot
Disallow: /carpeta2/

En este ejemplo, no se permitirían para Googlebot únicamente las URL coincidentes con /carpeta2/.

El aspecto de una entrada que se aplica a todos los robots es el siguiente:

User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web
es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas
configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.

Bloqueo de user-agents

La línea Disallow indica las páginas que desea bloquear. Puede insertar una URL específica o un patrón.
La entrada debe comenzar con una barra inclinada (/).

Bloquear todo el sitio, utilice una barra inclinada.

Disallow: /

Bloquear un directorio y todo lo que contiene, inserte una barra inclinada después del nombre del
mismo.

Disallow: /directorio-sintitulo/

Para bloquear una página, insérte la ruta de esa página.

Disallow: /archivo_privado.html

Para eliminar una imagen de Google Imágenes:

User-agent: Googlebot-Image
Disallow: /imagenes/perros.jpg

Para eliminar todas las imágenes de su sitio de Google Imágenes:

User-agent: Googlebot-Image
Disallow: /

Para bloquear archivos de un tipo determinado (por ejemplo, .pdf):

User-agent: Googlebot
Disallow: /*.pdf$

ROBOTS.TXT  
Algunos buscadores usan robots para indexar tus páginas. Para ello buscan un
  fichero de texto llamado robots.txt en el que puedes indicar que partes de tu sitio  
son indexables y que robots pueden acceder a estas.

  Inicio    

Los buscadores o crawlers que


  Serv. Web
funcionan lanzando su robot a la caza
  Promoción   de las páginas que irán recolectando
para añadir a su base de datos, para su
Intercambio banners posterior inclusión e indexación,
comprueban unicamente los
Visitas Extras
contenidos del fichero robots.txt. Este
Premios fichero lo buscan en el directorio raíz
del web site y es un fichero de texto
Rankings plano, no un fichero HTML.
   
Alta en Buscadores
La existencia y el funcionamiento
Generador Metatags del fichero robots.txt se deben a los
protocolos del W3, con la intención
Robot.txt de que el webmaster pueda ocultar
al robot aquellos contenidos que no
Recomendar se desea hacer públicos o aplicar
dichas reglas sólo para algún o
  Publicidad   algunos robots en concreto.

  Serv.Visit.   El robot busca primero en


http//www.tudominio.com/robots.tx
  JavaScript   t cuando aterriza en tu website, de
manera que ahí es donde deberás
incluir tu fichero robots.txt. El
  número de peticiones que reciba
este ficherito y que constará en las
estadísticas nos indicará pues el
número de veces que hemos sido
visitados por el robot.
 
En caso de que no dispongas del
fichero, el robot considera que no
hay ninguna exclusión y podrá
rastrear cualquier página del web
site sin excepción.
 
 

Ejemplos:

User-agent: *
Disallow :

El asterisco * significa TODOS


LOS ROBOTS. En este caso no hay
ninguna regla especial, así que este
fichero no restringe el acceso a
ninguna página ni a ningún robot.
Implica acceso total.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/

Todos los robots tienen restringido


el acceso a los directorios /cgi-bin,
al /tmp o / borrador .

Atención porque necesitarás una


sentencia para cada directorio.

User-agent: *
Disallow: /

Todos los robots tienen prohibido el


acceso a cualquier directorio del
web site.

User-agent: Googlebot
Disallow : /

Excluir un determinado robot, en


este caso el robot de Google no
tiene acceso a ningún directorio.

User-agent: Googlebot
Disallow : /
User-agent: *
Disallow:/borrador/pruebas.html

Ahora Google no tiene acceso a


ningún directorio, en cambio, todos
los otros robots tienen acceso
ilimitado excepto para la página
pruebas.html del directorio borrador
que está restringido.
 

Lo importante es restringir teniendo


en cuenta la ruta de acceso a ese
fichero o directorio.

Y también puedes restringir el


acceso a una página determinada,
con las etiquetas META <META
NAME="robots" CONTENT =
"noindex">

No abuses de las restricciones,


recuerda que cuantas más páginas
estén indexadas mucho mejor para
lograr la promoción que deseas para
tu web.
 

Archivos Robots.txt
10 Jan
2011
in Share 0

El fichero “robots.txt” es un fichero de texto (.txt) normal que se encuentra en la


carpeta raíz del servidor donde se encuentra alojado nuestro sitio web. Este fichero es 
uno de los factores internos que influyen en el SEO on site, aunque algunos autores lo
situan en la subcategoría de factores on server o de servidor.

Los bots de los motores de búsqueda van a rastrear éste archivo de texto, el cual
proporcionará algunas indicaciones que pueden optimizar la indexación de nuestro sito.
El robot.txt también indica a los buscadores qué partes de la web deben indexar y cuáles
no, pudiéndose incluír en el fichero directrices para restringir el acceso a contenidos . 
Por lo general los CMS o gestores de contenidos dinámicos generan el archivo
robots.txt con los parámetros básicos  de manera automática.

Un  “robots.txt” básico utiliza varios comandos básicos:

* User-Agent:  se refiere al bot  al que se aplica la regla.


* Disallow:  las páginas o capretas  que se desea bloquear.
* Allow:  define las páginas que desea indexar.

Un fichero robot.txt tipo que permite el libre acceso al sitio quedaría así:
User-Agent: *

Con este comando se le indica a los rastreadores que tienen libre acceso para indexar
todos los contenidos que haya en el sitio web.

El caso opuesto, un robot.txt que bloquearía por completo el acceso a los motores de
búsqueda se leería de la siguiente forma:

User-Agent: *
Disallow: /

Tambiñen podemos bloquear el acceso por parte de los buscadores a un achivo,


directorio o subdirectorio en particular.

User-Agent: *
Disallow: /directorio/archivostemporales

El fichero robots.txt es útil para evitar indexación de contenido duplicado, así como
para informar a los buscadores de la implementación de un sitemap.  Para ello, tan sólo
es necesario añadir una línea al fichero con la URL absoluta donde se encuentre el
archivo sitemap.

Ejemplo:

http://www.misitio.com/sitemap.xml

Las herramientas para webmasters de Google incluyen validación de ficheros robots.txt


para comprobar posibles errores.

El archivo robots.txt, nos permite especificar páginas de nuestra web a las que no podrán
acceder los sistemas automatizados de rastreo de páginas web ( como por ejemplo los robots
de buscadores ), esto es útil para evitar que algunas secciones cómo páginas de resultado de
búsqueda, URL's con parámetros no representativos, páginas privadas o de usuario...

Es un protocolo de caracteres puramente consultivo que confía en la cooperación del robot, de


modo que excluir un área de tu sitio con robots.txt no garantiza que no va a ser accedida de
forma automática, ya que existen robots que no cumplen este protocolo ( spambots ... ) e
incluso existen algunos que utilizan robots.txt para encontrar nuevas páginas que rastrear.

ArribaTabla de contenido

 · El archivo robots.txt
 · Ejemplo

ArribaEl archivo robots.txt


El archivo robots.txt debe tener como nombre ( que cosas tiene la vida ) robots.txt y debe
estar situado en la raíz de nuestro dominio:

http://www.programacionweb.net/robots.txt

En este archivo indicaremos las páginas que no pueden ser rastreadas utilizando única y
exclusivamente las siguientes directivas sensibles a mayúsculas:

Disallow - Especifica la URL que no puede ser rastreada


User-Agent - Especifica que robot no queremos que acceda a las URL marcadas con Disallow
hasta el siguiente User-Agent o el final del archivo.

Ambas directivas nos permiten usar el carácter asterisco ( * ) como comodín para una o más
letras.

Podemos escribir comentarios de una sola línea con el caracter almohadilla ( # ) al principio de
línea.

ArribaEjemplo

Este es un ejemplo de robots.txt correcto:


 

robots.txt

000 # Permitir todas las páginas a todos los robots ... 
User-agent: * 
001 Disallow: 
 
002 # ... pero Googlebot no puede acceder al directorio /an
tigoogle/ 
003 User-agent: Googlebot 
Disallow: /antigoogle/
004 
Maximizar   Seleccionar   CMD

005 

006 

 
Podeis ver y chequear el archivo robots.txt de vuestra web, con nuestra herramienta de analisis
y edición de robots.txt

 Estándar de exclusión de robots


De Wikipedia, la enciclopedia libre

Saltar a navegación, búsqueda

El estándar de exclusión de robots, también conocido como el protocolo de la


exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots
que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de
un sitio Web, público o privado, agreguen información innecesaria a los resultados de
búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar
archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código
fuente.

Contenido
[ocultar]

 1 El archivo robots.txt
 2 Desventajas
 3 Cuerpo o estándar RFC oficial para el protocolo de robots.txt
 4 Ejemplos
 5 Observaciones
 6 Véase también
 7 Enlaces externos

[editar] El archivo robots.txt


Un archivo robots.txt en un sitio web funcionará como una petición que especifica que
determinados robots no hagan caso a archivos o directorios específicos en su búsqueda.
Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de
una búsqueda avanzada, o de la creencia que el contenido de los directorios
seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su
totalidad.

[editar] Desventajas
Este protocolo es consultivo. Confía en la cooperación de los robots del sitio Web, de
modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso
de un archivo robots.txt, aunque éste no necesariamente garantice aislamiento completo.
Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas
secciones privadas, invisibles al resto del mundo, pero dado que los archivos están
disponibles en forma pública, su contenido podría ser visto de todas maneras por
cualquier persona con un navegador Web y conocimientos medianamente avanzados.
En algunos casos el incluir un directorio en este archivo le anuncia su presencia a
posibles hackers, así ellos pueden determinar fácilmente algunos softwares usados en el
sitio mediante buscar "huellas típicas" en el robots.txt.

[editar] Cuerpo o estándar RFC oficial para el


protocolo de robots.txt
Fue creado por consenso en junio de 1994 por los miembros de robots que enviaban la
lista (robots-request@nexor.co.uk). La información que especifíca las piezas que no
deben ser alcanzadas se especifica en un archivo llamado robots.txt en el directorio
de nivel superior del sitio Web. Los patrones de robots.txt son emparejados por
comparaciones simples de subsecuencia, así que se debe tomar cuidado para cerciorarse
de que los directorios tengan concordancia con el modelo, y que tengan añadido el
carácter “/” al final, si no todos los archivos con nombres comenzando con esa
subsecuencia emparejarán, más bien que apenas ésos en el directorio previsto.
[editar] Ejemplos
 Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran
almacenados en el código raíz de la página web porque el comodín “*” especifica
todos los robots:

User-agent: *
Disallow:

Cabe destacar que el comodín (*) significa "ALL" o en lo sucesivo en español


"TODOS"

 Este ejemplo les niega el acceso a todos los bots (implementando el comodín [/], en
todos los archivos almacenados en el directorio raíz:

User-agent: *
Disallow: /

Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.

 El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el
comodín (/) deben ser bloqueados, únicamente éstos, exceptuando a todos los demás
archivos y directorios que no contienen un comodín, para su revisión:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private

Tenga los Los Robots Web a su Favor


>> DOMINGO 13 DE JUNIO DE 2010
Los robots web (también conocidos como Web Wanderers, Crawlers, o arañas),
son programas que recorren la Web de forma automática para solicitar información
de los mismos. Cuando un robot visita una página, lo primero que hace, es solicitar
el archivo / robots.txt, el cual le dice al robot, si tiene permiso para indexar la
pagina, y qué contenido de esta puede visitar. Los motores de búsqueda como
Google los utilizan para indexar el contenido de su sitio web, los spammers los
utilizan para buscar direcciones de correo electrónico y hacer de las suyas.

Acerca de / robots.txt
Los propietarios de sitios Web utilizan el archivo / robots.txt  para dar
instrucciones sobre su sitio web a los robots de búsqueda, lo que se llama El
Protocolo de Exclusión de Robots.

¿Qué pasa cuando un robot quiere visitar una página Web URL?

Por ejemplo http://www.example.com/welcome.html. Antes de hacerlo, lo verifica


primero http://www.example.com/robots.txt y encuentra:

  User-agent: *
Disallow: /
El "User-agent: *" significa que esta sección se aplica a todos los robots.
Disallow ": /" indica al robot que no debe visitar las páginas del sitio.

Hay dos consideraciones importantes cuando se utiliza / robots.txt:

1. los robots pueden ignorar su / robots.txt. Especialmente los robots que

escanean malware de la web en busca de vulnerabilidades de seguridad, y la dirección

de correo electrónico recolectado por los spammers para vender las direcciones de

correo electrónico.

2. el fichero / robots.txt es un archivo a disposición del público. Cualquiera puede

ver qué secciones de su servidor tiene y puede indicar cuales no desea que vean.

Así que no trate de usar / robots.txt para ocultar información, porque, si lo


descubren los motores de búsqueda, no lo visitará nadie.

¿Se pueden bloquear los robots dañinos?

En teoría sí, en la práctica no. Si ha identificado que un robot dañino visita su


página, y usted sabe su nombre explora el campo User-agent. Entonces usted
puede crear una sección en su archivo / robotst.txt y excluirlo específicamente.
Pero casi todos los robots maliciosos ignoran los / robots.txt.

Si el robot malicioso opera desde una única dirección IP, puede bloquear su acceso
a su servidor web a través de la configuración del servidor o con un firewall de red.

Si el robot copia gran cantidad de direcciones IP, de varias PCs que son parte de
una gran red de PC´s, entonces se vuelve más difícil. La mejor opción entonces es
utilizar las reglas de configuración de seguridad de su servidor para que en forma
automática bloquee el acceso a las direcciones IP que desean hacer muchas
conexiones, pero el problema es que se reciben tanto robots buenos como malos.

¿Por qué los robots ignoran su / robots.txt?

Podría ser porque fue escrito por un programador de software sin experiencia. En
estos días es más probable que el robot esté explícitamente escrito para analizar su
sitio, en lugar de obtener información de los abusos, es más rentable, pero poco
ético recoger direcciones de correo electrónico y venderlas para enviar spam.

Implicaciones de Seguridad
Algunas personas están preocupadas porque en sus páginas de venta o páginas de
aterrizaje, puedan tener accesos maliciosos a través de estos robots y logren
robarles su dinero de sus cuentas de banco.

La verdadera respuesta es que / robots.txt no fue diseñado para controlar el


acceso, así que no trate de utilizarlo como tal. Piense en ello como una señal de
"Prohibido el Paso", como una puerta cerrada con llave. Si usted tiene archivos en
su sitio web que no desea que personas no autorizadas accedan a ellos, configure el
servidor para hacer la autenticación, genere la autorización correspondiente y
configúrelo. La autenticación básica ha estado presente desde los primeros días de
la web. Hoy en día existen sistemas de gestión modernos de contenido compatibles
con los controles de acceso a páginas individuales y sus recursos en forma segura.

¿Cómo crear un fichero / robots.txt en caso de que


desee ponerlo?
Cuando un robot visita el archivo "/ robots.txt", se elimina el componente de ruta
de la URL (todo desde la barra inicial), y pone el  archivo "/ robots.txt" en su lugar.

Por ejemplo, para "http://www.example.com/shop/index.html, eliminará el" /


shop / "index.html, y lo sustituirá por" / "robots.txt, y terminará así
"http://www.example.com/robots.txt".

Así que, como propietario de un sitio web usted necesita ponerlo en el lugar
correcto en el servidor web para que funcione. Por lo general, es el mismo lugar
donde pone su página de bienvenida principal "index.html".

Qué poner en él

El archivo "/ robots.txt" es un archivo de texto, con uno o más registros. Por lo
general, contiene un registro único de este aspecto:

 User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / ~ juan /

En este ejemplo, tres directorios son excluidos.

Tenga en cuenta que necesita separar la línea "Disallow" para cada prefijo de URL
que desea excluir - usted no puede decir "No permitir: / cgi-bin / / tmp /" en una
sola línea. Además, no puede haber líneas en blanco en un registro, ya que se
utilizan para delimitar varios registros.

Tenga en cuenta también que esta expansión en las expresiones regulares no es


compatible ni en el User-agent  o en líneas Disallow. El '*' en el campo User-agent
es un valor especial que significa "ningún robot". En concreto, no se puede tener
líneas como "User-agent: * *" bot "Disallow: / tmp / *" o "Disallow: *. gif".

Lo que usted puede excluir depende de su servidor. Todo lo que no está


explícitamente permitido es considerado legítimo para recuperar. He aquí algunos
ejemplos:

Para excluir todos los robots de todo el servidor

 User-agent: *
Disallow: /

Para permitir que todos los robots tengan acceso


completo

 User-agent: *
No permitir:

(O simplemente crear un "/ robots.txt" vacío de archivos, o no usar ninguno en


absoluto)
Para excluir todos los robots de la parte del servidor

 User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /

Para excluir un solo robot

 User-agent: BadBot
Disallow: /

Para permitir un solo robot

 User-agent: Google
No permitir:
 
User-agent: *
Disallow: /

Para excluir todos los archivos excepto uno.

Este es actualmente un poco incómodo, ya que no hay


un "campo" Permitir. La forma más fácil es poner todos
los archivos a ser rechazados en un directorio diferente
y dejar el archivo en un nivel por encima de este
directorio:
 User-agent: *
Disallow: / ~ juan / cosas /

Como alternativa, puede explícitamente rechazar todas las páginas:

 User-agent: * Disallow: / ~ juan / junk.html Disallow: / ~


juan / foo.html Disallow: / ~ juan / bar.html

Para aprender más acerca de robots web, visitar:

1.   La Búsqueda de la Dirección IP puede ayudar a saber más acerca de qué robots
están visitando su sitio.

2.   El blog de Google: WebMaster Central Blog.

Publicado por Afiliados Desde Casa en 17:35 , 0 comentarios

Etiquetas: crawlers, indexar contenido, robots

You might also like