google robots.txt

Google , también conocido como robots.txt, es un estándar usado por muchos sitios web para indicar a los rastreadores automáticos qué partes del sitio deben ser rastreadas o no.
Sin embargo, no es el estándar adoptado oficialmente, lo que lleva a diferentes interpretaciones. En un intento por convertir a REP en un estándar web oficial, Google cuenta con un analizador robots.txt de fuente abierta y la biblioteca C ++ asociada que creó hace 20 años. Puedes encontrar la herramienta en GitHub .
REP fue concebido en 1994 por un ingeniero de software holandés Martijn Koster, y hoy en día es el estándar de facto utilizado por los sitios web para instruir a los rastreadores.
El rastreador de Googlebot recorre el archivo robots.txt para encontrar instrucciones sobre qué partes del sitio web debe ignorar. Si no hay un archivo robots.txt, el bot asume que está bien rastrear todo el sitio web.
Sin embargo, este protocolo ha sido interpretado "algo diferente a lo largo de los años" por los desarrolladores, lo que lleva a la ambigüedad y la dificultad de "escribir las reglas correctamente".
Por ejemplo, existe incertidumbre en los casos en que el "editor de texto incluye caracteres de la lista de materiales en sus archivos robots.txt". Mientras que para los desarrolladores de herramientas y rastreadores, siempre existe incertidumbre sobre "cómo deben tratar los archivos robots.txt que son cientos de megabytes grandes? "
Esta es la razón por la que Google quiere que REP se adopte oficialmente como un estándar de Internet con reglas fijas para todos. La compañía dice que ha documentado exactamente cómo se debe utilizar el REP y presentó su propuesta al Grupo de trabajo de ingeniería de Internet (IETF).
Si bien no podemos decir con certeza que REP se convertirá en un estándar oficial; Definitivamente, ayudaría a los visitantes de la web, así como a los propietarios de sitios web, al mostrar resultados de búsqueda más consistentes y respetar los deseos del sitio.