DDP logo
   DMOZ Documentation Project

DDP > Interface et fonctionnalités

Robozilla

Robozilla est un robot qui teste automatiquement les liens et qui est lancé périodiquement par les metas. Chaque lien est testé deux fois, et si il y a une erreur les deux fois, alors le site est marqué en rouge.

Explication du processus

Chaque lien du répertoire principal est testé pour contrôler son accessibilité. Le code de statut HTTP renvoyé par chaque serveur est évalué. Si le code est un code d'erreur, le lien est marqué. Un nombre indiquant le type d'erreur est placé entre parenthèses après le titre du site concerné. Les URL sont marquées en rouge uniquement dans l'interface des éditeurs, le public ne voit pas ces marques d'erreur.

Catégories non testées par Robozilla

Les catégories Bookmarks et Test ne sont pas testées. Cependant, si un lien est marqué en rouge dans le répertoire général, alors il sera aussi noté en rouge dans chaque catégorie dans lesquelles il est listé, et cela inclut les catégories Bookmarks et Test.

Corriger les erreurs

La première chose à faire est d'essayer de visiter vous-même ces sites. Vous pouvez alors constater que parfois cette url fonctionne, dans ce cas cliquez sur le bouton "Cette adresse URL fonctionne pour moi, supprimer l'erreur".

liste des codes d'erreur. Si vous ne souhaitez pas corriger les erreurs, laissez-le pour quelqu'un d'autre.

Méthodes générales

a) ne commence pas par un double préfixe http:// -- si c'est le cas, remplacez 'http://http://' par'http://'
b) ne contient pas d'espace -- Il existe des caractères qui sont interdits. Dans les noms de domaine, retirez-les ou bien remplacez-les par un tiret, '-' ; dans le fichier ou le nom du répertoire, remplacez-les par '%20' (la forme codée du caractère espace), un tiret, un trait de soulignement '_', ou alors retirez tout.
c) n'est pas doublée, par ex. "http://www.example.com/http://www.example.com/"

2 - Si une URL a été marquée par Robozilla, la page d'édition comprend deux nouvelles options pour vous aider dans vos investigations. L'une d'elles est un lien vers la version de la page archivée par Google dans son cache, l'autre par archive.org -- les deux conservent des copies d'archives de site web. Si une telle version existe, en la visitant vous pourrez déterminer site a une nouvelle URL -- au cas où elle était fournie dans l'ancienne version -- ou si le site a fermé pour de bon. Par exemple, la page d'accueil peut contenir ces mots : "Je n'ai plus le temps de mettre à jour ce site, j'ai donc décidé de le fermer". L'alternative peut être de repérer du texte unique sur la page, par exemple le nom du propriétaire, et de rechercher celui-ci sur les moteurs de recherche -- si le site a déménagé, on peut retrouver sa nouvelle adresse.

3 - Utiliser un service de whois tel que par exemple allwhois.com pour demander des informations sur le nom de domaine. L'enregistrement du nom de domaine vous indiquera si oui ou non le nom de domaine a expiré. Si le nom de domaine est libre, alors il est considéré comme mort.

Corriger les "deeplinks"

Si l'URL est un lien profond (deeplink), par exemple si elle comprend un nom de fichier ou un nom de répertoire, alors essayez de supprimer cette information fichier/répertoire, un niveau à la fois. Par exemple, considérons: http://www.somedomain.com/main_directory/sub_directory/main.html qui est en erreur 404. Vous pouvez essayer de réparer cette URL en suivant les étapes ci-dessous :

1 - Retirez le nom de fichier , "main.html", et essayez d'accéder à http://www.somedomain.com/main_directory/sub_directory/
2 - Si cette URL modifiée ne fonctionne toujours pas, continuer à retirer les noms de répertoires jusqu'à trouver une page qui fonctionne.

Si un nom de fichier est spécifié et que la méthode précédente n'a pas donné de résultat -- peut-être que le fichier est à un autre endroit du serveur -- vous pouvez essayer de changer l'extension du fichier. Les extensions les plus courantes sont: ".htm", ".html", ".asp", ".cgi", et ".pdf". Par exemple, si cette URL http://example.com/main.htm montre une erreur 404, vous pouvez essayer http://example.com/main.html

Si vous retrouvez la bonne URL, assurez-vous que vous avez bien mis à jour la notice correspondante. En utilisant cette méthode, vous arrivez à une page du site mais pas forcément à l'endroit où pointait l'ancienne URL. Dans ce cas, vous devez utiliser la fonction "recherche" interne du site ou le plan du site ou juste naviguer sur le site pour retrouver la nouvelle adresse de la page.

Si vous n'arrivez pas à corriger l'URL, vous pouvez soit supprimer le site, soit le laisser pour que quelqu'un d'autre essaie à nouveau, c'est à vous de juger.

Dernières mises à jour : 01/06/2003 15:01:39 (texte) 12/06/2004 01:30 (traduction)