Rapport mensuel de l'ODP - Mars 2006
L'Open Directory
Project - Dmoz est l'annuaire le plus complet et le plus
compréhensible du Web, édité par des
humains
et maintenu par une communauté globale d'éditeurs
bénévoles (cliquer ici
pour en savoir plus au sujet du projet
lui-même).
Ce rapport est
compilé mensuellement pour informer la
communauté des éditeurs
bénévoles et le public de la situation
du projet.
Sommaire
- La communauté des éditeurs de l'ODP
déplore la perte d'un grand projet "frère" : Zeal.
LookSmart l'a fermé le 28 mars.
- Les développeurs d'outils et la
communauté des éditeurs
bénévoles testent un nouvel outil de
contrôle qualité. Une bonne occasion de
donner une vue d'ensemble sur les processus
automatisés du
contrôle qualité d'ODP.
Les données du rapport ont
été compilées le 1er avril
2006, 7:00 GMT.
L'annuaire Dmoz
Chiffres globaux
- Sites listés dans la partie publique : 4 778 810
- Croissance nette : 23 070 (croissance nette = nombre total
d'ajouts - nombre total des sites retirés)
- Croissance nette en pourcentage : 0,49 %
- Catégories : 703 518
Internationalité de l'annuaire
- Langues (anglais compris) : 78
- Langues en préparation : 99
Une vue d'ensemble complète des langues
éditées
peut être trouvée à http://dmoz.org/World. Les langues en préparation
sont énumérées à http://dmoz.org/Test/World.
Analyse du graphique du total des sites pour mars 2006
Le graphique ci-dessous montre le changement du nombre total
de sites pour mars 2006.

Le développement général est
croissant, mais comparé aux mois
précédents le graphique est plutôt
inégal et irrégulier. Regardons la
période de janvier à mars 2006, pour avoir une
meilleure
idée du développement global :

- Pour cette période, vous pouvez voir clairement
un
ralentissement de croissance de l'annuaire qui a
commencé
fin février. Cela correspond aux chiffres donnés
ci-dessus : la croissance de l'annuaire a ralenti de 0,68 %
à
0,49 %.
- Parallèlement à la baisse, des pics
ont surgi.
- Deux des "pics de mars" correspondent exactement aux coupes
créées par les outils de contrôle de
qualité que nous avons vus auparavant : ces outils balayent
régulièrement l'annuaire pour dépister
et enlever de l'annuaire public les sites douteux
ou les liens brisés .
Ce changement est probablement le résultat de deux
effets conjugués :
- Peu de temps après un passage de Robozilla,
l'annuaire se
développe plus rapidement, puis le développement
se ralentit à nouveau après quelques
mois. Vous
pouvez voir clairement cette tendance pour le passage
de Robozilla l'été dernier dans le
graphique pour 2005 et il ne serait pas étonnant
de le voir se répéter après
le passage de décembre. Cet effet est
probablement provoqué par de nombreux
éditeurs qui vérifient les
résultats de Robozilla : ils retrouvent
souvent le contenu dans une
nouveau URL et ils la réinsèrent à
nouveau.
- Cependant ce développement
général n'explique pas la baisse de
croissance
plutôt soudaine depuis fin février ainsi que les
pics. Ces effets sont provoqués par des
tests d'un nouvel outil de contrôle de qualité.
Ce nouvel outil peut, entre autres, identifier des problèmes
sur des sites que Robozilla et d'autres outils
de contrôle qualité
déjà existants n'ont pas trouvés. Ces nouveaux
rapports se sont donc empilés car ils ont dû
être dépistés manuellement. Avoir un nouvel outil
pour aider à
supprimer toute ces
vieilles piles entraînera une
réduction considérable du taux de croissance.
Processus
automatisés du contrôle de qualité de
l'ODP
La devise de l'ODP est "Humans do it better" - "Un
Humain, c'est plus malin",
mais cela ne signifie pas que les humains doivent tout faire : si une
tâche est mieux adaptée à
des robots qu'à des éditeurs humains,
nous la confions très volontiers aux
robots. Particulièrement pour le contrôle
qualité, l'ODP a toujours employé l'automatisation
et
les spécialistes en
contrôle qualité
de la communauté améliorent sans
cesse outils et processus. Une petite vue d'ensemble
sur l'historique
du contrôle de qualité automatisé dans
l'ODP :
- Au début, il y avait Robozilla : Un contrôleur de liens construit dans les premiers jours de
l'ODP par les fondateurs, pour identifier les types
classiques de liens brisés, par exemple "error 404"
ou "server error". Il est lancé
régulièrement,
balaye tout l'annuaire et enlève les liens
brisés.
- Très vite, les rédacteurs ont
commencé à employer d'autres
contrôleurs de liens accessibles en ligne, et plus tard, des
contrôleurs de liens développés par des
éditeurs, pour
dépister les listes brisés dans leurs secteurs de
responsabilité et entre les passages de Robozilla.
- Durant ces
dernières annnées, des nouvelles formes
de linkrot
(pourrissement de liens)
ont fait leur apparition et les éditeurs techniques ont
installé de nouveaux
outils pour les combattre.
- Plusieurs de ces outils modernes sont à
disposition des éditeurs et peuvent être
utilisés
pour balayer un secteur sélectionné. D'autres sont
automatisés comme Robozilla :
lancé par les développeurs d'outils, ils balayent
tout l'annuaire
sans interruption ou par courts intervalles et
enlèvent ou notent des sites à
problème. Ces
outils sont spécifiquement construits pour identifier les
problèmes que Robozilla ne trouve pas, mais leurs
fonctionnalités recoupent jusqu'à un certain
point celles de Robozilla. Ainsi si les passages de
Robozilla sont moins impressionnantes que dans le passé, la
raison n'est pas que "il" ne trouve plus des choses, mais que d'autres
outils
trouvent et enlèvent les sites problématique
avant
qu'"il" ne puisse les voir.
Voici une évaluation grossière
des résultats des outils automatisés de
contrôle de qualité en 2005. Notez
qu'elle couvre uniquement des processus
entièrement
automatisés : les contrôles manuels
effectués par les éditeurs ne sont pas
compris, les contrôles semi-automatisés avec des
outils disponibles
à tous les éditeurs ou des groupes
d'éditeurs ne sont pas inclus.
- Le contrôleur de liens Robozilla a balayé l'annuaire deux fois en
2005 et a enlevé 137 000 listes (~ 3 % du contenu
de l'annuaire).
- Plusieurs processus spécialisés et
automatisés ont été
employés en 2005, fonctionnant sans interruption ou par
intervalles. Certains de ces processus de balayage
qui fonctionnent par intervalles créent des effets
assez importants pour
être évidents dans le graphique de
croissance
nette : vous avez vu les effets qu'ils produisent durant les
derniers mois. Ces petites phases ne paraissent pas aussi
impressionnantes qu'un passage de Robozilla, mais si nous extrapolons
les chiffres pour l'activité de ces outils en
Septembre-Novembre 2005 pour toute l'année 2005, ils
étaient responsables du retrait d'environ ~ 130.000
à ~ 221.000 en 2005 (entre le ~ 3 % et 5 % du
contenu de l'annuaire).
- En résumé, les outils
automatisés de
contrôle qualité
ont retiré un total de liens brisés qui
équivaut entre ~ 6 %
et 8 % du contenu de l'annuaire en 2005. A nouveau, ces
chiffres
couvrent seulement les processus automatisés. Ils
ne couvrent pas le contrôle
de qualité manuel ni les processus
semi-automatisés. Le nombre global de liens
brisés
qui ont été identifiés avec
succès, remplacés
ou supprimés est
considérablement plus haut.
Editeurs
L'ODP est maintenu par une communauté globale
d'éditeurs bénévoles, qui investissent
leur temps libre
dans l'amélioration et le développement de
l'annuaire. Il n'y a
aucune obligation en temps : peu importe si un
bénévole édite quelques minutes par
mois ou plusieurs heures par
jour, la contribution est bienvenue et appréciée.
Après quatre mois d'inactivité, les comptes d'éditeurs expirent, mais les volontaires peuvent en demander
le
rétablissement s'ils ont à nouveau du temps pour
éditer.
- Comptes d'éditeurs actuellement
actifs : 7 614
- Comptes d'éditeurs approuvés
depuis la fondation de l'ODP : 72 077
- Nouveaux éditeurs :
360
- Editeurs rétablis
: 333
- Comptes inactivés pour des raisons variables
(inactivité,
démission, déplacement) : 676
Utilisation des données de l'ODP
- Utilisateurs de données que nous avons
identifiés et qui se
conforment à la licence de
l'ODP (Toutes langues, anglais compris) : 604
Une liste détaillée des utilisateurs de
données que nous connaissons et qui se
conforment à la licence de
l'ODP se trouve à Computers/Internet/Searching/Directories/Open_Directory_Project/Sites_Using_ODP_Data
qui contient les liens vers les autres
langues, dont le français
Contact
Responsable
de ce rapport : chris2001,
administrateur bénévole de l'ODP
- Si vous avez des questions liées à
cet rapport ou si vous souhaitez des conseils et des informations
complémentaires, adressez-vous
à Resource-zone
, un forum public maintenu par des membres
de la communauté de l'ODP.
Le rapport mensuel de l'ODP est écrit et
publié par des membres de la
communauté des éditeurs
bénévoles pour informer les
éditeurs et le
public à propos de la situation du projet. Ce n'est pas une
publication au
nom d'AOL Netscape, qui n'en porte aucunement la
responsabilité.
Version française (18.04.2006) : Association des éditeurs francophones de l'ODP
