Et s’il existait toute une partie du Net inconnue des utilisateurs et des moteurs de recherche ? Description du "Deep Web".

Le Web Profond

Cette métaphore d’introduction est évidemment aussi frappante qu’elle est incorrecte, incomplète et pédante. Elle a cependant le mérite de faire une bonne introduction au concept de Web invisible, ou Web opaque, ou Web profond. Bien qu’il soit presque impossible de s’en rendre compte en naviguant de manière classique, seule une fraction de toutes les données en ligne sont accessibles facilement par les internautes.
Cette fraction est nommée le Web visible, ou Web surfacique. Il consiste en toutes les pages aspirées puis indexées par les moteurs de recherche et stockées dans les bases de données de leurs serveurs. A l’inverse, les pages mal ou non-répertoriées par les moteurs de recherche ‘conventionnels’ ne peuvent être trouvée par le biais de ces moteurs de recherche, et constituent le Web profond. Elles sont pourtant bien présentes, mais les moteurs de recherche qui constituent l’interface d’entrée sur le Web pour la plupart des internautes ne les ayant pas en mémoire, leur accès est donc restreint.
Ce défaut d’indexation a de nombreuses origines, dont voici les principales :

Au vu de cette structure particulière du Web, les robots d’indexations sont donc parfois dans l’impossibilité de répertorier des groupes entiers de données mises en lignes, leur accès étant rendu impossible par le manque de passerelles entre les pages internet.
Ceci est d’autant plus dommage que la taille, le contenu et la qualité du Web profond recèlent de nombreuses surprises.
Ainsi on estime que le Web profond est de très loin plus volumineux que le Web surfacique. Les chiffres varient légèrement mais l’ordre de grandeur le plus couramment admis est que le premier est 500 fois plus volumineux que le second, sachant que le Web invisible croit plus rapidement : les estimations sont de 900% par an... Par ailleurs seuls 5% de ces pages ne sont pas consultables librement, ce qui signifie que la quasi-totalité de ces informations sont disponibles gratuitement.
Le contenu du Web profond est quand à lui assez spécifique : il est dans sa plus grande majorité constitué de bases de données concernant des sujets précis et majoritairement scientifiques, de bibliothèques en lignes, et de publications diverses (autour de 70% pour ces trois composantes). Bref il semblerait que de fait le Web profond soit avant tout un immense réservoir de connaissances variées !
Mais là ou l’affaire vient encore plus intéressante c’est que le Web invisible se distingue aussi par la qualité de ses pages… Il est d’ailleurs assez simple de comprendre pourquoi : la pertinence des pages du Web profond est beaucoup plus forte car il est massivement constitué de sites spécialisés rédigés par des chercheurs, experts ou professionnels : un des meilleurs exemple étant sans doute celui de la National Library of Medicine qui est considérée comme la plus grande base de données médicale du Net. Certaines agences de recherche vont jusqu’à estimer que la qualité des pages est environ trois fois supérieure à celles du Web surfacique, et même si la qualité est une notion toute relative ce résultat est assez solidement établi.
Bref, on l’aura compris, le Web profond peut servir pour des occasions très spécifiques, comme de la recherche par exemple, et l’étudiant a tout intérêt à savoir explorer le Web invisible dans le cadre de ses études, ou par curiosité.
Une première méthode est tout simplement de se servir de bases de données spécialisées ou de sites relayant l’indexation du contenu de ces bases de données.
Quelques moteurs et sites permettant d’accéder au Web profond :
L’autre solution est de formuler ses requêtes sur les moteurs traditionnels de telle façon que ceux-ci donnent accès à des répertoires ouvrant eux sur des pans spécialisés du Web, appelés des méta-ressources, qui contiendront les précieux documents recherchés. En plus de chercher des mots en rapport avec la discipline ou la question étudiée, il est préférable par exemple d’adjoindre le format dans lequel on désire trouver des documents ou des termes en rapport avec des bases de données : Pdf, links, directories, resources, etc..
L’exploration manuelle du Web profond est encore hélas très fastidieuse, la technologie ne permettant pas encore de couvrir le véritable océan informationnel qu’il constitue.
Maxime A. pour Inside Electronic Pipo.

| Don défiscalisé 10€ ou plus |
|
Obtenez une réduction fiscale de 66% avec un e-reçu. Un don de 10 € ne vous coûte que 3€40.
|
Grâce à votre aide, AgoraVox peut continuer à publier plus de 1000 articles par mois. En donnant à la Fondation AgoraVox, vous offrez un soutien à la liberté d'expression et d'information.
Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page
Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.
Bonsoir @Insideelectronicpipo, Merci pour cet article de vulgarisation, mais il est très (...)
16/04 03:26 - bigglopiceberg... iceberg... ? encore un coup des juifs
15/04 06:51 - gordon71J’en étais sûr : les icebergs n’existent pas.
15/04 06:45 - Gaspard DelanuitHa bon ? y avait pas de projecteur en profondeur pour éclairer le bas de l’iceberg (...)
12/04 10:07 - sleeping-zombieJuste pour préciser que la « photo » de l’iceberg est en réalité un gros trucage à la « (...)
12/04 08:19 - Bernie78Tres interessant. Je communiquerai eventuellement avec Inside Electronic Pipo. (...)
12/04 06:53 - Pierre JC Allard
L’Agora reçoit Alain Minc !
Journée mondiale de la liberté de la presse : quel bilan en Europe ?
L’étoile du nord : un théâtre dédié aux auteurs contemporains
Le contrôle des médias, une question d’actualité brûlante
Odyssées : un projet et une distribution internationales Agoravox utilise les technologies du logiciel libre : SPIP, Apache, Debian, PHP, Mysql, FckEditor.
Site hébergé par la Fondation Agoravox
Mentions légales Charte de modération