Top 10 des moteurs de recherche gratuits
23 Oct 2013, Posté par Regard sur l'actualité dansLa recherche « no noise » en gratuit, ce n’est pas pour tout de suite !
En veille, on peut utiliser une surveillance de sites internet choisis par flux RSS, mais beaucoup n’en ont pas.
Ce sont particulièrement les sites corporate de petites sociétés, et fournisseurs qui n’ont pas par nature une grosse actualité.
Le complément c’est donc un moteur de recherche pour pouvoir parser ces informations du « web profond », invisibles mais pourtant vitales dans certaines secteurs d’activité.
Nous avons testé plusieurs moteurs et comparé leurs avantages et inconvénients. Nous avons éliminé les moteurs fanco-français (comme voilà) et les moteurs thématiques de ce test. Les moteurs abandonnées ou en cours de déménagement sont également hors-course tout comme les moteurs professionnels non-publics comme Sinequa ou Polyspot.
Ce test s’est basé sur une requête type susceptible d’être tapée par un veilleur professionnel sur un sujet donné, technique, précis. Ici c’est « scrubber » (un système de recyclage du CO2, permettant de réduire l’impact environnemental des rejets de carbone), et comme nous cherchons ce système uniquement pour des navires, cela donne scrubbers+ships.
Moteur de recherche | Avantages | Inconvénients |
Nombreux résultats (855 ko)
Pagination pratique booléens acceptés |
Résultats orientés en fonction profil
Trop de résultats commerciaux |
|
Possibilité d’afficher plus de 100 résultats/page
Paramétrage possible langue |
Résultats trop limités (30)
Déconnexion préalable de son compte microsoft Trop de résultats commerciaux |
|
Nombreux résultats (404 ko) | Déconnexion préalable
Basculer sur sur yahoo.com Résultats commerciaux trop présents Couplage avec google |
|
Affiche les favicones des sources | Résultats limités et non pertinents
N’accepte pas les booléens trop de résultats commerciaux (+70%) |
|
Vignettes
Rapide Pas trop de résultats commerciaux |
Trop peu de résultats (30) immédiatement visibles.
Pagination peu ergonomique. |
|
Bonne pagination
Peu de résultats commerciaux |
Relativement lent
Pertinence courte (deux pages) |
|
Rapide | Pertinence vite perdue (sémantique approchante)
Trop peu de résultats par page |
|
Rapide
Bonne pertinence Bonne pagination Statistiques & filtrage |
Pertinence courte (-30 résultats sur la requête) | |
Epuré | Trop peu de pertinence sur la requête
Trop de résultats commerciaux Partenariat avec Yandex |
|
Bonne pagination
Bonne pertinence |
Pas de surlignage sémantique
Ads trop présents sur les pages de recherche Pertinence courte (env. 20 résultats) |
Au final : Exalead (Dassault systemes) est le moteur qui s’en sort le mieux et a les options les plus intéressantes en accès public. Toutefois l’absence ou presque de résultats commerciaux masque une pertinence vite perdue dans les SERPs sur la requête, et le volume reste modeste.
Nos observations :
- Les technologies sont matures et la recherche est rapide.
- Dans certains cas, il est nécessaire de se déconnecter avant toute recherche
- La pagination sur 10 pages de 10 résultats est standard, mais les ads (publicités) parasitent parfois la consultation
- L’acceptation des booléens (ici « + ») est également standard
- La pertinence des résultats initiaux (3 premières pages) dépend du volume initial et du traitement ou non des liens commerciaux
- Les options de personnalisation de la recherche sont rares
- Problème de redirection pour Google, il faut se connecter en mode anglophone.
Le moteur de recherche parfait serait celui qui peut tirer profit de la base de google, après avoir filtré un grand nombre de paramètres, sans parasitage commercial ou personnel.
Exemple : Préciser le champ sémantique pour un terme polysémique. Ex. « Tank » veut aussi bien dire « char d’assaut » que « réservoir ». Préciser une catégorie comme « défense » permettrait déjà de passer outre les ambiguïtés.
Problème : Ce genre d’indexation est impossible sur une grosse masse de données. La plupart de sites internet ne précisent pas de balise meta « category » tout simplement par méconnaissance des webmasters et SEO sur son avantage possible.
Solution : Une indexation sémantique des contenus pour en déduire une ou plusieurs catégories, ainsi que le champ sémantique élargi du site qui fournit des indices supplémentaires. C’est un système déjà en place sur Google, mais beaucoup de moteurs n’ont pas la capacité de suivre.
La possibilité de filtrer les résultats avant ou après la requête avec plusieurs critères, est rarement une possibilité donnée par des moteurs de recherche gratuits. De même l’analyse graphique des résultats est quasi-absente du paysage. En revanche il s’agit de fonctionnalités attendues sur des outils payants.
Autre problème : La base de recherche est sur le gratuit en « tout-venant ». On mélange les informations issues de blogs personnels, forums, documents pdf, sites d’actualités spécialisés et presse généraliste, et liens et sites commerciaux.
Deux solutions sont possibles :
- Soit le WWW est scanné sur le plan technique en amont (lorsque le filtrage par type de site existe -et est possible)
- Soit on effectue une recherche sur une base de données qualifiée et contrôlée, c’est le cas de RSS Sourcing.
Enfin, la vérification de pertinence, qui s’effectue en lisant les descriptifs des résultats affichés. Un surlignage ou passage en gras des termes de la requête au niveau de l’URL, du descriptif (balises meta) et contenu, sont une aide précieuse, malheureusement pas encore généralisée.
La consultation des pages de résultats est sans doute l’étape la plus chronophage. Là encore les algorithmes du moteur décident quels sites sont les plus « pertinents » sur la requête, et le travail des SEO vient parasiter encore ces SERPs par des résultats commerciaux. La consultation donc du « web profond » reste donc un challenge, qu’un système permettrait de contourner : Celui des alertes, avec le bémol du sourcing qui est derrière. S’il ne se base que sur des fils d’actualité, cela est perdu d’avance. Il peut y avoir en effet une information très valable bien enterrée dans un pdf de présentation technique, lui même difficilement accessible sur un site internet n’ayant pas d’actualité. Il faut donc un « bot » agressif et passe-partout à la google, mais qui puisse en même temps forwarder les informations de ce « web profond » en temps réel, en parfait « pull ».