Le top 10 des moteurs de recherches gratuits

Top 10 des moteurs de recherche gratuits

23 Oct 2013, Posté par D. Bocquelet dans Regard sur l'actualité

La recherche « no noise » en gratuit, ce n’est pas pour tout de suite !

En veille, on peut utiliser une surveillance de sites internet choisis par flux RSS, mais beaucoup n’en ont pas.

Ce sont particulièrement les sites corporate de petites sociétés, et fournisseurs qui n’ont pas par nature une grosse actualité.

Le complément c’est donc un moteur de recherche pour pouvoir parser ces informations du « web profond », invisibles mais pourtant vitales dans certaines secteurs d’activité.

Nous avons testé plusieurs moteurs et comparé leurs avantages et inconvénients. Nous avons éliminé les moteurs fanco-français (comme voilà) et les moteurs thématiques de ce test. Les moteurs abandonnées ou en cours de déménagement sont également hors-course tout comme les moteurs professionnels non-publics comme Sinequa ou Polyspot.
Ce test s’est basé sur une requête type susceptible d’être tapée par un veilleur professionnel sur un sujet donné, technique, précis. Ici c’est « scrubber » (un système de recyclage du CO2, permettant de réduire l’impact environnemental des rejets de carbone), et comme nous cherchons ce système uniquement pour des navires, cela donne scrubbers+ships.

Moteur de recherche	Avantages	Inconvénients
	Nombreux résultats (855 ko) Pagination pratique booléens acceptés	Résultats orientés en fonction profil Trop de résultats commerciaux
	Possibilité d’afficher plus de 100 résultats/page Paramétrage possible langue	Résultats trop limités (30) Déconnexion préalable de son compte microsoft Trop de résultats commerciaux
	Nombreux résultats (404 ko)	Déconnexion préalable Basculer sur sur yahoo.com Résultats commerciaux trop présents Couplage avec google
	Affiche les favicones des sources	Résultats limités et non pertinents N’accepte pas les booléens trop de résultats commerciaux (+70%)
	Vignettes Rapide Pas trop de résultats commerciaux	Trop peu de résultats (30) immédiatement visibles. Pagination peu ergonomique.
	Bonne pagination Peu de résultats commerciaux	Relativement lent Pertinence courte (deux pages)
	Rapide	Pertinence vite perdue (sémantique approchante) Trop peu de résultats par page
	Rapide Bonne pertinence Bonne pagination Statistiques & filtrage	Pertinence courte (-30 résultats sur la requête)
	Epuré	Trop peu de pertinence sur la requête Trop de résultats commerciaux Partenariat avec Yandex
	Bonne pagination Bonne pertinence	Pas de surlignage sémantique Ads trop présents sur les pages de recherche Pertinence courte (env. 20 résultats)

Au final : Exalead (Dassault systemes) est le moteur qui s’en sort le mieux et a les options les plus intéressantes en accès public. Toutefois l’absence ou presque de résultats commerciaux masque une pertinence vite perdue dans les SERPs sur la requête, et le volume reste modeste.

Nos observations :

Les technologies sont matures et la recherche est rapide.
Dans certains cas, il est nécessaire de se déconnecter avant toute recherche
La pagination sur 10 pages de 10 résultats est standard, mais les ads (publicités) parasitent parfois la consultation
L’acceptation des booléens (ici « + ») est également standard
La pertinence des résultats initiaux (3 premières pages) dépend du volume initial et du traitement ou non des liens commerciaux
Les options de personnalisation de la recherche sont rares
Problème de redirection pour Google, il faut se connecter en mode anglophone.

Le moteur de recherche parfait serait celui qui peut tirer profit de la base de google, après avoir filtré un grand nombre de paramètres, sans parasitage commercial ou personnel.

Exemple : Préciser le champ sémantique pour un terme polysémique. Ex. « Tank » veut aussi bien dire « char d’assaut » que « réservoir ». Préciser une catégorie comme « défense » permettrait déjà de passer outre les ambiguïtés.

Problème : Ce genre d’indexation est impossible sur une grosse masse de données. La plupart de sites internet ne précisent pas de balise meta « category » tout simplement par méconnaissance des webmasters et SEO sur son avantage possible.

Solution : Une indexation sémantique des contenus pour en déduire une ou plusieurs catégories, ainsi que le champ sémantique élargi du site qui fournit des indices supplémentaires. C’est un système déjà en place sur Google, mais beaucoup de moteurs n’ont pas la capacité de suivre.

La possibilité de filtrer les résultats avant ou après la requête avec plusieurs critères, est rarement une possibilité donnée par des moteurs de recherche gratuits. De même l’analyse graphique des résultats est quasi-absente du paysage. En revanche il s’agit de fonctionnalités attendues sur des outils payants.

Autre problème : La base de recherche est sur le gratuit en « tout-venant ». On mélange les informations issues de blogs personnels, forums, documents pdf, sites d’actualités spécialisés et presse généraliste, et liens et sites commerciaux.

Deux solutions sont possibles :

Soit le WWW est scanné sur le plan technique en amont (lorsque le filtrage par type de site existe -et est possible)
Soit on effectue une recherche sur une base de données qualifiée et contrôlée, c’est le cas de RSS Sourcing.

Enfin, la vérification de pertinence, qui s’effectue en lisant les descriptifs des résultats affichés. Un surlignage ou passage en gras des termes de la requête au niveau de l’URL, du descriptif (balises meta) et contenu, sont une aide précieuse, malheureusement pas encore généralisée.

La consultation des pages de résultats est sans doute l’étape la plus chronophage. Là encore les algorithmes du moteur décident quels sites sont les plus « pertinents » sur la requête, et le travail des SEO vient parasiter encore ces SERPs par des résultats commerciaux. La consultation donc du « web profond » reste donc un challenge, qu’un système permettrait de contourner : Celui des alertes, avec le bémol du sourcing qui est derrière. S’il ne se base que sur des fils d’actualité, cela est perdu d’avance. Il peut y avoir en effet une information très valable bien enterrée dans un pdf de présentation technique, lui même difficilement accessible sur un site internet n’ayant pas d’actualité. Il faut donc un « bot » agressif et passe-partout à la google, mais qui puisse en même temps forwarder les informations de ce « web profond » en temps réel, en parfait « pull ».

Pour l’anecdote, Yahoo et Bing ont tous deux décidé de changer de logo dernièrement. Voici les différentes options testées par Marissa Mayer, ex porte-parole de Google maintenant à la tête de Yahoo.

BLOG

Top 10 des moteurs de recherche gratuits

Viedoc Insights… ou comment Viedoc veille pour vous au quotidien

#innovscovid19 : Infographie actualisée des innovations participant à la lutte contre le Covid-19

#Innovscovid19 : Infographie sur les masques de protection contre le COVID-19

COVID-19 : quand l’adversité devient un moteur d’innovations

Surveillez l’actualité du BTP avec RSS Building

Emportez votre veille RSS Monitoring partout avec vous

Infographie RSS Packaging : Plus de 900 sources d’informations qualifiées sur le secteur de l’emballage

Le mur d’actualités « #InnoVSCovid19 » des innovations participant à la lutte contre le Covid-19

Infographie RSS Cosmetic : Plus de 1300 sources d’informations qualifiées sur le secteur Beauté