(Voir aussi Bibliographie sélective)

Méthode d'utilisation de Windex comme support didactique

Comme annoncé dans les objectifs de Cyberprof, l'une des orientations du projet est de fournir un support didactique aux enseignants  pour simuler des situations de recherche avancées effectuées par les étudiants sur un corpus textuel préparé à l'avance et testé au niveau de ses occurrences terminologiques ainsi que de ses contenus sémantiques. Le pré requis de l'enseignant est de bien maîtriser le contenu de sa base de documents pour savoir à tout moment apprécier la requête de l'étudiant et évaluer ses taux de pertinence et d'exhaustivité. 

L'objectif de l'étudiant est de parvenir à comprendre et à maîtriser les paramètres de la recherche booléenne et de respecter ses exigences de structuration : ordre de priorité, élimination de redondance, exclusion des doublons ...

L'une des méthodes proposées dans ce projet est la conduite de sessions de recherche par les étudiants sous l'encadrement de l'enseignant concerné muni des formulations de recherche préétablies. La formulation de la question en langage naturel s'effectue oralement ou par écrit. L'étudiant doit ensuite convertir la question en équation booléenne conformément à la méthode classique de l'analyse des stratégies de recherche (analyse sémantique, traitement de la synonymie, élaboration plan de concepts, établissement des combinaisons, considération de l'ordre de priorité dans la résolution de l'équation etc.).

Sur la base des résultats obtenus et de leurs conformités avec la grille des résultats testés et validés au préalable par l'enseignant, celui-ci détermine en présence de l'étudiant les anomalies et les lacunes de la stratégie de recherche utilisée.

RAPPEL DES NOTIONS DE BASE DE LA RECHERCHE BOOLÉENNE

Il est cependant essentiel que ce support didactique entre en compte après une présentation théorique de la recherche booléenne et de ses critères de base. Il est peut être important d'en rappeler dans ce chapitre quelques notions fondamentales. Des supports de cours supplémentaires sont toutefois prévus à la fin de ce document. 

L'ordre de priorité : 

Les opérateurs booléens sont de l'ordre de  trois : ET, OU, SAUF. Ils sont exprimés selon le logiciel concerné de différentes façons. Dans la version actuelle de Windex, ces opérateurs peuvent être exprimés comme suit :

Étant donnée la complexité d'usage de certaines équations dans lesquelles il y a une combinaison de plusieurs opérateurs à la fois, il est nécessaire d'établir un ordre de priorité dans la résolution de la requête traitée. Tout changement de position, de nature d'opérateur ou d'ordre de priorité influe considérablement sur la nature des résultats obtenus. L'ordre de priorité est généralement établi comme suit :

1 - La plus haute priorité est donnée à la directionalité Gauche - Droite : le cas où le système doit résoudre deux combinaisons identiques, il procède de gauche à droite :
Équation
Indexation ET Recherche ET Diffusion

Dans ce cas de figure, les opérateurs booléens sont identiques. Le système respecte alors la priorité supérieure, celle de la directionnalité Gauche - Droite pour résoudre l'équation par les sous ensembles associés à chaque élément de la requête. 

Sous Ensemble 1   Le système cherche les occurrences du terme Indexation
Sous Ensemble 2   Le système cherche ensuite les occurrences du termes Recherche
Sous Ensemble 3   Le système combine les sous ensembles 1 ET 2
Sous Ensemble 4   Le système cherche les occurrences du terme Diffusion
Sous Ensemble 5   Le système combine le sous ensemble 3 avec le sous ensemble 4
2 - La seconde  priorité est attribuée aux parenthèses. Pour invertir un ordre de priorité implicite, les opérateurs placés à l'intérieur des parenthèse ont la priorité absolue :
Équation
France ET Commerce OU Industrie

Dans un ordre de priorité normale, la combinaison avec l'opérateur ET est prioritaire sur l'opérateur OU. Au croisement des concepts "France" ET "Commerce" sont ajoutées toutes les occurrences du concept "Industrie" même si elles n'ont aucun rapport avec "France" ni "Commerce".

Or dans un contexte de recherche, les besoins des utilisateurs peuvent varier sur  le plan conceptuel tout en gardant la même forme d'expression morphologique. Dans le cas de l'exemple en cours, l'utilisateur aurait besoin des documents traitant du Commerce ou bien de l'Industrie ayant rapport avec la France. Dans ce cas de figure, l'équation doit connaître un inversement dans l'ordre de priorité. Elle sera formulée ainsi :

France ET (Commerce OU Industrie)

L'équation sera alors résolue dans l'ordre suivant :

Sous Ensemble 1   Le système cherche les occurrences du terme Commerce
Sous Ensemble 2   Le système cherche ensuite les occurrences du terme Industrie
Sous Ensemble 3   Le système ajoute le sous ensemble 1 au sous ensemble 2 
Sous Ensemble 4   Le système cherche les occurrences du terme France
Sous Ensemble 5   Le système croise le sous ensemble 3 avec les sous ensemble 4
3 - La troisième priorité est allouée aux opérateurs ET et SAUF à la fois.
Équation
France ET Commerce SAUF Industrie

Dans un ordre de priorité normale, la combinaison avec l'opérateur ET est effectuée en premier lieu respectant la priorité Gauche - Droite entre deux opérateurs d'une priorité de même importance. Du croisement des concepts "France" ET "Commerce" sont ensuite exclues toutes les occurrences du concept "Industrie". Le résultat est alors porteur d'une grande marge de silence car tout document traitant de "Industrie" est écarté.

Or quand l'opérateur SAUF précède l'opérateur ET, sa résolution changera la nature de la réponse finale.

France SAUF Commerce ET Industrie

Respectant l'ordre de priorité Gauche - Droite entre deux opérateurs de même poids, le système exclue tout ce qui est commerce du sous ensemble France, puis croise le résultat avec le concept Industrie. Le résultat contiendra un taux de silence important car tout ce qui est Commerce a été exclu.

Dans ce cas de figure, il est nécessaire de respecter un ordre de formulation qui aboutira à un résultat conforme au contenu sémantique de la question comme exprimée par l'utilisateur.

Il est toutefois possible dans ce cas d'imposer un ordre préférentiel de priorité à travers les parenthèses au niveau de la paire de concepts à combiner en premier. Si l'on cherche les documents traitant de l'Industrie française en excluant tout ceux ayant rapport avec le Commerce ... en France ou ailleurs, la stratégie suivante serait appropriée.  

(France SAUF Commerce) ET Industrie

Par contre, si le thème de la recherche vise tous les documents en rapport avec la France desquels sont exclus tous les documents ayant un rapport quelconque avec le commerce et l'industrie à la fois (commerce ET industrie français ou autre !), la startégie suivante serait plus appropriée.

France SAUF (Commerce ET Industrie)

Les deux raisonnements sont logiques. Mais, leurs portées restent tributaire du besoin réel de l'utilisateur. Il est par conséquent indispensable de procéder à une analyse sémantique de la question de l'utilisateur posée en langage naturel avec beaucoup de redondance, de confusion et d'imprécision.

4 - La quatrième priorité est allouée à l'opérateur OU.

Voir la seconde priorité

 

Bibliographie sélective concernant les opérateurs booléens