|
| Titre : | Implémentation et évaluation d’un modèle de la RI basé sur la position des termes | | Type de document : | theses et memoires | | Auteurs : | Sabrina Mensous ; DAHMANI Kahina ; Arezki Hammache, Directeur de thèse | | Editeur : | Tizi Ouzou : UMMTO.FGEI | | Année de publication : | 2015 | | Importance : | 62 p. | | Présentation : | ill. | | Format : | 30 cm. | | Note générale : | Bibliogr. | | Langues : | Français | | Mots-clés : | TF-IDF BM 25 CTR . | | Résumé : | La recherche d'information est définie comme étant l’ensemble des méthodes et techniques
pour l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information
pertinente pour un utilisateur. Elle est historiquement liée aux sciences de l'information et Ã
la bibliothéconomie. Effectivement, les premiers systèmes ont été construits afin d'aider les
bibliothécaires à retrouver des documents contenus dans des bases bibliographiques.
Cependant, l’avènement d'Internet et plus particulièrement du Web ainsi que la prolifération
de la masse documentaire a conduit à révéler la RI au grand jour.
En effet, face à ces innovations, le développement de moyens performants pour la recherche
d’information, est devenu indispensable, afin de permettre à chacun de trouver une
information précise répondant à son besoin. La RI a alors évolué vers des tâches de plus en
plus nombreuses et diversifiées. Les systèmes de recherche d'information (SRI) doivent
aujourd'hui savoir traiter des volumes gigantesques de données, s'adapter aux nouveaux
modes de communication, gérer la nature multimédia de l'information (l'image, le son, la
vidéo, le texte, etc.).
La plus part des SRI existants représentent les documents comme un ensemble de mots clés,
ce que l’on appelle communément une représentation par un sac de mots .Ces mots clés sont
généralement pondérés en utilisant des schémas de pondération tels que TF-IDF et BM25
qui prennent en compte les statistiques suivantes : la fréquence du terme dans le document
(TF), sa fréquence dans la collection (IDF), la taille du document.
Un autre facteur a été récemment introduit dans les formules de pondération sous différents
points de vues : la structure de document, la proximité des termes de la requête dans un
document et le modèle CTR, ce dernier est basé sur l’exploitation de la position des termes
de la requête dans un document. Son intuition est simple les termes les plus importants et
pertinents sont généralement placés juste au début de document.
Notre travail se situe dans le contexte de la RI dans les documents textes et a un double
objectifs, le premier consiste à implémenter et évaluer le modèle CTR sous la plate-forme
terrier. Le second consiste à proposer des extensions à ce modèle et bien sur les implémenter
et l’évaluer.
Afin de bien mener cette étude, nous avons opté d’organiser notre mémoire comme suit :
Chapitre I : ce chapitre est consacré à la recherche d’information classique et les concepts de
base des SRI en présentant la description générale et l’architecture des SRI et le processus de
RI, et ensuite nous allons décrire en détail les différents modèles de recherche existants ainsi
que l'étape d'évaluation des SRI.
Chapitre II: dans ce chapitre nous présentons en détail d'une part les facteurs de pondération
existants, d'autre part nous présentons les travaux clés de la littérature exploitant ces facteurs
dans leurs modèles de pondération.
Chapitre III : dans le troisième et dernier chapitre, nous présentons l’implémentation de
notre approche. Au premier lieu nous décrirons les outils et le langage de programmation
utilisés. Au second lieu, nous présentons les collections utilisés et les résultats des
expérimentations muniesÀ la fin de ce document, une conclusion fait le bilan sur l’ensemble de cette étude et indique
les perspectives de développement de notre travail | | En ligne : | D:\CD.TH.2015\MASTER INF\MENSOUS S, DAHMANI K..PDF | | Format de la ressource électronique : | PDF | | Permalink : | ./index.php?lvl=notice_display&id=30777 |
Implémentation et évaluation d’un modèle de la RI basé sur la position des termes [theses et memoires] / Sabrina Mensous ; DAHMANI Kahina ; Arezki Hammache, Directeur de thèse . - Tizi Ouzou (Tizi Ouzou) : UMMTO.FGEI, 2015 . - 62 p. : ill. ; 30 cm. Bibliogr. Langues : Français | Mots-clés : | TF-IDF BM 25 CTR . | | Résumé : | La recherche d'information est définie comme étant l’ensemble des méthodes et techniques
pour l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information
pertinente pour un utilisateur. Elle est historiquement liée aux sciences de l'information et Ã
la bibliothéconomie. Effectivement, les premiers systèmes ont été construits afin d'aider les
bibliothécaires à retrouver des documents contenus dans des bases bibliographiques.
Cependant, l’avènement d'Internet et plus particulièrement du Web ainsi que la prolifération
de la masse documentaire a conduit à révéler la RI au grand jour.
En effet, face à ces innovations, le développement de moyens performants pour la recherche
d’information, est devenu indispensable, afin de permettre à chacun de trouver une
information précise répondant à son besoin. La RI a alors évolué vers des tâches de plus en
plus nombreuses et diversifiées. Les systèmes de recherche d'information (SRI) doivent
aujourd'hui savoir traiter des volumes gigantesques de données, s'adapter aux nouveaux
modes de communication, gérer la nature multimédia de l'information (l'image, le son, la
vidéo, le texte, etc.).
La plus part des SRI existants représentent les documents comme un ensemble de mots clés,
ce que l’on appelle communément une représentation par un sac de mots .Ces mots clés sont
généralement pondérés en utilisant des schémas de pondération tels que TF-IDF et BM25
qui prennent en compte les statistiques suivantes : la fréquence du terme dans le document
(TF), sa fréquence dans la collection (IDF), la taille du document.
Un autre facteur a été récemment introduit dans les formules de pondération sous différents
points de vues : la structure de document, la proximité des termes de la requête dans un
document et le modèle CTR, ce dernier est basé sur l’exploitation de la position des termes
de la requête dans un document. Son intuition est simple les termes les plus importants et
pertinents sont généralement placés juste au début de document.
Notre travail se situe dans le contexte de la RI dans les documents textes et a un double
objectifs, le premier consiste à implémenter et évaluer le modèle CTR sous la plate-forme
terrier. Le second consiste à proposer des extensions à ce modèle et bien sur les implémenter
et l’évaluer.
Afin de bien mener cette étude, nous avons opté d’organiser notre mémoire comme suit :
Chapitre I : ce chapitre est consacré à la recherche d’information classique et les concepts de
base des SRI en présentant la description générale et l’architecture des SRI et le processus de
RI, et ensuite nous allons décrire en détail les différents modèles de recherche existants ainsi
que l'étape d'évaluation des SRI.
Chapitre II: dans ce chapitre nous présentons en détail d'une part les facteurs de pondération
existants, d'autre part nous présentons les travaux clés de la littérature exploitant ces facteurs
dans leurs modèles de pondération.
Chapitre III : dans le troisième et dernier chapitre, nous présentons l’implémentation de
notre approche. Au premier lieu nous décrirons les outils et le langage de programmation
utilisés. Au second lieu, nous présentons les collections utilisés et les résultats des
expérimentations muniesÀ la fin de ce document, une conclusion fait le bilan sur l’ensemble de cette étude et indique
les perspectives de développement de notre travail | | En ligne : | D:\CD.TH.2015\MASTER INF\MENSOUS S, DAHMANI K..PDF | | Format de la ressource électronique : | PDF | | Permalink : | ./index.php?lvl=notice_display&id=30777 |
|