MODALITES-OUTILS
- MOTEURS D'INDEXATION Les moteurs de recherche des grands robots utilisent des machines d'indexation puissantes capables de traiter automatiquement des milliers de pages par jour. Les bases indexées sont ensuite exploitées pour répondre aux requêtes des utilisateurs.
Les moteurs de recherche automatisés (Google, AltaVista, etc.) fonctionnent par indexation des pages
L'indexation des pages Web n'est pas absolue. Elle ne porterait au total que sur un tiers du Web...En outre la manière dont le webmaster facilite cette indexation explique en partie , bien sûr avec la qualité du contenu, l'affichage prioritaire de tel ou tel site par les moteurs de recherche. Il se pourrait donc qu'un excellent site ne figure pas dans les listes proposées par les moteurs.
Il faut donc ne pas se fier dans l'absolu aux résultats des moteurs , même les plus célèbres...et compléter ses recherches
- LE DATA MINING (FORAGE DE DONNEES)
C'est une catégorie de logiciels destinés à extraire des significations à partir de masses de données (nombres, statistiques, faits). Ils sont assez " intelligents" pour repérer des structures, relations et des modèles de comportements (" patterns" ) significatifs.
Alors que les banques de données classiques doivent recevoir des requêtes précises (il faut savoir ce que l'on cherche), le logiciel de data mining est capable de repérer ce qui compte grâce à des techniques statistiques et d'intelligence artificielle (réseaux neuronaux, arbres de décision) très élaborées.
Principaux fournisseurs de logiciels de data mining: Angoss,IBM, Informix, ISOFT, NeoVista, neuralWare, Oracle, SAS Institute, Sybase Thinking Machines
- accumulation de données d'origine externe (statistiques démographies ou économiques, études de marchés)
- données internes: clientèle, facturations, incidents de paiement etc...
- pas forcément d'indexation des données mais traitement répété (crunching data) pour examiner toutes les relations possibles entre toutes les données possibles en fonction des divers attributs possibles.
- mise à jour des anomalies ou des groupements significatifs
- on peut en tirer des indications sur des tendances aux opportunités ou risques (petits faits " porteurs d'avenir" ) et la necessité de modifier les stratégies, structures, opérations de l'entreprise
Le coût de ces dispositifs est très élevé et ne se comprend que sous trois conditions:
- l'organisme utilisateur dispose d'une masse énorme de données (le " data warehouse" )
- l'enjeu commercial et financier est essentiel.
- les capacités financières et techniques d'exploitation (matérielles, logicielles, humaines) sont disponibles
Critiques du data mining:
pour un coût très élevé, il fait souvent découvrir des évidences (les vieux sont âgés, les jeunes conducteurs de moto sont dangereux...) qu'une réunion de " brain storming" , voire une simple réflexion créative aurait mise à jour
inconvénient majeur parait être le fait que le data mining dépend beaucoup de données internes à l'entreprise
Il analyse donc des clients, des procédures et des produits actuels (voire habituels) : comment vendre mieux et plus aux partenaires habituels
mais pas ceux de l'avenir proche qui dépendent bien davantage de facteurs d'environnement (social, politique, économique, technique). Une observation attentive de l'environnement international est donc indispensable (par ex. à partir de GEOSCOPIE)
- DES OUTILS POUR LE PARTICULIER
COLLECTE ET SAUVEGARDE
En complément des accessoires de connexion et téléchargement (aspirateurs de sites...) on peut employer des outils capables de créer rapidement des archives Web
KEEBOO : permet de constituer rapidement un livre électronique de pages Web, facile à transférer par courrier
Webforia: une barre d'outils gère les connexions à Internet et un gestionnaire range les pages dans les dossiers choisis |
AFNOR (Association française de normalisation), Documentation, t. I : Présentation des publications, translittération, thesaurus et indexation ; t. II : Catalogage, 4e éd., Paris, 1990
J. AITCHISON, « A Classification as a source for a thesaurus : the Bibliographic Classifical of H. E. Bliss as a source of thesaurus terms and structure », in Journal of Documentation, vol. 42, no 3, septembre 1986
J. AITCHISON & A. GILCHRIST, Construire un thésaurus : manuel pratique, A.D.B.S., Paris, 1992
T. ATKINS & R. OSTROW, Cross-Reference Index, Bowker, New Providence (N. J.), 2e éd. 1988
R. BERTRAND, Micro-ordinateur et traitement de l'information, A Jour, Paris, 1991
M. BLANC-MONTMAYER & F. DANSET, Choix de vedettes matières à l'intention des bibliothèques, Cercle de la librairie, Paris, éd. rev., 1993
A. G. BROWN et al., An Introduction to Subject Indexing, Londres, 1982
L. M. CHAN, Cataloguing and Classification : an Introduction, Londres, 1981
J. CHAUMIER, Le Traitement linguistique de l'information documentaire, Entreprise moderne d'édition, Paris, 3e éd. 1988
D. B. & A. D. CLEVELAND, Introduction to Indexing and Abstracting, Librairies Unlim., Englewood (Colo.), 1990
R. C. CROS, J. C. GARDIN & F. LEVY, L'Automatisation des recherches documentaires. Un modèle général : le SYNTOL, Paris, 1964
A. DEWEZE, L'Accès en ligne aux bases documentaires, Paris, 1983 ; Informatique documentaire, Masson, 4e éd. 1993
R. DUBUC, La Classification décimale universelle : Manuel pratique d'utilisation, Gauthier-Villars, 3e éd., Paris, 1973
J. S. FOSEGAN, Alphabetic Indexing Rules : Application by Computer, South-Western Publ., Cincinnati (Ohio), 1984
Guide d'indexation RAMEAU, Bibliothèque nationale, Paris, 1992
S. P. HARPER, Online Information Retrieval : Concepts, Principles and Techniques, New York-Londres, 1986
The Indexer, Society of Indexers (G.-B.), dep. 1958, semestriel
I.S.O. (International Organization for Standardization), Documentation : Methods for Examining Documents, Determining their Subjects, and Selecting Indexing Terms, Genève, 1985
J. MANIEZ, Les Langages documentaires et classificatoires : conception, construction et utilisation dans les systèmes documentaires, Paris, 1987
E. MOUNT, Cataloging and Indexing in Sci-Tech Librairies, Haworth Press, Binghamton (N. Y.), 1982
H. E. NEET, À la recherche du mot clé : analyse documentaire et indexation alphabétique, Institut d'études sociales, Genève, 1989
R. PRICE, « PRECIS Reassessed », in Catalogue and Index, no 87, hiver 1987
N. RICHTER, Grammaire de l'indexation alphabétique, Le Mans, nouv. éd., 1988 ; Grammaire de l'indexation décimale, ibid., 1987
R. ROY, Classer et indexer : introduction à l'informatique documentaire, ibid., 1987
J. E. ROWLEY, Organizing Knowledge, Ashgate Publ., Brookfield (Vt.), 2e éd. 1992
G. VAN SLYPE, Les Langages d'indexation : conception, construction et utilisation dans les systèmes documentaires, Paris, 1987
Le RTP DOC anime un réseau composé de chercheurs et laboratoires, en France et à l’international travaillant sur la thématique du document numérique
|
Search Engine Watch the authoritative guide to searching at Internet search engines and search engine registration and ranking issues
Searchengines.com
Search Engine Forums
RankWrite Roundtable
Spider-food - search engine positioning
SearchAbility Guides To Specialized Search Engines
Extraction, résumé
Summarizer, résumé mutlilingue intégré à Copernic
NewsEmailer classe les informations principales d'un texte
Les corpus étiquetésLe titre de ce paragraphe nécessite plusieurs explications tout d’abord, nous entendons par corpus un ensemble de textes, qui représentent un bon échantillon d’un genre de la langue par exemple, on peut construire un corpus de romans du 19ème siècle, ou encore un corpus d’articles de journaux (dont un bon exemple est constitué par les CD-Rom annuels du journal Le Monde). Quand on dispose d’un corpus dit « électronique », c’est-à-dire sous forme de fichier(s), il est intéressant de l’indexer, c’est-à-dire que chaque mot rencontré dans l’ensemble des textes sera très précisément repéré chaque fois qu’il est rencontré. Cela facilite les recherches, et pour reprendre l’exemple des CD de journaux, si l’on désire trouver tout les articles parlant d’écologie, il suffit de taper « écologie » dans le petit moteur de recherche livré avec le corpus.Mais cette forme de corpus ne suffit pas aux linguistes en effet, ceux-ci raisonnent sur des mots qui possèdent différentes formes. Imaginez un chercheur qui s’intéresse au verbe « parler », et qui souhaite regarder dans un corpus électronique simple comment ce verbe est employé avec un tel système, il va devoir demander au moteur de recherche toutes les formes conjuguées de ce verbe, ce qui est assez fastidieux. On peut imaginer d’améliorer le moteur de recherche, par exemple en lui adjoignant un dictionnaire, et en le faisant interpréter une requête comme « & cparler » par « chercher toutes les occurrences d’une forme conjuguée du verbe parler » cela dit, si notre linguiste ne s’intéresse qu’aux formes conjuguées du subjonctif, le problème n’est pas résolu pour autant, puisque avec une seule requête, il va certes récupérer ce qui l’intéresse, mais aussi des formes qui ne l’intéressent pas, et il va devoir faire un tri tout aussi fastidieux.La solution actuellement mise en œuvre consiste à améliorer le moteur de recherche, mais également le corpus en plaçant de manière automatique, par un programme appelé « étiqueteur » (en anglais « tagger »), des balises autour des mots ou des groupes de mots. En ce moment, la norme de balisage qui se dégage clairement s’appelle XML, et je renvoie ceux que cela intéresse vers les sites ou les ouvrages qui traitent de cette norme. Pour reprendre notre exemple du verbe « parler », un exemple de balisage XML pourrait être :< mot catégorie= « verbe » lemme= « parler » mode= « subjonctif » temps= « imparfait » personne= « 3 » nombre= « pluriel »> parlassent< /mot> Autrement dit, pour chaque mot, on place dans la balise toutes les informations (ici grammaticales) qui sont nécessaires à l’exploitation du corpus. Il va de soi que ce système augmente considérablement la taille du corpus, néanmoins elle facilite grandement les recherches des linguistes. Il faut savoir qu’un balisage peut également concerner la fonction du mot (sujet, complément d’objet direct, etc.) et se superposer au balisage précédent, le mot étant alors encadré par deux balises ouvrantes et deux balises fermantes.
SOURCE: dicosyno@clubs.voila.fr |
ORGANISATION
Le système de recherche de Windows porte sur les noms de fichiers et peu sur les contenus
on peut procéder à l'indexation par un moteur spécialisé. ALTAVISTA Delivery (gratuit) est sans doute le plus commode
on peut aussi utiliser les outils livrés avec les scanners et les dispositifs de reconnaissance de caractères:par ex. Page Keeper fourni avec Omnipage.
pour des masses plus importantes d'informations, il faut faire appel à des outils beaucoup plus puissants, permettant notamment l'analyse linguistique ou statistique du corpus enregistré. Coûtant plusieurs dizaines de milliers de francs, ces systèmes sortent du champ de notre étude.
Copernic.com annonce pour septembre 2000 l'outil Extractor , capable de résumer 1000 pages en moins d'une seconde, de fournir les mots-clés et de rechercher sur la Toile toutes les pages se référant à ces mots-clés.Une autre société québecoise annonce NewsEmailer qui crée des résumés mais surtout classe les informations principales d'un texte
Un outil ingénieux - gratuit et en français - est Keywordseeker. Vous créez une liste de mots - ou plusieurs vocabulaires- significatifs pour vous. Lorsque vous voulez savoir si un document (page web ou fichier du disque dur) présente de l'intérêt pour vous, il vous suffit de tirer (drag) l'icône de Keywordseeker sur ce document. En un clin d'oeil, KS vous montre s'il a trouvé les mots qui vous intéressent dans le texte analysé, vous laissant ainsi le choix de lire ou ne pas lire le document. Un clic sur les mots trouvés et KS ouvre le texte au point exact d'apparition.
lorsqu'on dispose d'un serveur, on peut créer un " proxy" . Il s'agit d'un serveur qui s'interpose entre l'utilisateur final et Internet, analyse le trafic, enregistre les pages Web les plus souvent demandées, et peut les mettre à jour automatiquement aux heures creuses (avec un aspirateur de sites). Il peut alors les servir immédiatement sur demande sans avoir à recourir au réseau mondial surchargé. Le proxy peut héberger un moteur de recherche interne.
TEXTOMAT indexe les textes Page Keeper Altavista Discovery est une transposition (gratuite) pour votre disque dur du logiciel bien connu
Les " metatags"
Title: le titre est le premier identifiant du contenu de la page. Longueur 80 caractères environ
Description : Sous 150 caractères, précise l'information du titre. FAST, Northern Light et Google ne l'analysent pas .
Keywords : mots-clés décrits sous 250 à 1024 caractères. Beaucoup moins utilisé qu'aux débuts de l'Internet , à cause des abus de mots choisis pour leur attractivité même s'ils n'avaient guère de rapports avec le site. Seuls DirectHit, AltaVista and Inktomi utilisent encore les mots- clés . En outre ces moteurs peuvent rejetter un site s'ils considèrent qu'il y a " spamming" .
Il est également déconseillé d'uitilser les " keywords" plus de trois fois en ligne ou sept fois dans une page
Cependant les '" keywords" sont essentiels pour les moteurs de recherche internes (intranet, data mining) ou quand il est proposé sur Internet un moteur dédié au site.
pixel invisible: Cela consiste à créer une image invisible et d'insérer du texte pertinent (keywords) en tant que texte de substitution à l'image. Exemple: < img src="http://www.geoscopies.net/../../../../../../../images/dot_clear.gif" width=" 1" height=" 1" alt=" Keywords" >
Ce fichier graphique étant transparent et de faible dimension il n'apparait pas à l'écran et n'alourdit pas le chargement de la page. On peut par exemple le charger dans le répertoire des images
AltaVista, Go.com, Google et Lycos indexent les " alt text" .
heading tags: (< h1> , < h2> etc...) donnent de la structure au texte et déterminent son contenu . Lorsque les " heading tags" sont associés à des mots-clés, les moteurs s'en servent pour décrire le contenu. Google uitlise aussi les textes en gras.
La plupart des moteurs donnent la préférence au contenu situé dans le premier tiers de la page (entre 300 et 600 mots) où doit se trouver le contenu le plus important |
Folksonomies vs indexation at /home/nicomo/ Tim Spalding signale un article académique comparant, pour quelques livres, l’indexation LCHS proposée par la Bibliothèque du Congrès, et les tags proposés ...
|
Générateur de mots-clés
Desktop Search : outil de GOOGLE permettant d'effectuer des recherches sur son disque dur (WindowsXP) |