Moteur de recherche en texte intégral

Venez discuter ici des anciennes revues informatiques.

Modérateurs : XavierSnp, Soily, Princeps.Bonus, Fred_G, retro_lover

Répondre
scienceapps
Dictator
Messages : 53
Enregistré le : 28-12-2020 13:06

Moteur de recherche en texte intégral

Message non lu par scienceapps »

Bonjour à tous,
Tout d’abord, quel bonheur de pouvoir retrouver des anciens magazines grâce à votre site, c’est une plongée dans le passé !
Je suis enseignant en NSI (Numériques en sciences informatiques au lycée), et l’immense quantité d’informations à disposition sur votre site, permet de rendre plus réel, plus tangible pour les élèves, l’histoire de l’informatique.

Mais, la majorité des ouvrages étant disponible sous forme d’image, chercher une information devient très complexe dans des contenus non indexés, et difficile pour une utilisation en classe.

Donc, je vous propose d’ajouter ma pierre à l’édifice !

J’ai développé un moteur de recherche en texte intégral pour le site abandonware magazine, afin de pouvoir chercher n’importe quel mot dans l’ensemble des magazines du site. Cela permet de réaliser une recherche chronologique de l’occurrence d’un jeu, d’un auteur, d’un processeur, d’un logiciel, … bref TOUT ! Toutes les pages sont indexées, que ce soit des articles et des publicités.

Voici une vidéo de démonstration : https://www.youtube.com/watch?v=gPrT9-bTgD0

Voici trois exemples de résultats :
Recherche d’un auteur, Marc Lacombe sur le magazine Tilt : https://app.box.com/s/00dd2f2raxkvftx8rtz6byf2oknnz62j
Recherche d’un fréquence processeur sur Génération4 : https://app.box.com/s/nilrtjpwb8ficbn2oea5cqju1rfikgt7
Recherche d’un studio de développement sur Génération4 : https://app.box.com/s/x8ytzvahbirt2v8tuzeivhvc59s4t9ub

Comment c’est fait ?

1. La base de données

Tout d’abord, j’ai développé un script pour télécharger l’ensemble des magazines au format JPG.
Ensuite, j’ai développé un autre script pour OCRiser chaque image.
Avec un pc à temps plein et 3 semaines plus tard, j’ai la base de données de tous les mots écrits, soit environ 1 Go.

2. L’interface

J’ai développé une interface HTML5, pour choisir un magazine puis ensuite effectuer une recherche. Les pages de magazine s’affichent alors. D’autres options permettent d’aller consulter le magazine en entier. Les recherches sont propulsées par PHP. Pour l’installer sur un serveur web, il suffit donc de PHP, copier les fichiers dans un répertoire du serveur et c’est fini.

Comment utiliser l’application ?

Le but étant de proposer mon travail en hébergement sur le site, mais en attendant, vous pouvez le télécharger ici, en utilisant un petit serveur web local sur votre machine (j’utilise laragon pour info).

Télécharger l'archive : https://app.box.com/s/dobn58tvix9olydsscqpdhar9h2o2fpc

Dézipper le fichier dans un répertoire
Exécuter Start.exe. Accepter les droits admins de windows.
Cliquer sur Start All
Accepter les exceptions au pare feu.
Cliquer sur le bouton web. Le navigateur s’ouvre sur localhost. La source se trouve dans www.

Voilà ! Bonne utilisation !
Retro Magazine Search : Le moteur de recherche indexant en texte intégral +800k pages de vieux magazines d'informatique et jeux vidéo
http://retromagazinesearch.uliege.be/
Loopingstar
Hero
Messages : 38
Enregistré le : 04-04-2010 14:57

Re: Moteur de recherche en texte intégral

Message non lu par Loopingstar »

Bonjour,
Je viens de lire votre post, je n'ai pas testé la procédure, mais c'est du beau travail.
J'avais essayé de le faire il y a quelques temps en PHP/Mysal avec un service d'OCRisation gratuit en ligne, mais celui-ci était trop limité.
Je pense réellement que c'est le seul service utile manquant à ce site, merci encore ;)
empichon
Warrior
Messages : 10
Enregistré le : 09-11-2009 21:36
Contact :

Re: Moteur de recherche en texte intégral

Message non lu par empichon »

Bonjour,
Beau boulot !
Ce serait un grand plus pour le site.
De mon coté, j'ai fait une partie du boulot "à la main" pour quelques revues dans mon site perso empichon72.free.fr.
Les deux approches me paraissent complémentaires : la solution automatique permet une couverture complète avec un effort "minimal" ; la solution manuelle permet la correction des erreurs d'OCR, la publication du texte pour une lecture en ligne et divers compléments (par exemple : des tags). Les erreurs d'OCR fréquentes concernent les caractères visuellement proches (1 et l, 0 et O, ...) ou les mots absents des dictionnaires (ils sont nombreux en informatique, notamment le nom des machines).
Il faudrait pouvoir corriger et/ou compléter le texte suite à l'OCR. J'ai l'impression que c'est possible au niveau des fichiers dans serveur\www\data.
J'attire aussi l'attention sur les problèmes de recherche dans les textes issus de l'OCR, notamment à cause de la césure des mots, les textes sur plusieurs colonnes, ...
La recherche d'une machine (ou d'un logiciel) peut être difficile lorsqu'il existe plusieurs formes de nom, par exemple : HP41, HP-41, HP 41, ...
Pour traiter ces différents problèmes, une solution est une recherche ne prenant en compte que les lettres et les chiffres.
Encore bravo pour le boulot en espérant qu'il puisse être intégré dans le site !
Emmanuel Pichon
Catel
Legendary
Messages : 109
Enregistré le : 18-10-2020 19:00

Re: Moteur de recherche en texte intégral

Message non lu par Catel »

C'est un boulot de ouf
GT400
General
Messages : 46
Enregistré le : 12-06-2006 14:31

Re: Moteur de recherche en texte intégral

Message non lu par GT400 »

Un moteur de recherche de ce genre serait VRAIMENT utile sur le site.

Ca faciliterait tellement certaines recherches pour trouver des choses bien précises.
egos
Nomad
Messages : 1
Enregistré le : 27-08-2021 02:02

Re: Moteur de recherche en texte intégral

Message non lu par egos »

Bonjour

je trouve ce projet super interessant
au depart je voulais demander si mes competence en data science / ingenieur pouvaient servir a ce merveilleux projet qu'est https://abandonware-magazines.org/index.php

@scienceapps
si je peux aider dis moi
scienceapps
Dictator
Messages : 53
Enregistré le : 28-12-2020 13:06

Re: Moteur de recherche en texte intégral

Message non lu par scienceapps »

Bonjour,

Je viens mettre en ligne ce projet de moteur de recherche Retro Magazine Search. Il est disponible à cette adresse : http://abandonwaremagazine.free.fr/

La base de données des magazines atteint désormais 2 Go, j'ai OCRisé presque l'intégralité des magazines présents sur le site, soit 303 magazines et plus d'un demi million de pages indexées en texte intégral. J'a optimisé le scripts pour que l'ensemble fonctionne sur un serveur modeste comme free.fr.

@egos, je serais super intéressé pour collaborer avec toi sur ce projet, des compétences en data science sont les bienvenues car il y a beaucoup de champs à explorer sur une telle base de données. On peut en discuter ici ou en MP sur le forum.
Retro Magazine Search : Le moteur de recherche indexant en texte intégral +800k pages de vieux magazines d'informatique et jeux vidéo
http://retromagazinesearch.uliege.be/
scienceapps
Dictator
Messages : 53
Enregistré le : 28-12-2020 13:06

Re: Moteur de recherche en texte intégral

Message non lu par scienceapps »

Nouvelle version en ligne avec recherche transversale dans tous les magazines : https://www.facebook.com/groups/ordinos ... 636621855/
Retro Magazine Search : Le moteur de recherche indexant en texte intégral +800k pages de vieux magazines d'informatique et jeux vidéo
http://retromagazinesearch.uliege.be/
GT400
General
Messages : 46
Enregistré le : 12-06-2006 14:31

Re: Moteur de recherche en texte intégral

Message non lu par GT400 »

Super ce moteur. Bravo et merci pour ce travail. C'est vraiment ce qu'il manquait pour les recherches dans les mags.

@Fredo :

Au passage... : tu as récemment cité le JDG et Recalbox qui parlaient de vieux mags, mais pour info il y a aussi Gunhed (de Gunhed TV) qui fait assez régulièrement des vidéos intéressantes dans lesquelles il feuillete et commente longuement les vieux Tilt, les Gen4, etc. (et il cite évidemment souvent Abandonware Mags)
Avatar du membre
Fredo_L
Scientifique dans l'âme !
Messages : 6880
Enregistré le : 26-12-2001 13:02
Localisation : Paris
Contact :

Re: Moteur de recherche en texte intégral

Message non lu par Fredo_L »

Super projet que ce moteur de recherche !

Je ne connaissais pas Gunhed. Je l'ai ajouté dans mon sujet consacré à ceux qui font des vidéos
viewtopic.php?p=38623#p38623
scienceapps
Dictator
Messages : 53
Enregistré le : 28-12-2020 13:06

Re: Moteur de recherche en texte intégral

Message non lu par scienceapps »

Fredo_L a écrit : 01-02-2022 21:54 Super projet que ce moteur de recherche !
Merci :) cela donne un angle de lecture différent aux magazines. On peut faire énormément choses, et cela va pas mal aider ceux qui font de la recherche universitaire dans le domaine (je pense à Presse Start), ou les journalistes de presse jeux vidéo. On a dépassé les 25 000 recherches effectuées avec l'outil en trois mois d'existence.

Pour ma part, j'aime bien taper une fréquence de processeur (genre 33 MHz ou 133 Mhz), cela permet de cerner toute la technologie d'une époque.
Retro Magazine Search : Le moteur de recherche indexant en texte intégral +800k pages de vieux magazines d'informatique et jeux vidéo
http://retromagazinesearch.uliege.be/
Xylitol
Crusader
Messages : 22
Enregistré le : 07-09-2021 18:03

Re: Moteur de recherche en texte intégral

Message non lu par Xylitol »

Bonjour scienceapps, le site semble ne plus fonctionné, un retour de prévu de ton super outil?
scienceapps
Dictator
Messages : 53
Enregistré le : 28-12-2020 13:06

Re: Moteur de recherche en texte intégral

Message non lu par scienceapps »

Bonjour,

Ahhhh, malheur ! Mon compte d'hébergement retromagazinesearch.free.fr a été effectivement suspendu par les admins des page perso Free, car l'application engendrait trop de trafic apparemment selon leurs standards. Je suis à la recherche d'une autre solution d'hébergement actuellement, notamment sur le site http://abandonware-magazine.org directement, j'ai envoyé un message à Fredo et j'attends sa réponse.

A très vite :)
Retro Magazine Search : Le moteur de recherche indexant en texte intégral +800k pages de vieux magazines d'informatique et jeux vidéo
http://retromagazinesearch.uliege.be/
GT400
General
Messages : 46
Enregistré le : 12-06-2006 14:31

Re: Moteur de recherche en texte intégral

Message non lu par GT400 »

Je viens de voir que le site est down, en effet.

J'espère que Fredo trouvera une solution pour le mettre sur le site ou ailleurs car ce moteur est vraiment excellent, et il m'a été super utile.
GT400
General
Messages : 46
Enregistré le : 12-06-2006 14:31

Re: Moteur de recherche en texte intégral

Message non lu par GT400 »

Bon, eh bien je viens de voir que le moteur de recherche va bientôt revenir en ligne. Très bonne nouvelle, et une fois de plus bravo et merci pour cet outil très utile pour tous les archéologues du rétro.
scienceapps
Dictator
Messages : 53
Enregistré le : 28-12-2020 13:06

Re: Moteur de recherche en texte intégral

Message non lu par scienceapps »

Oui tout à fait. Au final, c'est une bonne chose d'avoir été jeté de free.fr, car la puissance de calcul du nouveau serveur est bien plus importante et va permettre des évolutions du moteur de recherche.

http://retromagazinesearch.uliege.be/
Retro Magazine Search : Le moteur de recherche indexant en texte intégral +800k pages de vieux magazines d'informatique et jeux vidéo
http://retromagazinesearch.uliege.be/
Catel
Legendary
Messages : 109
Enregistré le : 18-10-2020 19:00

Re: Moteur de recherche en texte intégral

Message non lu par Catel »

Trop bien, merci beaucoup !! :)
Répondre