[Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Venez discuter ici des anciennes revues informatiques.

Modérateurs : XavierSnp, Soily, Princeps.Bonus, Fred_G, retro_lover

Répondre
Tigrou
Villager
Messages : 5
Enregistré le : 04-08-2025 09:44

[Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Message par Tigrou »

Bonjour,

Je met a disposition deux scripts Python qui permettent de telecharger automatiquement tous les PDFs des magazines qui ne disposent pas d'album et d'en extaire les images (sans perte). L'idee est d'uploader ensuite ces images sur le FTP pour que Fred puisse les mettre en ligne. Cela permet donc de mettre a disposition des images d'un magazine dont seul un PDF est disponible, sans rescan et sans perte.

Si vous souhaitez extraire les images pour un seul magazine, alors la premiere etape (script 1) peut etre sautee. Il vous suffit de telecharger le ZIP du site manuellement et dans extraire le PDF.

Script1 :
https://gist.github.com/tigrouind/b4cb9 ... 8b636d3460
Example :

Code : Tout sélectionner

//telecharge tous les PDFs des pages de 1 a 13 de Joypad (uniquement pour les albums manquants)
python abandonware_scrapper.py 84 1 13

Les "pages" ici sont les differentes sections qui groupent les magazines (ex: Numeros 20 - 41). Il suffit de mettre la souris sur le lien pour voir le numero de page. Apres le telechargement, Il faut parfois faire le "nettoyage" car les zip telechargés peuvent contenir plusieurs versions de scan.

Script2 :
https://gist.github.com/tigrouind/123f2 ... f4f46c4b30
Example :

Code : Tout sélectionner

//extrait les images de tous les PDF situes dans le repertoire "downloads"
python extract_jpgs_from_pdf.py "downloads"

Si le PDF ne contient que du texte et des illustrations (ex: ce n'est pas un scan) alors aucune image ne sera extraite.

Je viens de faire le magazine Joypad, a titre d'exemple.
Astur
Nomad
Messages : 1
Enregistré le : 22-10-2025 10:12

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Message par Astur »

Salut !

Super taf
Juste une petite question : est-ce que ce serait ok si je prenais ton code et que je le modifiais un peu pour y ajouter une interface simple (genre choisir le PDF ou le dossier) ? Je demande juste au cas où, je voudrais pas abuser.
scienceapps
Legendary
Messages : 70
Enregistré le : 28-12-2020 13:06

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Message par scienceapps »

excellent ! ça va servir pour http://retromagazinesearch.uliege.be/, l'outil affiche les JPG, mai ne fait qu'un lien vers les pdf. L'expérience de lecture sera améliorée
Retro Magazine Search : Le moteur de recherche indexant en texte intégral +800k pages de vieux magazines d'informatique et jeux vidéo
http://retromagazinesearch.uliege.be/
Tigrou
Villager
Messages : 5
Enregistré le : 04-08-2025 09:44

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Message par Tigrou »

Astur a écrit : 23-10-2025 15:25 Salut !

Super taf
Juste une petite question : est-ce que ce serait ok si je prenais ton code et que je le modifiais un peu pour y ajouter une interface simple (genre choisir le PDF ou le dossier) ? Je demande juste au cas où, je voudrais pas abuser.
Ou bien sur, aucun probleme. C'est pour ca que je partage le script. C'est pour que d'autre personnes puissent le reutiliser et l'ameliorer.
Tigrou
Villager
Messages : 5
Enregistré le : 04-08-2025 09:44

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Message par Tigrou »

scienceapps a écrit : 23-10-2025 16:43 excellent ! ça va servir pour http://retromagazinesearch.uliege.be/, l'outil affiche les JPG, mai ne fait qu'un lien vers les pdf. L'expérience de lecture sera améliorée
Est ce que c'est toi qui a implemente l'OCR des magazines ? Dans tous les cas, j'adore le concept.

Il a deux ou trois choses qui pourrait etre ameliorees (mais pas facile a implementer, plus facile a dire qu'a faire) :

1) pouvoir montrer quel sont les mots cles de la recherche qui correspondent dans la page. Je pense que Google a implemente ca avec les PDF qui sont en fait des livres scannes (donc un PDF avec des images et non du texte). Le texte OCRise est cache par dessous l'image (pour pouvoir mettre certains mots en subrillance). Donc si tu cherches "PACMAN" dans google, tu vera le mot "PACMAN" avec un rectangle jaune par dessus l'image scannee. Ca necessite evidemment que l'OCR puisse t'indiquer la position de chaque mot et pas juste sortir du texte.

2) avoir un systeme de tri (le resultats les plus pertinants en 1er). On peux clairement pas utiliser un page rank a la Google car pas de liens entre les magazines. Peut etre un ranking base sur le nombre de fois que le mot apparait dans la page ou dans le magazine ? Par example si tu cherche "DOOM" c'est logique que un magazine avec le test de DOOM aparaisse en 1er car le mot revient surement souvent dans le magazine a cause du test.
Modifié en dernier par Tigrou le 27-10-2025 15:20, modifié 1 fois.
Tigrou
Villager
Messages : 5
Enregistré le : 04-08-2025 09:44

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Message par Tigrou »

Concernant la possibilite d'utiliser l'extraction des JPEG : il est clairement possible de faire ca en PHP a la volee:
Si on te demande un PDF, le serveur telecharge le PDF puis affiche les images. Je vois bien un

Code : Tout sélectionner

/getPDFThumbnail.php?mag=27&page=5
qui renvoie un JPEG, avec une mise en cache cote serveur des PDF et des images generees (histoire de ne pas tuer le serveur abandonware et uliege.be :))
Répondre