[Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Tigrou · Message non lu par **Tigrou** » 04-08-2025 10:25

Bonjour,

Je met a disposition deux scripts Python qui permettent de telecharger automatiquement tous les PDFs des magazines qui ne disposent pas d'album et d'en extaire les images (sans perte). L'idee est d'uploader ensuite ces images sur le FTP pour que Fred puisse les mettre en ligne. Cela permet donc de mettre a disposition des images d'un magazine dont seul un PDF est disponible, sans rescan et sans perte.

Si vous souhaitez extraire les images pour un seul magazine, alors la premiere etape (script 1) peut etre sautee. Il vous suffit de telecharger le ZIP du site manuellement et dans extraire le PDF.

Script1 :
https://gist.github.com/tigrouind/b4cb9 ... 8b636d3460
Example :

Code : Tout sélectionner

//telecharge tous les PDFs des pages de 1 a 13 de Joypad (uniquement pour les albums manquants)
python abandonware_scrapper.py 84 1 13

Les "pages" ici sont les differentes sections qui groupent les magazines (ex: Numeros 20 - 41). Il suffit de mettre la souris sur le lien pour voir le numero de page. Apres le telechargement, Il faut parfois faire le "nettoyage" car les zip telechargés peuvent contenir plusieurs versions de scan.

Script2 :
https://gist.github.com/tigrouind/123f2 ... f4f46c4b30
Example :

Code : Tout sélectionner

//extrait les images de tous les PDF situes dans le repertoire "downloads"
python extract_jpgs_from_pdf.py "downloads"

Si le PDF ne contient que du texte et des illustrations (ex: ce n'est pas un scan) alors aucune image ne sera extraite.

Je viens de faire le magazine Joypad, a titre d'exemple.

Astur · Message non lu par **Astur** » 23-10-2025 15:25

Salut !

Super taf
Juste une petite question : est-ce que ce serait ok si je prenais ton code et que je le modifiais un peu pour y ajouter une interface simple (genre choisir le PDF ou le dossier) ? Je demande juste au cas où, je voudrais pas abuser.

scienceapps · Message non lu par **scienceapps** » 23-10-2025 16:43

excellent ! ça va servir pour http://retromagazinesearch.uliege.be/, l'outil affiche les JPG, mai ne fait qu'un lien vers les pdf. L'expérience de lecture sera améliorée

Tigrou · Message non lu par **Tigrou** » 27-10-2025 13:30

Astur a écrit : 23-10-2025 15:25 Salut !

Super taf
Juste une petite question : est-ce que ce serait ok si je prenais ton code et que je le modifiais un peu pour y ajouter une interface simple (genre choisir le PDF ou le dossier) ? Je demande juste au cas où, je voudrais pas abuser.

Ou bien sur, aucun probleme. C'est pour ca que je partage le script. C'est pour que d'autre personnes puissent le reutiliser et l'ameliorer.

Tigrou · Message non lu par **Tigrou** » 27-10-2025 15:10

scienceapps a écrit : 23-10-2025 16:43 excellent ! ça va servir pour http://retromagazinesearch.uliege.be/, l'outil affiche les JPG, mai ne fait qu'un lien vers les pdf. L'expérience de lecture sera améliorée

Est ce que c'est toi qui a implemente l'OCR des magazines ? Dans tous les cas, j'adore le concept.

Il a deux ou trois choses qui pourrait etre ameliorees (mais pas facile a implementer, plus facile a dire qu'a faire) :

1) pouvoir montrer quel sont les mots cles de la recherche qui correspondent dans la page. Je pense que Google a implemente ca avec les PDF qui sont en fait des livres scannes (donc un PDF avec des images et non du texte). Le texte OCRise est cache par dessous l'image (pour pouvoir mettre certains mots en subrillance). Donc si tu cherches "PACMAN" dans google, tu vera le mot "PACMAN" avec un rectangle jaune par dessus l'image scannee. Ca necessite evidemment que l'OCR puisse t'indiquer la position de chaque mot et pas juste sortir du texte.

2) avoir un systeme de tri (le resultats les plus pertinants en 1er). On peux clairement pas utiliser un page rank a la Google car pas de liens entre les magazines. Peut etre un ranking base sur le nombre de fois que le mot apparait dans la page ou dans le magazine ? Par example si tu cherche "DOOM" c'est logique que un magazine avec le test de DOOM aparaisse en 1er car le mot revient surement souvent dans le magazine a cause du test.

Tigrou · Message non lu par **Tigrou** » 27-10-2025 15:18

Concernant la possibilite d'utiliser l'extraction des JPEG : il est clairement possible de faire ca en PHP a la volee:
Si on te demande un PDF, le serveur telecharge le PDF puis affiche les images. Je vois bien un

Code : Tout sélectionner

/getPDFThumbnail.php?mag=27&page=5

qui renvoie un JPEG, avec une mise en cache cote serveur des PDF et des images generees (histoire de ne pas tuer le serveur abandonware et uliege.be

)

scienceapps · Message non lu par **scienceapps** » 31-10-2025 22:53

Merci Tigrou pour ces remarques !

1. J'ai effectivement un prototype fonctionnel (dans le cadre d'un autre projet de valorisation du patrimoine) qui entoure directement les zones sur laquelle le mot est présent. Le problème, c'est qu'il va falloir repasser tous les magazines à l'OCR pour ça. Vu qu'on dépasse le million de pages maintenant et que c'est aussi plus lent de determiner l'emplacementspatial d'un mot, j'estime à plus de 6 mois de calcul non stop l'implémentation de cette fonctionnalité

mais effectivement ce serait cool.

2. L'idée est bonne effectivement, à voir si cel1 produit des résultats valables.

3. L'extraction a la volée des pdf pour 10 voir plus de résultats me semble être hors de portée. Il faut télécharger le ficher sur le serveur, réaliser l'extraction..

J'ai réaliser le même script que toi pour intégrer les pdf au moteur de recherche en les transformant en images. Puis une fois le pdf transformé en JPG, je les injecté dans le circuit normal de traitement des images pour OCRisation. Le truc c'est que cela prend pas mal de temps et de RAM. Sur le serveur en production, ça va coincer je pense.

Donc c'est mieux que les fichiers soient direct en JPG. En tous cas, merci pour tes suggestions, cela me fait réfléchir

Forums Abandonware

[Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

[Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)

Re: [Tool] Telecharger les PDF des magazines (qui ne possedent pas d'album) et en extraire les images (sans perte)