Je met a disposition deux scripts Python qui permettent de telecharger automatiquement tous les PDFs des magazines qui ne disposent pas d'album et d'en extaire les images (sans perte). L'idee est d'uploader ensuite ces images sur le FTP pour que Fred puisse les mettre en ligne. Cela permet donc de mettre a disposition des images d'un magazine dont seul un PDF est disponible, sans rescan et sans perte.
Si vous souhaitez extraire les images pour un seul magazine, alors la premiere etape (script 1) peut etre sautee. Il vous suffit de telecharger le ZIP du site manuellement et dans extraire le PDF.
Script1 :
https://gist.github.com/tigrouind/b4cb9 ... 8b636d3460
Example :
Code : Tout sélectionner
//telecharge tous les PDFs des pages de 1 a 13 de Joypad (uniquement pour les albums manquants)
python abandonware_scrapper.py 84 1 13
Les "pages" ici sont les differentes sections qui groupent les magazines (ex: Numeros 20 - 41). Il suffit de mettre la souris sur le lien pour voir le numero de page. Apres le telechargement, Il faut parfois faire le "nettoyage" car les zip telechargés peuvent contenir plusieurs versions de scan.
Script2 :
https://gist.github.com/tigrouind/123f2 ... f4f46c4b30
Example :
Code : Tout sélectionner
//extrait les images de tous les PDF situes dans le repertoire "downloads"
python extract_jpgs_from_pdf.py "downloads"
Si le PDF ne contient que du texte et des illustrations (ex: ce n'est pas un scan) alors aucune image ne sera extraite.
Je viens de faire le magazine Joypad, a titre d'exemple.