OCRisation des magazines
Modérateurs : XavierSnp, Soily, Princeps.Bonus, Fred_G, retro_lover
OCRisation des magazines
Bonjour,
Pourquoi ne pas proposer les magazines de votre site au format PDF "OCRisé", c'est-à-dire dans lesquels on a effectué une reconnaissance optique de caractères, plutôt que des proposer des images JPG qui ne sont qu'un "amas de pixels inintelligents", uniquement lisibles par des humains ?
Une fois OCRisés, les fichiers PDF conservent à la fois intégralement l'aspect original du magazine et on peut effectuer des recherches dans le texte, ou bien des copier/coller, ou même des exports d'articles entiers, avec n'importe quelle version (gratuite) d'Adobe Reader (ou d'un de ses clones), logiciel qui est présent sur quasiment tous les ordinateurs passés et actuels, sans distinction de plateforme.
De plus, comme ces fichiers PDF seraient OCRisés leur contenu deviendrait indexable par les moteurs de recherche ce qui constituerait une énorme base de connaissance.
Vous trouverez un exemple d'un tel fichier PDF créé à partir des scans du magazine Pom's n°22 proposés sur votre site sur : "http://jrboulay.free.fr/parking/Poms22.pdf"
Le poids de ce PDF est quasiment identique à celui des originaux : environ 22 Mo.
(Notez bien que la qualité de l'OCR est directement dépendante de la qualité et de la résolution des scans originaux, mais en général ça fonctionne assez bien)
Cordialement.
Pourquoi ne pas proposer les magazines de votre site au format PDF "OCRisé", c'est-à-dire dans lesquels on a effectué une reconnaissance optique de caractères, plutôt que des proposer des images JPG qui ne sont qu'un "amas de pixels inintelligents", uniquement lisibles par des humains ?
Une fois OCRisés, les fichiers PDF conservent à la fois intégralement l'aspect original du magazine et on peut effectuer des recherches dans le texte, ou bien des copier/coller, ou même des exports d'articles entiers, avec n'importe quelle version (gratuite) d'Adobe Reader (ou d'un de ses clones), logiciel qui est présent sur quasiment tous les ordinateurs passés et actuels, sans distinction de plateforme.
De plus, comme ces fichiers PDF seraient OCRisés leur contenu deviendrait indexable par les moteurs de recherche ce qui constituerait une énorme base de connaissance.
Vous trouverez un exemple d'un tel fichier PDF créé à partir des scans du magazine Pom's n°22 proposés sur votre site sur : "http://jrboulay.free.fr/parking/Poms22.pdf"
Le poids de ce PDF est quasiment identique à celui des originaux : environ 22 Mo.
(Notez bien que la qualité de l'OCR est directement dépendante de la qualité et de la résolution des scans originaux, mais en général ça fonctionne assez bien)
Cordialement.
- Fredo_L
- Scientifique dans l'âme !
- Messages : 6880
- Enregistré le : 26-12-2001 13:02
- Localisation : Paris
- Contact :
Re: OCRisation des magazines
Bonjour,
Je devais entrer tard soir mais finalement, je suis entré plus tôt, ce qui me permet de répondre.
Je viens de regarder le fichier PDF généré et je trouve que la qualité est plus mauvaise que la version JPEG. Cependant, je suppose que cela est dû au taux de compression des images dans le fichier PDF et qu'en réduisant ce taux, la qualité doit s'améliorer.
Si je fais un copier/coller des textes de la page 1, voici ce que j'ai :
Il faudrait que je me renseigne mais je crois que j'avais lu qu'au niveau du droit d'auteur, cela change beaucoup de choses que d'OCRisé un document.
Ce qui m'ennuie aussi, c'est que l'objectif du site est la conservation des documents à leur état d'origine.
Quand je compare le document original à la version PDF, je constate des petites différences (les 2 documents sont très semblables mais pas absolument identiques). Par exemple, il y a les mauvaises reconnaissances de caractères (par exemple un "et" va se transformer en "el").
Autant mes autres remarques sont secondaires, autant celle là est primordiale à mes yeux.
Tant que la version OCRisée ne sera pas absolument identique à la version originale, cela ne me conviendra pas.
En revanche, ce qui pourrait peut être être intéressant, c'est d'avoir un fichier PDF ultra léger et composé uniquement des textes des articles et ne contenant aucune image.
Je laisse les autres membres du forum donné leur opinion sur le sujet.
Je devais entrer tard soir mais finalement, je suis entré plus tôt, ce qui me permet de répondre.
Je viens de regarder le fichier PDF généré et je trouve que la qualité est plus mauvaise que la version JPEG. Cependant, je suppose que cela est dû au taux de compression des images dans le fichier PDF et qu'en réduisant ce taux, la qualité doit s'améliorer.
Si je fais un copier/coller des textes de la page 1, voici ce que j'ai :
Je ne suis pas sûr que Google puisse correctement enregistrer de tels données. Je crois que Google enregistre mieux les PDF tels que les livres où tout se suit correctement. Quand il s'agit d'un article avec des textes dans tous les sens, il doit être plus dur de bien enregistrer les textes.PraDos sur Apple He et Hc"
par Francis VerscheUf6
104 pages-85,ooFF
DécouVlez ProDos pour gérer des catalogues
el des fichiers 51 vous voulez
profiter de ce système performant.
sur Apple Il plus et Ile
sur Apple IIc el lie 65C02
Les ressources de l'Apple IIc""
par N. Broaud Pou/iquen
108 pafJes - 85,00 FF
POUf découvrir !es avantages du Ile.utiliser
le logiciel de base du système el plOgrammer
aslocieusement la sourts.
Ciels pour l'Apple Il""
144 pages - 105,00 FF
Ciels pour l'Apple Ilc et
Ile 65C02"
172pages-I30,OOFF
par N. Br8alXi -PlXlliquen
Pour accéder rapidement à la synlaxe des
commandes, aux codes caractères, aux
codes machine... et du Iru<:s utiles
lorsque vous programmez.
Assembleur de l'Apple·"
par N. 8féalXi -Poufiqurm
240 pages· 120,00 FF
Pour apprendre à obtenir rapidilé d·exé·
cution et économie de mémolre,voici une
iniUation à l'assembleur (6502 - 65C02j
illuslrée de nombreux programmes.
Diététique sur Apple"
par J.M Jego el J.M LiChlenberger
224 pages· 120,00 FF
Pour calculer votre surface corporelle el
découvrir voire métabolisme énergétique
grâce à votre Apple.
Apple, modems et serveurs·
par lJain Matiatte
224 pages - 120,00 FF
Apprenez à vous servir d'un modem,à
ullliser un logiciel de communication,à
connaître les principaux réseaux el vous
familiariser avec les outils télémaliques.
_....
""lIIIm
•
_......
....-""""
TfCH";)QUES
PROGRAM,M,moOlj
AJ>Pun
l'Apple et ses fichIers·
par Jacques Boisgonlier
176pages-95,OOFF
Les commandes du Système d'Exploitation
Disque, les instructions du Basic Applesofl
el des fichiers séquentiels et à accès
direcl puis leur utilisation à l'aide de
programmes divers.
Techniques de programmallon
sur Apple W
par René Bele
168 pages - 95,00 FF
Pour créer des logiciels plus puissants et
plus structurés grâce à des asluoesJllusIrées
de nombmUll: programmes.
La programmation des jeux
d'arcades·
par Jean-l..lJc Fischer
300 pages - 140,00 FF
Pour gél'lérer sur votre Apple des effets
spéciaux époustouflants grâce à des
programmtls en Basic el en Assembleur.
Applê, logique et systèmes
experls·
Par R6né Oescamps
224 pages - 120.00 FF
Pour éludier Ioules les étapes logiques de
la pensée humaine el créer un micro
système expert en Basic.
sur Apple Il plus. Ue et Ile
Destination aventure
par Delton T. Hom
246 pagf15 - t40,OO FF
Uliljse~ les instructions, les explications el
les astuces de programmation d9 ces 4
jeux d'aventure en Basie pour créer les
vôtres.
Basic +
80 routines pour Apple·
parMicheiMartin
'44pages - 95,OOFF
Pour "Muscler" votre Apple,créer vos
propres jeux d'animation et mailrlser la
technique du dessin animé.
Il faudrait que je me renseigne mais je crois que j'avais lu qu'au niveau du droit d'auteur, cela change beaucoup de choses que d'OCRisé un document.
Ce qui m'ennuie aussi, c'est que l'objectif du site est la conservation des documents à leur état d'origine.
Quand je compare le document original à la version PDF, je constate des petites différences (les 2 documents sont très semblables mais pas absolument identiques). Par exemple, il y a les mauvaises reconnaissances de caractères (par exemple un "et" va se transformer en "el").
Autant mes autres remarques sont secondaires, autant celle là est primordiale à mes yeux.
Tant que la version OCRisée ne sera pas absolument identique à la version originale, cela ne me conviendra pas.
En revanche, ce qui pourrait peut être être intéressant, c'est d'avoir un fichier PDF ultra léger et composé uniquement des textes des articles et ne contenant aucune image.
Je laisse les autres membres du forum donné leur opinion sur le sujet.
Re: OCRisation des magazines
Je suis entièrement d'accord avec Fredo.
D'abord, j'ai toujours eu beaucoup de difficultés à faire une reconnaissance OCR sans faute (il y a toujours beaucoup de corrections à faire par la suite).
De plus, pour les magazines, le but est de garder le graphisme d'origine, donc un tel PDF ne pourrait être utile qu'en "complément".
D'abord, j'ai toujours eu beaucoup de difficultés à faire une reconnaissance OCR sans faute (il y a toujours beaucoup de corrections à faire par la suite).
De plus, pour les magazines, le but est de garder le graphisme d'origine, donc un tel PDF ne pourrait être utile qu'en "complément".
Pierre (tnoise79)
Re: OCRisation des magazines
Corriger 100 pages en OCR risque de me prendre toute la nuit au lieu des trois heures par magazines passé entre mon scanner et les retouches.
- Fredo_L
- Scientifique dans l'âme !
- Messages : 6880
- Enregistré le : 26-12-2001 13:02
- Localisation : Paris
- Contact :
Re: OCRisation des magazines
J'y ai bien réfléchis aujourd'hui et voici ce que j'ai décidé.
Pour le moment, on conserve le modèle actuel, c'est à dire sans OCRisation.
Il n'est pas non plus envisageable de faire images non OCRisées + PDF OCRisé comme celui présenté par Merlin car cela reviendrait à doubler la taille des archives.
En revanche, ce qui pourrait être intéressant, c'est d'avoir un PDF OCRisé ultra léger ne contenant que les textes, car là, cela ne prendrait pas trop de place (à mon avis, moins de 1 Mo par magazine).
Si quelqu'un est intéressé par un travail, qu'il me prévienne et ses PDF OCRisés seront inclus avec les magazines.
Pour le moment, on conserve le modèle actuel, c'est à dire sans OCRisation.
Il n'est pas non plus envisageable de faire images non OCRisées + PDF OCRisé comme celui présenté par Merlin car cela reviendrait à doubler la taille des archives.
En revanche, ce qui pourrait être intéressant, c'est d'avoir un PDF OCRisé ultra léger ne contenant que les textes, car là, cela ne prendrait pas trop de place (à mon avis, moins de 1 Mo par magazine).
Si quelqu'un est intéressé par un travail, qu'il me prévienne et ses PDF OCRisés seront inclus avec les magazines.
- Fred_G
- Legendary
- Messages : 1786
- Enregistré le : 01-04-2006 18:52
- Localisation : Rodemack (57), Choisy-le-Roi (94)
- Contact :
Re: OCRisation des magazines
pour ceux que l'ocr intéresse, il y a des liens vers quelques outils ici:
http://en.wikipedia.org/wiki/Optical_ch ... technology
http://en.wikipedia.org/wiki/Optical_ch ... technology
Always listen to experts. They'll tell you what can't be done, and why. Then do it.
-Colin Plumb, comp.sys.amiga
-Colin Plumb, comp.sys.amiga
- retro_lover
- Legendary
- Messages : 436
- Enregistré le : 14-04-2006 15:13
- Localisation : Marseille
Re: OCRisation des magazines
Je rejoins l'avis général sur les deux points principaux :
- OCRiser correctement un magazine afin d'être fidèle à l'original, c'est énormément de boulot (pense aux magazines qui font 300 pages)
- en OCRisant, tu perds le maquettage original du magazine, et son esprit quelque part
Je trouve que de proposer les mags en jpg zippés et un excellent choix qui me convient parfaitement.
- OCRiser correctement un magazine afin d'être fidèle à l'original, c'est énormément de boulot (pense aux magazines qui font 300 pages)
- en OCRisant, tu perds le maquettage original du magazine, et son esprit quelque part
Je trouve que de proposer les mags en jpg zippés et un excellent choix qui me convient parfaitement.
Re: OCRisation des magazines
Je crois que je me suis mal fait comprendre : un PDF OCRisé de cette façon est absolument identique à l'original (sauf si on sous-échantillonne les images comme c'est le cas dans l'exemple mais ça n'est pas obligatoire) puisque ce sont les mêmes images.
La seule différence c'est que "derrière" l'image se trouve le texte reconnu.
La qualité de l'OCR dépend directement de la qualité et de la résolution des originaux, le fichier d'exemple est très mauvais de ce point de vue.
Il faut voir ça comme un plus, en considérant que 90/95% du texte est utilisable (selon la qualité et de la résolution des originaux). Mais pas question de corriger quoi que soit, ce n'est pas possible.

La seule différence c'est que "derrière" l'image se trouve le texte reconnu.
La qualité de l'OCR dépend directement de la qualité et de la résolution des originaux, le fichier d'exemple est très mauvais de ce point de vue.
Il faut voir ça comme un plus, en considérant que 90/95% du texte est utilisable (selon la qualité et de la résolution des originaux). Mais pas question de corriger quoi que soit, ce n'est pas possible.

Re: OCRisation des magazines
Je rejoins l'avis général sur les deux points principaux :
- OCRiser correctement un magazine afin d'être fidèle à l'original, c'est énormément de boulot (pense aux magazines qui font 300 pages)
- en OCRisant, tu perds le maquettage original du magazine, et son esprit quelque part
Qu'il y ait 3 ou 300 pages le travail pour l'humain est le même, la différence c'est le temps de traitement par l'ordinateur.Tant que la version OCRisée ne sera pas absolument identique à la version originale, cela ne me conviendra pas
Et je re-précise encore une fois : on peut conserver intactes les images originales...
PS : A propos de la qualité des scans : un vieux truc c'est de mettre un fond noir sur le scan (ou de mettre une feuille de papier ou une feuille de plastique mat noire) derrière la page a scanner : cela évite les "ombres/transparences" du verso et cela force le scan à "pousser" le contraste (meilleure netteté)...
