Lexington Posté 2 décembre 2008 Signaler Posté 2 décembre 2008 Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser? Merci
A.B. Posté 2 décembre 2008 Signaler Posté 2 décembre 2008 Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?Merci http://code.google.com/p/tesseract-ocr/ + http://sites.google.com/site/ocropus/
Lexington Posté 2 décembre 2008 Auteur Signaler Posté 2 décembre 2008 http://code.google.com/p/tesseract-ocr/+ http://sites.google.com/site/ocropus/ Ca marche en exécutable pour Windows?
Silhouette Posté 2 décembre 2008 Signaler Posté 2 décembre 2008 Les outils d'Adobe PDF creator le font (ou c'est un logiciel supplémentaire dans la suite). Le résultat avec un vieux texte mal scané n'était pas terrible (beaucoup de choses à reprendre) mais je ne les ai jamais essayé avec un texte "propre" donc difficile de me rendre compte de leur efficacité…
A.B. Posté 2 décembre 2008 Signaler Posté 2 décembre 2008 Ca marche en exécutable pour Windows? oui, mais c'est pedestre
eclipse Posté 3 décembre 2008 Signaler Posté 3 décembre 2008 <br />Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?<br /><br />Merci<br /><br /><br /><br />Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu. Pour info, le meilleur en payant est sans contexte ABBYY Finereader 9.0. Il accepte le PDF et le Djvu en entrée.
A.B. Posté 3 décembre 2008 Signaler Posté 3 décembre 2008 Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu. Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose
eclipse Posté 3 décembre 2008 Signaler Posté 3 décembre 2008 Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler 2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel.
pankkake Posté 3 décembre 2008 Signaler Posté 3 décembre 2008 Omnipage, payant, pour Windows, mais marche très bien à ce qu'on m'a dit.
Invité jabial Posté 4 décembre 2008 Signaler Posté 4 décembre 2008 Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows. Il n'y a pas une distrib binaire pour les microchiens? 2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel. Ca c'est possible par contre.
neuneu2k Posté 4 décembre 2008 Signaler Posté 4 décembre 2008 Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows.Il n'y a pas une distrib binaire pour les microchiens? Ben si, officielle sur le site de dev… C'est une plateforme supportée en plus.
Lexington Posté 4 décembre 2008 Auteur Signaler Posté 4 décembre 2008 Si ça ne prend que le tiff, comment faire pour du pdf? Je pense à certains scans de textes liborg de Fabrice
A.B. Posté 4 décembre 2008 Signaler Posté 4 décembre 2008 Si ça ne prend que le tiff, comment faire pour du pdf? Je pense à certains scans de textes liborg de Fabrice Imagemagick en ligne de commande.
Lexington Posté 4 décembre 2008 Auteur Signaler Posté 4 décembre 2008 Imagemagick en ligne de commande. Ce qui veut dire ?
eclipse Posté 5 décembre 2008 Signaler Posté 5 décembre 2008 Ce qui veut dire ? $ pdftoppm -r 300 fichier.pdf bidule $ convert bidule_xxx.ppm bidule_xxx.tif
Rincevent Posté 5 décembre 2008 Signaler Posté 5 décembre 2008 Imagemagick en ligne de commande.Ce qui veut dire ? Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser.
neuneu2k Posté 5 décembre 2008 Signaler Posté 5 décembre 2008 Ce qui veut dire ?Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser. Il a dit 'gratuit', qui dit gratuit dit RTFM.
pankkake Posté 5 décembre 2008 Signaler Posté 5 décembre 2008 Je dirais plutôt "non marchand" dit RTFM. Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple. (Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.)
neuneu2k Posté 5 décembre 2008 Signaler Posté 5 décembre 2008 Je dirais plutôt "non marchand" dit RTFM.Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple. (Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.) Les produits Google ne sont pas gratuits, ils vendent aussi de la part de cerveau disponible, c’est juste que les cerveaux sont de bonne qualité donc ils monétisent ça mieux que l’autre…
pankkake Posté 5 décembre 2008 Signaler Posté 5 décembre 2008 Nous n'avons pas la même définition . Mon "non marchand" est ton "gratuit".
Copeau Posté 22 décembre 2008 Signaler Posté 22 décembre 2008 Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?Merci Pour ma part, je n'ai rien trouvé de mieux qu'Acrobat pro. Lexington, peux-tu me donner le lien d'un pdf au texte non reconnu, que je fasse le test en live ?
Messages recommandés
Archivé
Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.