Aller au contenu

Logiciel de reconnaissance de textes


Lexington

Messages recommandés

Posté

Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?

Merci

Posté
Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?

Merci

http://code.google.com/p/tesseract-ocr/

+ http://sites.google.com/site/ocropus/

Posté

Les outils d'Adobe PDF creator le font (ou c'est un logiciel supplémentaire dans la suite). Le résultat avec un vieux texte mal scané n'était pas terrible (beaucoup de choses à reprendre) mais je ne les ai jamais essayé avec un texte "propre" donc difficile de me rendre compte de leur efficacité…

Posté
<br />Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?<br /><br />Merci<br />
<br /><br /><br />

Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu.

Pour info, le meilleur en payant est sans contexte ABBYY Finereader 9.0. Il accepte le PDF et le Djvu en entrée.

Posté
Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu.

Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose :icon_up:

Posté
Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose :icon_up:

Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler 2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel.

Invité jabial
Posté
Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler

Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows.

Il n'y a pas une distrib binaire pour les microchiens?

2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel.

Ca c'est possible par contre.

Posté
Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows.

Il n'y a pas une distrib binaire pour les microchiens?

Ben si, officielle sur le site de dev

C'est une plateforme supportée en plus.

Posté
Si ça ne prend que le tiff, comment faire pour du pdf? Je pense à certains scans de textes liborg de Fabrice

Imagemagick en ligne de commande.

Posté
Imagemagick en ligne de commande.
Ce qui veut dire ?

Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser. :icon_up:

Posté
Ce qui veut dire ?

Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser. :icon_up:

Il a dit 'gratuit', qui dit gratuit dit RTFM.

Posté

Je dirais plutôt "non marchand" dit RTFM.

Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple.

(Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.)

Posté
Je dirais plutôt "non marchand" dit RTFM.

Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple.

(Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.)

Les produits Google ne sont pas gratuits, ils vendent aussi de la part de cerveau disponible, c’est juste que les cerveaux sont de bonne qualité donc ils monétisent ça mieux que l’autre…

  • 3 weeks later...
Posté
Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?

Merci

Pour ma part, je n'ai rien trouvé de mieux qu'Acrobat pro. Lexington, peux-tu me donner le lien d'un pdf au texte non reconnu, que je fasse le test en live ?

Archivé

Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.

×
×
  • Créer...