Jump to content

Logiciel de reconnaissance de textes


Lexington

Recommended Posts

Posted

Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?

Merci

Posted
Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?

Merci

http://code.google.com/p/tesseract-ocr/

+ http://sites.google.com/site/ocropus/

Posted

Les outils d'Adobe PDF creator le font (ou c'est un logiciel supplémentaire dans la suite). Le résultat avec un vieux texte mal scané n'était pas terrible (beaucoup de choses à reprendre) mais je ne les ai jamais essayé avec un texte "propre" donc difficile de me rendre compte de leur efficacité…

Posted
<br />Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?<br /><br />Merci<br />
<br /><br /><br />

Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu.

Pour info, le meilleur en payant est sans contexte ABBYY Finereader 9.0. Il accepte le PDF et le Djvu en entrée.

Posted
Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu.

Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose :icon_up:

Posted
Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose :icon_up:

Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler 2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel.

Posted
Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler

Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows.

Il n'y a pas une distrib binaire pour les microchiens?

2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel.

Ca c'est possible par contre.

Posted
Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows.

Il n'y a pas une distrib binaire pour les microchiens?

Ben si, officielle sur le site de dev

C'est une plateforme supportée en plus.

Posted

Si ça ne prend que le tiff, comment faire pour du pdf? Je pense à certains scans de textes liborg de Fabrice

Posted
Si ça ne prend que le tiff, comment faire pour du pdf? Je pense à certains scans de textes liborg de Fabrice

Imagemagick en ligne de commande.

Posted
Imagemagick en ligne de commande.
Ce qui veut dire ?

Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser. :icon_up:

Posted
Ce qui veut dire ?

Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser. :icon_up:

Il a dit 'gratuit', qui dit gratuit dit RTFM.

Posted

Je dirais plutôt "non marchand" dit RTFM.

Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple.

(Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.)

Posted
Je dirais plutôt "non marchand" dit RTFM.

Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple.

(Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.)

Les produits Google ne sont pas gratuits, ils vendent aussi de la part de cerveau disponible, c’est juste que les cerveaux sont de bonne qualité donc ils monétisent ça mieux que l’autre…

  • 3 weeks later...
Posted
Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?

Merci

Pour ma part, je n'ai rien trouvé de mieux qu'Acrobat pro. Lexington, peux-tu me donner le lien d'un pdf au texte non reconnu, que je fasse le test en live ?

Archived

This topic is now archived and is closed to further replies.

×
×
  • Create New...