Logiciel de reconnaissance de textes

Lexington · 2 décembre 2008

Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?

Merci

A.B. · 2 décembre 2008

Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?
Merci

http://code.google.com/p/tesseract-ocr/

+ http://sites.google.com/site/ocropus/

Lexington · 2 décembre 2008

http://code.google.com/p/tesseract-ocr/
+ http://sites.google.com/site/ocropus/

Ca marche en exécutable pour Windows?

Silhouette · 2 décembre 2008

Les outils d'Adobe PDF creator le font (ou c'est un logiciel supplémentaire dans la suite). Le résultat avec un vieux texte mal scané n'était pas terrible (beaucoup de choses à reprendre) mais je ne les ai jamais essayé avec un texte "propre" donc difficile de me rendre compte de leur efficacité…

A.B. · 2 décembre 2008

Ca marche en exécutable pour Windows?

oui, mais c'est pedestre

eclipse · 3 décembre 2008

Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser? Merci

Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu.

Pour info, le meilleur en payant est sans contexte ABBYY Finereader 9.0. Il accepte le PDF et le Djvu en entrée.

A.B. · 3 décembre 2008

Un OCR en freeware ou shareware (ou libre), tu en trouveras (Gocr, Tessaract) mais ça ne sera pas très efficace. Il faut savoir qu'un OCR, c'est assez complexe à coder et ce n'est pas à la portée du premier amateur venu.

Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose :icon_up:

eclipse · 3 décembre 2008

Tesseract est maintenu et developpé activement par Google qui l'utilise pour numeriser des millions de livre sur books.google.com… mais ce sont des amateurs je suppose

Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler 2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel.

pankkake · 3 décembre 2008

Omnipage, payant, pour Windows, mais marche très bien à ce qu'on m'a dit.

DiabloSwing · 3 décembre 2008

Mais c'est sur Windows :icon_up:

4 décembre 2008

Tesseract a été racheté par Google qui l'a libéré oui, mais actuellement 1) il est compliqué à compiler

Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows.

Il n'y a pas une distrib binaire pour les microchiens?

2) il n'accepte qu'un format de fichier (le tiff si je me souviens bien) 3) pour avoir des résultats probants il faut « entrainer » longuement le logiciel.

Ca c'est possible par contre.

neuneu2k · 4 décembre 2008

Non. Disons simplement qu'il faut avoir les outils, ce qu'on n'a généralement pas sous windows.
Il n'y a pas une distrib binaire pour les microchiens?

Ben si, officielle sur le site de dev…

C'est une plateforme supportée en plus.

Lexington · 4 décembre 2008

Si ça ne prend que le tiff, comment faire pour du pdf? Je pense à certains scans de textes liborg de Fabrice

A.B. · 4 décembre 2008

Si ça ne prend que le tiff, comment faire pour du pdf? Je pense à certains scans de textes liborg de Fabrice

Imagemagick en ligne de commande.

Lexington · 4 décembre 2008

Imagemagick en ligne de commande.

Ce qui veut dire ?

eclipse · 5 décembre 2008

Ce qui veut dire ?

$ pdftoppm -r 300 fichier.pdf bidule

$ convert bidule_xxx.ppm bidule_xxx.tif

Rincevent · 5 décembre 2008

Imagemagick en ligne de commande.
Ce qui veut dire ?

Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser. :icon_up:

neuneu2k · 5 décembre 2008

Ce qui veut dire ?
Ca veut dire "Solution rejetée". C'est l'ordinateur qui a été conçu pour l'homme, pas l'inverse. A la machine de bosser.

Il a dit 'gratuit', qui dit gratuit dit RTFM.

pankkake · 5 décembre 2008

Je dirais plutôt "non marchand" dit RTFM.

Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple.

(Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.)

neuneu2k · 5 décembre 2008

Je dirais plutôt "non marchand" dit RTFM.
Parce que les produits Google sont gratuits mais utilisable par des n00bs, par exemple.

(Le mec qui bosse pour rien du tout à pas vraiment envie de faire des choses qui sont chiantes, et en plus inutiles pour lui.)

Les produits Google ne sont pas gratuits, ils vendent aussi de la part de cerveau disponible, c’est juste que les cerveaux sont de bonne qualité donc ils monétisent ça mieux que l’autre…

pankkake · 5 décembre 2008

Nous n'avons pas la même définition :icon_up: . Mon "non marchand" est ton "gratuit".

Copeau · 22 décembre 2008

Je cherche un logiciel de reconnaissance de textes, pour exploiter des fichiers de texte que j'ai en PDF "image". Des scans de livre en format PDF mais sans que les caractères soient détectés. Quel logiciel, freeware ou shareware si possible, me conseilleriez vous d'utiliser?
Merci

Pour ma part, je n'ai rien trouvé de mieux qu'Acrobat pro. Lexington, peux-tu me donner le lien d'un pdf au texte non reconnu, que je fasse le test en live ?

Connexion

Logiciel de reconnaissance de textes

Messages recommandés

Lexington

A.B.

Lexington

Silhouette

A.B.

eclipse

A.B.

eclipse

pankkake

DiabloSwing

Invité jabial

neuneu2k

Lexington

A.B.

Lexington

eclipse

Rincevent

neuneu2k

pankkake

neuneu2k

pankkake

Copeau

Archivé

Naviguer

Activité