Jump to content

Numérisation de livres


Chitah

Recommended Posts

Posted

Une innovation tout à fait intéressant

reCAPTCHA: se servir des captchas pour la numérisation de livres

Rédigé par Michael Arrington (adaptation: Ouriel Ohayon)

recaptcha.pngCaptchas est connu pour lutter contre les spams et authentifier les humains. Toutefois, ReCaptcha est plus malin encore, puisqu’il vous permet d’aider à numériser des livres scannés sur Internet. C’est un projet de l’école en science informatique de Carnegie Mellon.

[..]

Les mots scannés sont placés aux cotés du widget classique de Captcha de manière à ce que les utilisateurs puissent traduire les deux en même temps. Le mot peut-être revu plusieurs fois par différentes personnes afin de limiter les erreurs. Captchas offre la possibilité de convertir beaucoup de mots. Les fondateurs de ReCaptcha, Luis von Ahn et Ben Maurer estiment à 60 millions le nombre de captchas résolus chaque jour; S’il faut 10 secondes pour répondre à un captcha, cela équivaut donc à 160 000 heures “humaines” par jour (soit 19 ans).

Pour une meilleure gestion du temps et de l’effort, reCaptcha propose son service via des widgets captcha et une API. Ils ont aussi un service qui protégera les adresses email publiées en ligne. Vous pouvez protéger votre adresse ici et l’enregistrer. ReCaptcha vous fournit alors un code à coller sur votre adresse protégée comme ceci: n…@techcrunch.com. Pour obtenir l’adresse, cliquez sur les points et répondez au Captcha. C’est excellent de voir des projets comme celui-ci, mobiliser juste un peu de notre temps pour résoudre des problèmes complexes et importants.

Billet traduit par Alain Eskenazi.

Posted

Ben tu sais, les captchas sont les petits dessins avec des lettres ou des chiffres bizarrement écrites, toutes tordues, que tu dois réécrire dans un champ de saisie, sur une page internet, pour que la page vérifie que tu n'es pas un robot de spam.

Hé ben des types ont eu l'idée d'utiliser cette petite chose à faire pour demander à l'internaute qui le font de décoder un mot d'un texte scanné d'un livre.

Ainsi, on peut numériser un livre grâce à des milliers de mini-actions de ce genre.

Posted

C'est génial !

Quelques questions tout de même :

1- Les Captchas servent à vérifier l'identité des internautes. Ils ne sont donc valides que si on connait la réponse avant (Chaptas classique) ou si plusieurs lecteurs de Captchas fournissent le même résultat à la même seconde (les reChaptas je présume), ce qui risque de déboucher sur des robots grugeurs de reChaptas qui fourniraient une réponse pipo mais synchrone.

2- Pour digitaliser des documents il faut distinguer les lignes, puis localiser les (groupes ou fragments de) mots, puis lire chaque (groupes ou fragments de) mot(s) ou leurs caractères. Les meilleurs systèmes proposent un couplage "smooth" de ces étapes. Ainsi on peut souvent lire des lignes qui se chevauchent ou parfois même dans certains ouvrages au graphisme esthétique des constructions quasi-fractales avec des mots de petite écriture dans la grosse écriture de grosses lettres de mots gros, cette variante fractale de l'écriture fait partie des arts graphiques… En tout cas même pour les écritures curvilignes "simples" il y a l'intendance de digitalisation puis des algorithmes sophistiqués pour analyser les pages et localiser les mots avant de les lire. Cela signifie probablement que leur logiciel sera cher ou qu'ils vendront un service packagé (e.g. sur la base de scanning de haute qualité transmis en préalable du contrat). Je vais demander à des amis spécialistes de la question ce qui existe déjà sur le marché ou dans le domaine publique en amont de la lecture reCaptchas.

……B

….BBB………………B

…B….B……………..B

..BBBBB……….BBBBBBBB

.B……..B……………B

B……….B…………..B

Posted

1- attention, tel que je le comprends, il y a deux choses différentes dans ce nouveau truc; d'une part, un captcha tout à fait ordinaire, pour vérifier que le site à affaire à une humain, et d'autre part, juste à côté, une autre image avec un autre champ de saisie où l'internaute peut traduire l'image en un mot.

2 - tout à fait, mais ça c'est de l'OCR basique non, je veux dire avec un bouquin normal, dont tous les mots ont des caractères de même taille!

Archived

This topic is now archived and is closed to further replies.

×
×
  • Create New...