OCR Convertire immagini fax e pdf da scanner, in testi e parole da modificare


Link sponsorizzati


OCR per lo scannerOCR è la sigla che sta per "Optical Character Recognition" (riconoscimento ottico dei caratteri) èd è una tecnologia software, "intelligente" che serve a convertire immagini contenenti testi scritti in documenti modificabili con i normali programmi di videoscrittura come ad esempio, Microsoft Word.
Senza entrare nel dettaglio tecnico, un software OCR consente quindi di prendere un foglio scritto e convertirlo in un documento, le cui parole siano modificabili.
In generale ci si riferisce all'uso dello scanner, e al riconoscimento dei testi scritti su un foglio in modo che le parole possano essere cambiate.
Per trovare campi di applicazione tipici della vita quotidiana possiamo pensare a quando si vuole usare cio che è scritto su un libro o su un giornale per riportarlo su un proprio documento o su una tesina per poi modificarlo e farlo proprio o ancora, se si vuole riscrivere un fax ricevuto.

In questo articolo vediamo alcuni programmi e siti internet, gratuiti, utili a modificare fax, immagini di scanner e pdf in un file di testo normale.
Ultimamente la tecnologia OCR ha fatto passi da gigante ed i risultati sono sorprendenti.

1) Non un programma ma un servizio online di OCR si trova sul sito OCRTerminal.
Da questo sito è possibile convertire una immagine in un file di testo oppure un file pdf in uno Word, sempre modificabile.
Questa ultima funzione, la conversione di file da .pdf a .doc si può fare anche con altri software specifici per modificare file pdf.
Quando si parla di una immagine convertita in file di testo, in questo caso, si intende una pagina scansionata e salvata tramite il programma di gestione di un normale scanner, in un file jpeg, gif, bmp o tiff.
Per usare il sito bisogna registrarsi e viene riconosciuta la conversione di file scritti in qualsiasi lingua, compresa la lingua italiana.

2) Cognitive OpenOCR (Cuneiform) è un programma open source che permette di fare il riconoscimento ottico dei caratteri (OCR) e quindi di trasformare pdf e immagini in documenti di testo modificabili con Word o altri programmi.
Cuneiform supporta 23 lingue tra cui anche l'italiano e dispone di speciali algoritmi per il riconoscimento di testo da stampante, fax e fotocopie.
Riconosce automaticamente, senza difficoltà di uso, i blocchi di testo, le tabelle e le immagini e conserva il layout della pagina in maniera perfetta.

3) TOP OCR processa le immagini di documenti che sono state prese da uno scanner oppure che sonostate fotografate da fotocamere digitali, smartphone o telefonini cellulari.
La fotografia, per essere riconosciuta con una certa precisione, deve essere almeno di 3 Megapixel.
Sulla pagina del sito, si trova un tutorial che spiega come usare il programma e come farlo funzionare per bene.
Top Ocr è anche in lingua italiana.

4) Images2openXML che converte le immagini delle scansioni nel formato di file OpenXML, riconosciuto solo da Microsoft Office 2007.
Ora, questo programma è ancora in non è perfetto.
Per far funzionare Images2OpenXML bisogna poi installare sul proprio computer:
- Visual Studio 2008
- .NET Framework 2.5
- Office 2007
- OpenXML SDK 1.0
- Microsoft Office Document Imaging 12.0

Non serve dire che i requisiti sono tanti e un po' rognosi quindi il prodotto è, per ora, destinato a chi vuole testare software nuovi e, per certi versi, innovativi.

5) JOCR è un programma specializzato nel riconoscere caratteri presenti dentro immagini prese dal desktop del computer.
Questo programma funziona con Office 2003 e richiede, per funzionare correttamente, il componente Microsoft Office Document Imaging.

La cosa bella è che JOCR è un programma portatile che non ha bisogno di installazione e l'interfaccia è piuttosto semplice, molto simile a quei programmi che catturano tutto cio che compare sul desktop (ad esempio il tasto "stamp")
Si può scegliere di catturare l'intero desktop, una regione dello stesso oppure una finestra specifica.
il programma JOCR poi permetterà di stampare, copiare o, la funzione principale, "riconoscere" quello che vede e che è stato catturato in modo da poterlo modificare.
L'immagine viene infatti analizzata e, dovrebbero essere riconosciuti tutti i caratteri e le parole scritte per poi mostrarli sul blocco notes di Windows come file txt.
JOCR è compatibile con esti scritti in tante lingue tra cui l'Inglese, il Francese, Tedesco, Spagnolo e anche l'Italiano.
Download JOCR

6) GOCR è un programma Opensource per Windows e per Linux ed è il principale progetto di sviluppo sperimentale di questo genere di software; per esperti Gnu Linux.

7) OnlineOCR.net è un sito web in cui si deve solo caricare l'immagine o il pdf scannerizzato per ottenere il file editabile e modificabile con Word.

8) Da poco tempo, come scritto in un altro articolo, anche con Google Docs si può estrarre testo da un pdf o da un'immagine ed è forse la soluzione migliore.

9) AbbyYReader è un sito web che permette di convertire un file pdf o una immagine in testo scritto con Microsoft Word.
Supporta anche l'italiano.

10) OCR Online è un sito gratuito che permette di convertire 100 immagini ogni giorno anche in lingua italiana, direttamente online senza scaricare programmi.

11) Free OCR è un programma in grado di convertire immagini e file pdf in docummenti con facilità e con una interfaccia molto semplice da usare.
Non so se sia il migliore ma l'ultima versione è di Gennaio 2009 dunque il progetto è vivo e in costante aggiornamento per essere perfezionato.
Il motore di Free OCR si chiama Tesseract OCR ed è stato sviluppato da HP labs diversi anni fa, mentre oggi appartiene a Google.
Free OCR funziona discretamente, non è sempre precisissimo e, di default, riconosce la lingua inglese.
Per riconoscere anche la lingua italiana, si deve caricare da Google Code.

Le prestazioni di questi programmi dipendono molto dalla qualità dell'immagine che si vuole far riconoscere e dalla sensibilità dello scanner usato.
Si passa da testi riprodotti in modo identico a casi in cui non viene riconosciuta nemmeno una parola.

A margine di questo articolo, segnalo che Microsoft Office One Note dovrebe avere funzione da OCR ma non ho modo, al momento, di provarlo.

Se capitate su questo articolo e conoscete o usate altri programmi free per riconoscere testi da immagini, sarei felice se condividiate la vostra esperienza.

Invia per E-mail

Abbonati gratis per leggere le notizie in anteprima

Articoli simili in , »


  • Roshan  
    09 giugno 2010 05:45

    Just a small correction: OCR Terminal conversions are not restricted to just english, but support a massive 19 languages. Visit http://ocrterminal.com/ for fast and accurate PDF to Word, Jpeg to Word and other conversions.

Scrivi un commento

Per commentare, si può usare un account Google / Gmail o un OpenID.
Nessun indirizzo mail è richiesto, lo spam viene rimosso

codice per i link: <a href="http://www.navigaweb.net">nome sito</a>

Inizio pagina