Navigaweb.net
Programmi Sicurezza Windows Guide PC iPhone Android Tecnologia Rete Facebook Immagini Musica Giochi

Data:

OCR per lo scanner Aggiornato il 10.4.14

OCR è la sigla che sta per "Optical Character Recognition" (riconoscimento ottico dei caratteri) èd è una tecnologia software, "intelligente" che serve a convertire immagini contenenti testi scritti in documenti modificabili con i normali programmi di videoscrittura come ad esempio, Microsoft Word.
Senza entrare nel dettaglio tecnico, un software OCR consente quindi di prendere un foglio scritto e convertirlo in un documento, le cui parole siano modificabili.
In generale ci si riferisce all'uso dello scanner, e al riconoscimento dei testi scritti su un foglio in modo che le parole possano essere cambiate.
Per trovare campi di applicazione tipici della vita quotidiana possiamo pensare a quando si vuole usare cio che è scritto su un libro o su un giornale per riportarlo su un proprio documento o su una tesina per poi modificarlo e farlo proprio o ancora, se si vuole riscrivere un fax ricevuto.

In questo articolo vediamo alcuni programmi e siti internet, gratuiti, utili a modificare fax, immagini di scanner e pdf in un file di testo normale.
Ultimamente la tecnologia OCR ha fatto passi da gigante ed i risultati sono sorprendenti.

1) Trascrivere testo nelle foto con Google Keep è il modo più facile anche se non funziona con i PDF.

2) Con Microsoft Onenote per Windows 8 si può usare la funzione OCR dei fogli scansionati per rendere modificabili i documenti cartacei.
Il programma è facile da usare e gratuito e se ne parla in un altro articolo.

3) Anche con Google Docs si può estrarre testo da un pdf o da un'immagine che è un'altra soluzione molto pratica e comoda.

4) Cognitive OpenOCR (Cuneiform) è un programma open source che permette di fare il riconoscimento ottico dei caratteri (OCR) e quindi di trasformare pdf e immagini in documenti di testo modificabili con Word o altri programmi.
Cuneiform supporta 23 lingue tra cui anche l'italiano e dispone di speciali algoritmi per il riconoscimento di testo da stampante, fax e fotocopie.
Riconosce automaticamente, senza difficoltà di uso, i blocchi di testo, le tabelle e le immagini e conserva il layout della pagina in maniera perfetta.

5) JOCR è un programma specializzato nel riconoscere caratteri presenti dentro immagini prese dal desktop del computer.
Questo programma funziona con Office 2003 e richiede, per funzionare correttamente, il componente Microsoft Office Document Imaging.
La cosa bella è che JOCR è un programma portatile che non ha bisogno di installazione e l'interfaccia è piuttosto semplice, molto simile a quei programmi che catturano tutto cio che compare sul desktop (ad esempio il tasto "stamp")
Si può scegliere di catturare l'intero desktop, una regione dello stesso oppure una finestra specifica.
il programma JOCR poi permetterà di stampare, copiare o, la funzione principale, "riconoscere" quello che vede e che è stato catturato in modo da poterlo modificare.
L'immagine viene infatti analizzata e, dovrebbero essere riconosciuti tutti i caratteri e le parole scritte per poi mostrarli sul blocco notes di Windows come file txt.
JOCR è compatibile con esti scritti in tante lingue tra cui l'Inglese, il Francese, Tedesco, Spagnolo e anche l'Italiano.
Download JOCR

6) GOCR è un programma Opensource per Windows e per Linux ed è il principale progetto di sviluppo sperimentale di questo genere di software; per esperti Gnu Linux.

7) OnlineOCR.net è un sito web in cui si deve solo caricare l'immagine o il pdf scannerizzato per ottenere il file editabile e modificabile con Word.

8) Non un programma ma un servizio online di OCR si trova sul sito OCRTerminal.
Da questo sito è possibile convertire una immagine in un file di testo oppure un file pdf in uno Word, sempre modificabile.
Questa ultima funzione, la conversione di file da .pdf a .doc si può fare anche con altri software specifici per modificare file pdf.
Quando si parla di una immagine convertita in file di testo, in questo caso, si intende una pagina scansionata e salvata tramite il programma di gestione di un normale scanner, in un file jpeg, gif, bmp o tiff.
Per usare il sito bisogna registrarsi e viene riconosciuta la conversione di file scritti in qualsiasi lingua, compresa la lingua italiana.

9) OCR TO Word è un semplice e potente programma capace di estrarre testo da un PDF o da un documento acquisito con lo scanner.
Il testo estratto può poi essere modificato su Word.

10) AbbyYReader è un sito web che permette di convertire un file pdf o una immagine in testo scritto con Microsoft Word.
Supporta anche l'italiano.

11) OCR Online è un sito gratuito che permette di convertire 100 immagini ogni giorno anche in lingua italiana, direttamente online senza scaricare programmi.

12) Free OCR è un programma in grado di convertire immagini e file pdf in docummenti con facilità e con una interfaccia molto semplice da usare.
Non so se sia il migliore ma l'ultima versione è di Gennaio 2009 dunque il progetto è vivo e in costante aggiornamento per essere perfezionato.
Il motore di Free OCR si chiama Tesseract OCR ed è stato sviluppato da HP labs diversi anni fa, mentre oggi appartiene a Google.
Free OCR funziona discretamente, non è sempre precisissimo e, di default, riconosce la lingua inglese.
Per riconoscere anche la lingua italiana, si deve caricare da Google Code.

Le prestazioni di questi programmi dipendono molto dalla qualità dell'immagine che si vuole far riconoscere e dalla sensibilità dello scanner usato.
Si passa da testi riprodotti in modo identico a casi in cui non viene riconosciuta nemmeno una parola.
A margine di questo articolo, segnalo che Microsoft Office One Note dovrebe avere funzione da OCR ma non ho modo, al momento, di provarlo.
Se capitate su questo articolo e conoscete o usate altri programmi free per riconoscere testi da immagini, sarei felice se condividiate la vostra esperienza.


Scrivi un commento

Per commentare, si può usare un account Google / Gmail.
5 Commenti
  • Roshan
    09 giu 2010, 05:45:00

    Just a small correction: OCR Terminal conversions are not restricted to just english, but support a massive 19 languages. Visit http://ocrterminal.com/ for fast and accurate PDF to Word, Jpeg to Word and other conversions.

  • Angelo
    07 lug 2012, 02:59:00

    due domande:

    1- jocr funziona con il pacchetto office, ma c'è il modo di farlo funzionare anche con libreoffice? ho cercato ma non ho trovato il modo o un'estensione che faccia al caso

    2- ho letto che libreoffice nel modulo draw, con l'estensione Pdf import, consente la visualizzazione di pdf per editarli; ho scaricato la versione 3.5.4.2 (dalla versione 3 in avanti l'estensione Pdf import è stata integrata), ma aprendo il pdf, il documento risulta illegibile...che fare? Sarebbe la soluzione ideale!

    Grazie dell'aiuto

  • Angelo
    07 lug 2012, 03:09:00

    segnalo che il link di Cognitive Open OCR purtroppo fa scaricare solo una versione demo del programma...
    ne esiste una full gratuita?
    grazie

  • Claudio Pomes
    09 lug 2012, 09:17:00

    Per scrivere un PDF prova PDF X-change http://www.navigaweb.net/2007/09/aggiungere-testo-su-un-pdf-compilando-i.html

  • Angelo
    09 lug 2012, 10:50:00

    attenzione perchè Ocr to word non supporta l'estrazione del testo dai pdf come indichi nell'articolo