Opzioni di riconoscimento e lettura

La lingua del riconoscimento

L’editor linguistico

Altre opzioni di riconoscimento

Quisquiglie ed omissis

 

 

Lezione 6.

Opzioni di riconoscimento e lettura

 

Se Finereader si limitasse al primo stadio del suo lavoro,, ossia alla traduzione in testo dell’immagine, il risultato conterrebbe un certo numero di errori. Infatti, per quanto i compilatori del software vi immettano continuamente nuove informazioni a proposito dei font[1], i professionisti della grafica, e segnatamente quelli più creativi, hanno continuamente nuove idee in proposito. Non solo. Ma ricorrono anche fattori incidentali. Una O il cui inchiostro si è sbiadito sul lato destro, potrebbe essere vista come una C. Una “i” il cui puntino in alto, per via di una sbavatura, è troppo vicino alla stanghetta verticale, potrebbe essere vista come una “L”. Una doppia “m” potrebbe essere vista come “nini” o “tint” o altro ancora,  sempre per motivi di inchiostrazione.

Per ovviare alla maggior parte di questi inconvenienti, riducendo gli errori ad una percentuale davvero trascurabile, Finereader dispone di strumenti manuali ed automatici.

I primi consistono nella “correzione ortografica”, procedura che conosciamo in quanto l’abbiamo potuta sperimentare nei programmi di scrittura[2]. I secondi consistono in una quantità davvero impressionante di dizionari con cui FR confronta i suoi risultati e che hanno la possibilità di essere ulteriormente arricchiti dall’utente.

 

La lingua del riconoscimento

Discorrendo della finestra delle opzioni – che, come abbiamo visto, consta di sei schede –, siamo arrivati alla scheda “Leggi”.

Nel primo campo scegliamo la lingua in cui vogliamo che avvenga il riconoscimento. Ciò farà sì che i confronti saranno fatti col dizionario di quella lingua. Tanto per curiosità, potrei invitarvi a selezionare la lingua tedesca per una pagina scritta in italiano. Potrebbe persino capitare che gli errori effettivi restino più o meno invariati. Ma di sicuro aumenta verticalmente il numero delle parole sulle quali il correttore ortografico si fermerà ritenendole errate.

Dunque non facciamo scherzi e, per cominciare, selezioniamo <italiano>, lingua che dovrebbe già apparirvi per default.

Ma FR è capace di tenere sotto controllo anche più dizionari, se nel campo in questione compaiono più lingue, in questo modo:

<francese;inglese;italiano>.

Come fare?

Le istruzioni del programma prescrivono un clic del pulsante sinistro del mouse nella casella in cui leggiamo il nome della lingua. Ma l’<invio> non funziona.

Funziona il tasto di emulazione del clic, ovvero la barra del tastierino numerico, a condizione che il puntatore vi si trovi sopra. E come saperlo? Guardando col cursore Jaws! Solo che così diventa lunga!

Ecco una soluzione efficace di tipo ergonomico. Tenendo premuto col pollice della mano destra lo <0> del tastierino numerico, con il medio premiamo di seguito prima il <meno> e poi il <più>.

Così facendo, abbiamo prima portato il puntatore del mouse sulla nostra casella, e poi abbiamo cliccato[3].

Quel che ci appare è sempre un elenco di lingue. Ma, portandoci in cima a questo elenco – anche col solo tasto <home> - troviamo due voci:

È il primo quello che c’interessa. Riporta ancora una volta un elenco di lingue. Ma da questa posizione noi possiamo selezionarne quante ne vogliamo, marcandole singolarmente con la barra spaziatrice.

Chi sa farlo, farebbe bene a marcare – in Jaws - i grafici che segnalano lo stato di attivazione. Gli altri, quando vogliono sapere se una lingua è attiva o no, possono digitare <insert+tab>.

Selezionate le nostre due, tre, quattro lingue, o anche più, cerchiamo l’OK e premiamolo. Adessonella casella leggiamo le lingue da noi selezionate in ordine alfabetico e separate da un punto e virgola.

 

L’editor linguistico

Selezionando le lingue, ci siamo resi conto di quante ne “conosce” Finereader. E quelle che abbiamo visto non sono nemmeno tutte!

Ma non si potrebbe scartare qualcosa e tenere a disposizione solo ciò che ci occorre?

Io, ad esempio, sarei lieto di poter scegliere tra l’armeno grabar, l’armeno occidentale e l’armeno orientale… Ma la mia mamma da piccolo non me ne ha insegnata neanche una delle tre! E allora perché me le devo ritrovare sempre tra i piedi?

La casella “Modifica lingue” serve proprio a questo.

Si presenta come una serie di alberi.

 

*      Lingue principali

*      Lingue aggiuntive

*      Lingue artificiali

*      Linguaggi di programmazione e formule

*      Lingue definite dall'utente

 

Aprendo con la freccia destra ciascuno di questi capitoli, troviamo elenchi di lingue.

Le lingue “principali” sono tutte marcate, e noi potremo smarcare quelle che non ci riguardano.

Le lingue “aggiuntive” – guardate un po’ che roba! – risultano tutte disattivate. Ciò non toglie che, se voi avete particolari ragioni per scansionare un testo in lingua “abkhaz”, troverete qui la vostra soddisfazione…

Interessante può essere il capitolo “Linguaggi di programmazione e formule”. Qui io ho marcato le voci: “formule chimiche semplici” e “numeri”. Se questo mi abbia o no giovato nella mia intensa attività scannatoria, sinceramente non sono in grado di giurarvelo.

 

Altre opzioni di riconoscimento

Finereader 8.0 è in grado di fare meraviglie, a detta del produttore.

Ad esempio, “[…] vengono analizzati e riconosciuti sia documenti semplici che documenti con layout complessi, in particolare documenti con testo su uno

sfondo colorato o raster e documenti con tabelle complesse (incluse tabelle con bordi della griglia bianchi e tabelle con celle colorate)” – dice la guida.

Fantastico parlare così a chi non ci vede!

Ed è per questo che nella casella successiva, dove possiamo scegliere tra un tipo di riconoscimento “massimo” e uno “veloce”, senza batter ciglio sceglieremo il secondo, come la guida consiglia per i documenti normali. Tranne ovviamente quella volta che qualcuno ci passerà una roba incasinatissima per cui varrà la pena provare anche l’altra scelta, che ovviamente è più lenta.

E parliamo sempre di pagine acquisite tramite scanner.

Non dobbiamo tuttavia dimenticare che FR riconosce anche documenti in formato immagine, e in particolar modo i files pdf. I quali possono presentarsi in due modi.

Nel primo essi consistono in sole immagini. Il che significa per noi che nessuno screen reader – se non ne salterà fuori uno con OCR incorporato – è in grado di leggere alcunché.

Nel secondo trattasi di un formato un po’ più complesso su cui non mi soffermo, anche per incompetenza personale. Posso comunque dire che qui, oltre all’immagine visibile a schermo, è contenuto un testo che viene intercettato benissimo da Jaws, soci ed assimilati.

In casi del genere, noi possiamo essere gentili col nostro Finereader e dirgli: “Ma dai! Non stare a scandire tutto pagina per pagina! Prendi pure il testo che è già lì! Fai prima e non ti sbatti…”

Non dubitate della sua gratitudine. Il testo vi arriverà correttissimo al millimetro. E se errori ci sono, li ha fatti l’autore del file: come gli errori di stampa in un libro.

Questo è il senso della prossima casella, che ci fa scegliere tra: “Estrai testo da pdf” e “Riconosci pdf come immagine”.

 

Quisquiglie ed omissis

Tralascio di parlare delle restanti caselle poiché, o assolutamente intuitive, o impraticabili per chi non vede.

Intuitiva è “evidenzia collegamenti ipertestuali”; impraticabile è il settore che riguarda i “motivi definiti dall’utente”.Sono, questi ultimi, quei grafici che FR riconosce a condizione che l’utente gli spieghi di che si tratta. E qui siamo al paradosso. Noi usiamo Finereader perché sia lui a dirci di che si tratta. Come facciamo se dobbiamo essere noi ad istruirlo?

 

Vai a Lezione 7

Indice

 



[1] Quello di «font» è un concetto estraneo a chi scrive e legge solo in Braille, alfabeto nel quale tutte le A, le B e le C resteranno uguali a se stesse fino all’eternità. Nella scrittura visiva, ci sono tanti tipi di A, di B e di C, quante la fantasia dei grafici riesce a suggerirne. Ma allora come si riconoscono? Tenendo presenti concetti come quelli di genere e di specie. Come facciamo a dire che un Labrador e un barboncino sono entrambi cani? Allo stesso modo una A in Arial differisce da una A in Courrier, va viene comunque riconosciuta come A. Finereader sa fare questo riconoscimento in quanto programmato per farlo.

[2] Al correttore ortografico di Finereader si accede dal <menu/strumenti/controllo ortografico>, combinazione rapida <f7>. La finestra di dialogo, simile all’analoga di Word, comprende la possibilità di operare la sostituzione direttamente nella casella dove compare il termine; di scegliere fra suggerimenti; di fare la sostituzione in un punto solo o in tutto il documento.

[3]È un procedimento adottabile sempre quando, non funzionando il tasto <invio>, si ha bisogno di cliccare su una data icona o in un dato campo.