Opzioni: salvare il documento di testo

L’opzione “Salva”

Impostare i formati

Formato testo

I formati di Word

Il formato pdf

Il resto

 

Lezione 7.

Opzioni: salvare il documento di testo

 

Ci manca ora, per arrivare alla produzione di un file di testo, un ultimo passaggio da sviscerare.

Abbiamo configurato le opzioni per la scansione e quelle per la lettura. Abbiamo visitato la finestra dalla quale pilotare la performance dello scanner. Ma ora abbiamo bisogno di sapere che prodotto tireremo fuori da tutto ciò.

Fin dalla lezione n. 1, abbiamo visto che, dando un certo comando, tutto o parte del lavoro di scansione/riconoscimento può essere trasferito in un file di testo dei più diversi formati. Ma abbiamo parlato di informatica, non di organizzazione del testo. E Finereader è sì in grado di riprodurre una copia conforme dell’originale, ma non è un fotocopiatore. Per certi aspetti è qualcosa di meno, per certi altri qualcosa di più.

È qualcosa di meno nel senso che l’immagine originale è sottoposta ad un processo di elaborazione. E questo, per quanto sviluppato e avanzato, non può andare completamente esente da errori. Ragion per cui sarà meglio che, per riprodurre copie conformi, o ci affidiamo alla vecchia fotocopiatrice, o stampiamo l’immagine, avvalendoci della possibilità che FR stesso ci offre[1].

È qualcosa di più, poiché per lavorare su una fotocopia – come del resto su qualunque altro tipo di pagina a stampa – bisogna operare meccanicamente con evidenziatori, matite, forbici e spillatrici; e su un’immagine tif, jpg o altro, l’unica è usare programmi di editing fotografico, tipo Photoshop. Mentre con FR ciò che otteniamo è un vero e proprio testo editato e rieditabile, eventualmente anche corredato da immagini (mappe, foto, ecc.).

Per chi non vede, la discriminante è assoluta, dal momento che è proprio il «testo» l’elemento chiave dell’accessibilità.

Diciamo dunque che, in linea astratta e approssimata, Finereader è in grado di compiere a ritroso quel processo che ha avuto inizio dalla tastiera di computer su cui l’autore ha digitato il suo documento, si è sviluppato attraverso il lavoro della videoscrittura, della grafica computerizzata, per arrivare infine alla carta.

Fatica dei compilatori del software è quella, in questo percorso, di eliminare quanti più errori possibile.

 

L’opzione “Salva”

Contiene pulsanti e caselle. E noi sbrighiamo subito il discorso su queste ultime. I nomi «Serif», «Sans serif» e «Monospazio», stanno ad indicare tre categorie di font che Finereader impiegherà nella trascrizione. Vanno già bene così, anche se un giro di esplorazione potrà soddisfare le curiosità di qualcuno. Abbiamo già detto che la grafica non è esattamente il nostro specifico, per cui passiamo oltre.

 

Impostare i formati

Il lavoro grosso, partendo da questa finestra, lo faremo a partire dal pulsante “impostazioni formati”, che premeremo senz’altro[2].

Vediamo subito l’elenco delle sottopagine di questa finestra, ognuna dedicata ad un singolo formato:

 

Immagino la scena.

I più timorosi fra voi, colti dal panico, si rifugeranno immediatamente nel txt. I più aggiornati andranno senz’altro ad esplorare le possibilità contenute nei formati di Word o pdf (e perché no Power Point?). Gli smanettoni cominceranno a sognare cose del tipo una tabella da far riconoscere e salvare come foglio di Excel, come dbf o csv. E infine quelli che non tralasceranno una frecciata avvelenata all’indirizzo della Microsoft, alla vista, pur in ultima posizione, dell’inaccessibile formato lit di Microsoft Reader.

Ma cosa dobbiamo fare esattamente?

 

Formato testo

Vi prego! Non affollatevi alla rinfusa! Fate passare avanti i più timidi, e seguite tutti quel che diremo a proposito della scheda “txt”. Che non è la prima: Ma un po’ dicortesia, che diamine!

 

Impostazioni testo

Funzione

Stato

Mantieni interruzioni di riga

Disattivato

Aggiungi alla fine del file esistente

Disattivato

Usa carattere interruzione di pagina (n.12) come separatore di pagina

Attivato

Usa riga vuota come separatore di paragrafo

Disattivato

Pagina di codice

Automatico (casella)

Tipo pagina di codice

Windows (casella)

 

Questa è una configurazione possibile e varrà la pena commentarla un attimo.

  1. Mantenere le interruzioni di riga comporta da un lato la conformità all’originale, dall’altro la presenza di sillabazioni e altro, che influenzano negativamente la scorrevolezza di una lettura attraverso sintesi vocale. Si tenga presente che le righe così ottenute sono di lunghezza smisurata. Per cui chi legge col Blocco note o con Wordpad dovrà attivare le opzioni di “a capo” forzato.
  2. Solo nelle impostazioni del formato testo è possibile scegliere se accodare il lavoro a un file preesistente. Marcare l’opzione se la si vuole attiva.
  3. Può essere importante sapere a che punto finisce la pagina originale. Attivando questa opzione, FR inserirà nel punto interessato un carattere 12. Non disturba la lettura con la sintesi e può rivelarsi utile nel caso di importazione del testo con altro programma di videoscrittura.
  4. Usare una riga vuota come separatore di paragrafo diventa importante se abbiamo lasciato attivate le interruzioni di riga, le quali altro non sono che un segno di interruzione di paragrafo. Così facendo, i paragrafi saranno individuati da una sequenza di due caratteri di marcatura paragrafo.
  5. Come pagina di codice, lasciamo pure “automatico”, sempre che qualcuno non abbia ragioni particolari per scelte come il “vietnamita windows”.. Giuro che c’è….
  6.  Infine, fra i tipi di pagina di codice, ci sono i tre principali: Windows, Dos e Mac. Ma forse quest’ultima cosa facevo meglio a non dirla, vista la mia freddezza per i vari nostalgici del Dos che ancora vagano nel mondo della disabilità visiva, a mo’ di giapponesi combattenti nelle sperdute isole del Pacifico.

 

I formati di Word

La scheda è la prima che appare all’apertura della pagina.

Naturalmente chi decide di passare a Word il risultato della scansione, sa già lavorare un po’ con quel programma. Per cui non sarà necessario dilungarsi più che tanto. Ma prendiamo pure in esame alcune cose che appaiono nella scheda, forti di quanto abbiamo già detto nell’analisi della scheda precedente.

 

Campo

Funzione

Mantieni Layout

I.                    Layout originale

II.                 Colonne, tabelle, paragrafi e caratteri

III.               Tabelle paragrafi e caratteri

Formato carta predefinito

Casella combinata

Aumenta formato carta se il contenuto non rientra

Attivato

IV.               

Mantieni interruzioni di riga

Non attivato

Mantieni colore testo

Non attivato

Rimuovi trattini facoltativi

Non attivato

Evidenzia caratteri incerti

Attivato

Attiva compatibilità con Microsoft Word 95

Attivato

Attiva finestra zoom in Microsoft 2003

Non attivato

Mantieni immagini

Attivato

Qualità (immagini)

Casella

Formato (immagini)

Casella

 

Guardando la seconda colonna della tabella, avete già un’idea di come potreste cominciare a lavorare.

Per esempio, se state per scansionare un romanzo, potreste già decidere di disattivare la casella “mantieni immagini”. Non che un’immagine vi darebbe una gran noia in lettura. Però sarebbero bytes inutili che appesantirebbero il file.

Ma come comportarsi con la scelta del layout? O come comportarsi con i trattini facoltativi?

Qui una procedura senza se e senza ma, non esiste. Dipende dalle circostanze e ne riparleremo. Tuttavia, per capirci, quando scansioniamo un romanzo, magari acquistato in edizione economica, non è così necessario che se ne riproduca il layout. Né ci saranno di alcuna utilità le colonne, a meno che non abbiamo disattivato l’opzione “dividi pagine doppie”: Ché in tal caso la lettura per colonne sarebbe assolutamente da fare…

Ma se vogliamo un’idea completa di come è fatto quel determinato libro, e se ci stiamo lavorando, magari anche a distanza, assieme a un collega che usa la copia cartacea, poter disporre del layout originale non è cosa da disprezzare.

Analogo discorso può valere per i trattini facoltativi. Fr li mette ma noi ovviamente non li vediamo, non li tocchiamo e non li ascoltiamo. Ma loro sono lì. Ipotizziamo di voler cambiare, dall’interno di Word, il layout della pagina, ingrandendola o rimpicciolendola. Grazie alla presenza invisibile dei trattini facoltativi, l’eventuale sillabazione di fine riga andrà a posto da sola. E neanche questo è da disprezzare.

Notiamo infine che, se attiviamo l’interruzione di riga, essa non corrisponderà ad un marcatore di paragrafo ma a quella che Word stesso chiama “interruzione di riga manuale”, identificabile dal <menu/speciale> della finestra di dialogo <trova> e >sostituisci>. Il che significa che, se a un certo punto decidiamo di rimuovere con Word le interruzioni di riga[3], la struttura dei paragrafi non ne verrà a patire.

 

Il formato pdf

Qui ad interessarci davvero è solo la prima casella: quella che ci fa scegliere tra quattro possibilità.

Pigramente riporto dalla guida.

 

Solo immagine pagina

Questa opzione salva l'immagine esatta della pagina. […] ma non è possibile eseguire ricerche all'interno […].

Solo testo e immagini

Questa opzione salva soltanto il testo riconosciuto e le immagini associate. Le pagine PDF risultanti supporteranno le operazioni di ricerca e il file presenterà una dimensione ridotta.

Testo sopra immagine pagina

Questa opzione salva lo sfondo e le immagini del documento originale e sovrappone il testo a tali elementi. In genere i file PDF di questo tipo richiedono una quantità di spazio su disco superiore a quella richiesta dai file creati con Solo testo e immagini e supportano tutte le operazioni di ricerca. In alcuni casi il layout può variare leggermente rispetto all'originale, a causa del posizionamento del testo sopra l'immagine.

Testo sotto immagine pagina

Salva l'intera immagine della pagina come illustrazione e posiziona il testo riconosciuto sotto l'immagine, in modo 'invisibile'. Il risultato è un documento con un layout uguale al 100% all'originale in cui è possibile eseguire operazioni di ricerca.

           

Scartiamo senz’altro la prima possibilità. Ma le altre tre?

A tutta prima potrebbero apparirci come indifferenti, visto che tutte contengono testo, sempre che ci siano ragioni specifiche per andare in pdf.

Ma ecco il punto. Le ragioni per andare in pdf potrebbero coincidere con la necessità di raccordarsi ad una comunità di utenti più vasta della nostra. Esigenze di lavoro e di studio, ecc.

In questi casi, saranno gli stessi nostri interlocutori a precisarci le esigenze in ballo. Per ora accontentiamoci di sapere che questa cosa esiste.

 

Il resto

Tralascio deliberatamente le schede sugli altri formati. Chi lavora con fogli di calcolo o database, oppure chi ha dimestichezza con l’html è in grado di pervenire da solo alle scelte più adeguate alla bisogna.

 

Vai a Lezione 8

Indice

 



[1] Dal <menu/file/stampa> passiamo a un sottomenu, che ci consente di scegliere tra <immagine> e <testo>.

[2] Conviene dedicarsi ad impostare i formati già in sede di prima configurazione, per poter partire, nel lavoro, da una buona base. Tuttavia queste operazioni sono indispensabili solo dal momento in cui da Finereader esportiamo il lavoro in Word, in html, in txt, ecc. Quando comandiamo <menu/file/salva risultati, sottomenu/salva pagine>, rapidamente <control+s>, nella finestra di dialogo appare anche il pulsante “imposta formati”, lo stesso di quello del quale ci stiamo occupando ora. Da qui potremo correggere tutti i parametri che vorremo, che però saranno validi solo per il documento in corso di salvataggio.

[3] Nella finestra di Word, <menu/modifica/sostituisci>. Campo trova: ^l; campo sostituisci: vuoto o meglio spazio.