Opzioni:
salvare il documento di testo
Ci manca ora, per arrivare alla produzione di un file di testo, un ultimo passaggio da sviscerare.
Abbiamo configurato le opzioni per la scansione e quelle per la lettura. Abbiamo visitato la finestra dalla quale pilotare la performance dello scanner. Ma ora abbiamo bisogno di sapere che prodotto tireremo fuori da tutto ciò.
Fin dalla lezione n. 1, abbiamo visto che, dando un certo comando, tutto o parte del lavoro di scansione/riconoscimento può essere trasferito in un file di testo dei più diversi formati. Ma abbiamo parlato di informatica, non di organizzazione del testo. E Finereader è sì in grado di riprodurre una copia conforme dell’originale, ma non è un fotocopiatore. Per certi aspetti è qualcosa di meno, per certi altri qualcosa di più.
È qualcosa di meno nel senso che l’immagine originale è sottoposta ad un processo di elaborazione. E questo, per quanto sviluppato e avanzato, non può andare completamente esente da errori. Ragion per cui sarà meglio che, per riprodurre copie conformi, o ci affidiamo alla vecchia fotocopiatrice, o stampiamo l’immagine, avvalendoci della possibilità che FR stesso ci offre[1].
È qualcosa di più, poiché per lavorare su una fotocopia – come del resto su qualunque altro tipo di pagina a stampa – bisogna operare meccanicamente con evidenziatori, matite, forbici e spillatrici; e su un’immagine tif, jpg o altro, l’unica è usare programmi di editing fotografico, tipo Photoshop. Mentre con FR ciò che otteniamo è un vero e proprio testo editato e rieditabile, eventualmente anche corredato da immagini (mappe, foto, ecc.).
Per chi non vede, la discriminante è assoluta, dal momento che è proprio il «testo» l’elemento chiave dell’accessibilità.
Diciamo dunque che, in linea astratta e approssimata, Finereader è in grado di compiere a ritroso quel processo che ha avuto inizio dalla tastiera di computer su cui l’autore ha digitato il suo documento, si è sviluppato attraverso il lavoro della videoscrittura, della grafica computerizzata, per arrivare infine alla carta.
Fatica dei compilatori del software è quella, in questo percorso, di eliminare quanti più errori possibile.
Contiene pulsanti e caselle. E noi sbrighiamo subito il discorso su queste ultime. I nomi «Serif», «Sans serif» e «Monospazio», stanno ad indicare tre categorie di font che Finereader impiegherà nella trascrizione. Vanno già bene così, anche se un giro di esplorazione potrà soddisfare le curiosità di qualcuno. Abbiamo già detto che la grafica non è esattamente il nostro specifico, per cui passiamo oltre.
Il lavoro grosso, partendo da questa finestra, lo faremo a partire dal pulsante “impostazioni formati”, che premeremo senz’altro[2].
Vediamo subito l’elenco delle sottopagine di questa finestra, ognuna dedicata ad un singolo formato:
Immagino la scena.
I più timorosi fra voi, colti dal panico, si rifugeranno immediatamente nel txt. I più aggiornati andranno senz’altro ad esplorare le possibilità contenute nei formati di Word o pdf (e perché no Power Point?). Gli smanettoni cominceranno a sognare cose del tipo una tabella da far riconoscere e salvare come foglio di Excel, come dbf o csv. E infine quelli che non tralasceranno una frecciata avvelenata all’indirizzo della Microsoft, alla vista, pur in ultima posizione, dell’inaccessibile formato lit di Microsoft Reader.
Ma cosa dobbiamo fare esattamente?
Vi prego! Non affollatevi alla rinfusa! Fate passare avanti i più timidi, e seguite tutti quel che diremo a proposito della scheda “txt”. Che non è la prima: Ma un po’ dicortesia, che diamine!
Impostazioni testo
Funzione |
Stato |
Mantieni interruzioni di riga |
Disattivato |
Aggiungi alla fine del file esistente |
Disattivato |
Usa carattere interruzione di pagina (n.12) come separatore di pagina |
Attivato |
Usa riga vuota come separatore di paragrafo |
Disattivato |
Pagina di codice |
Automatico (casella) |
Tipo pagina di codice |
Windows (casella) |
Questa è una configurazione possibile e varrà la pena commentarla un attimo.
La scheda è la prima che appare all’apertura della pagina.
Naturalmente chi decide di passare a Word il risultato della scansione, sa già lavorare un po’ con quel programma. Per cui non sarà necessario dilungarsi più che tanto. Ma prendiamo pure in esame alcune cose che appaiono nella scheda, forti di quanto abbiamo già detto nell’analisi della scheda precedente.
Campo |
Funzione |
Mantieni Layout |
I. Layout originale II. Colonne, tabelle, paragrafi e caratteri III. Tabelle paragrafi e caratteri |
Formato carta predefinito |
Casella combinata |
Aumenta formato carta se il contenuto non rientra |
Attivato IV.
|
Mantieni interruzioni di riga |
Non attivato |
Mantieni colore testo |
Non attivato |
Rimuovi trattini facoltativi |
Non attivato |
Evidenzia caratteri incerti |
Attivato |
Attiva compatibilità con Microsoft Word 95 |
Attivato |
Attiva finestra zoom in Microsoft 2003 |
Non attivato |
Mantieni immagini |
Attivato |
Qualità (immagini) |
Casella |
Formato (immagini) |
Casella |
Guardando la seconda colonna della tabella, avete già un’idea di come potreste cominciare a lavorare.
Per esempio, se state per scansionare un romanzo, potreste già decidere di disattivare la casella “mantieni immagini”. Non che un’immagine vi darebbe una gran noia in lettura. Però sarebbero bytes inutili che appesantirebbero il file.
Ma come comportarsi con la scelta del layout? O come comportarsi con i trattini facoltativi?
Qui una procedura senza se e senza ma, non esiste. Dipende dalle circostanze e ne riparleremo. Tuttavia, per capirci, quando scansioniamo un romanzo, magari acquistato in edizione economica, non è così necessario che se ne riproduca il layout. Né ci saranno di alcuna utilità le colonne, a meno che non abbiamo disattivato l’opzione “dividi pagine doppie”: Ché in tal caso la lettura per colonne sarebbe assolutamente da fare…
Ma se vogliamo un’idea completa di come è fatto quel determinato libro, e se ci stiamo lavorando, magari anche a distanza, assieme a un collega che usa la copia cartacea, poter disporre del layout originale non è cosa da disprezzare.
Analogo discorso può valere per i trattini facoltativi. Fr li mette ma noi ovviamente non li vediamo, non li tocchiamo e non li ascoltiamo. Ma loro sono lì. Ipotizziamo di voler cambiare, dall’interno di Word, il layout della pagina, ingrandendola o rimpicciolendola. Grazie alla presenza invisibile dei trattini facoltativi, l’eventuale sillabazione di fine riga andrà a posto da sola. E neanche questo è da disprezzare.
Notiamo infine che, se attiviamo l’interruzione di riga, essa non corrisponderà ad un marcatore di paragrafo ma a quella che Word stesso chiama “interruzione di riga manuale”, identificabile dal <menu/speciale> della finestra di dialogo <trova> e >sostituisci>. Il che significa che, se a un certo punto decidiamo di rimuovere con Word le interruzioni di riga[3], la struttura dei paragrafi non ne verrà a patire.
Qui ad interessarci davvero è solo la prima casella: quella che ci fa scegliere tra quattro possibilità.
Pigramente riporto dalla guida.
Solo immagine pagina |
Questa opzione salva l'immagine esatta della pagina. […] ma non è possibile eseguire ricerche all'interno […]. |
Solo testo e immagini |
Questa opzione salva soltanto il testo riconosciuto e le immagini associate. Le pagine PDF risultanti supporteranno le operazioni di ricerca e il file presenterà una dimensione ridotta. |
Testo sopra immagine pagina |
Questa opzione salva lo sfondo e le immagini del documento originale e sovrappone il testo a tali elementi. In genere i file PDF di questo tipo richiedono una quantità di spazio su disco superiore a quella richiesta dai file creati con Solo testo e immagini e supportano tutte le operazioni di ricerca. In alcuni casi il layout può variare leggermente rispetto all'originale, a causa del posizionamento del testo sopra l'immagine. |
Testo sotto immagine pagina |
Salva l'intera immagine della pagina come illustrazione e posiziona il testo riconosciuto sotto l'immagine, in modo 'invisibile'. Il risultato è un documento con un layout uguale al 100% all'originale in cui è possibile eseguire operazioni di ricerca. |
Scartiamo senz’altro la prima possibilità. Ma le altre tre?
A tutta prima potrebbero apparirci come indifferenti, visto che tutte contengono testo, sempre che ci siano ragioni specifiche per andare in pdf.
Ma ecco il punto. Le ragioni per andare in pdf potrebbero coincidere con la necessità di raccordarsi ad una comunità di utenti più vasta della nostra. Esigenze di lavoro e di studio, ecc.
In questi casi, saranno gli stessi nostri interlocutori a precisarci le esigenze in ballo. Per ora accontentiamoci di sapere che questa cosa esiste.
Tralascio deliberatamente le schede sugli altri formati. Chi lavora con fogli di calcolo o database, oppure chi ha dimestichezza con l’html è in grado di pervenire da solo alle scelte più adeguate alla bisogna.
Vai a Lezione 8
[1] Dal <menu/file/stampa> passiamo a un sottomenu, che ci consente di scegliere tra <immagine> e <testo>.
[2] Conviene dedicarsi ad impostare i formati già in sede di prima configurazione, per poter partire, nel lavoro, da una buona base. Tuttavia queste operazioni sono indispensabili solo dal momento in cui da Finereader esportiamo il lavoro in Word, in html, in txt, ecc. Quando comandiamo <menu/file/salva risultati, sottomenu/salva pagine>, rapidamente <control+s>, nella finestra di dialogo appare anche il pulsante “imposta formati”, lo stesso di quello del quale ci stiamo occupando ora. Da qui potremo correggere tutti i parametri che vorremo, che però saranno validi solo per il documento in corso di salvataggio.
[3] Nella finestra di Word, <menu/modifica/sostituisci>. Campo trova: ^l; campo sostituisci: vuoto o meglio spazio.