Forbedring af dårlige scanninger

Mange virksomheder var hurtige til at reagere og gå ind i den digitale tidsalder og skanne deres dokumentation for at have fordelene ved digitale versioner. Med nutidens øjne er mange af disse skannede dokumenter for ringe. Dokumentet kan være skannet med lav opløsning og teksten bliver derfor uskarp at læse, papiret kan have ligget lidt skævt eller der kan være kommet lidt skævt lys ind, som giver sorte skjolder osv. Og så kan man ofte ikke søge i dokumentet og dermed heller ikke søge det frem.

Søgbarhed

Mange ældre skanninger er et billede af teksten og ikke egentlig tekst og det giver sig selv, at man ikke kan søge i tekst, der ikke er der. TIFF er fx et billedformat, og der er ingen tekst. Dvs en skanning, som blev leveret som en TIFF-fil har ikke tekst. Nogle gamle skanninger er i PDF og i de tilfælde kan filen være søgbar, men er det ikke altid. Det er nemt at afgøre: Åbn filen og søg på et ord eller prøv at markere et ord med musen. Kan man det, er dokumentet søgbart.  

OCR-teknologi (Optical Character Recognition) kan genkende tekst i et billede. Ved en OCR behandling oprettes en ny fil, som ser us som den oprindelige, men hvor teksten nu er tekst, og dermed søgbart. En ikke-søgbar PDF som er blevet OCR-behandlet resulterer altså i en søgbar PDF. Også TIFF og andre billedformater kan konverteres til en søgbar fil,  typisk PDF. OCR teknologierne var ganske elendige år tilbage og æ, ø og å mm gav gevaldige problemer, men der er nu teknologier, som selv på ret så ringe læsbare filer, skæve filer osv blive læst og genkendt med meget, meget høj præcision.

Læsbarhed

Når nu teksten i en ringe læsbar skanning er genkendt ved en OCR-behandling og lægges ind i en ny fil, så sker der jo noget vældigt bekvemt: Teksten bliver jo frisk og ny, bliver lagt pænt vandret med sorte fine trykte bogstaver. Med andre ord: den bliver opfrisket og vi får som en sidegevinst løst vores læsbarhedsproblem.

Konklusion

Så står man med gamle gnidrede dokumenter – søgbare eller ej – så er OCR-behandling af filerne noget, der virkelig batter ifht brugbarheden. Det er enkelt, teknologien er nem at komme til, og det hele kan udføres automatiseret uden store sværdslag. Og måske har virksomheden allerede god OCR-teknologi i forbindelse med den moderne printer/skanner, og måske kan den tilgås ved at føde filer ind i den uden først at skanne. Det kunne man i hvert fald hos en kunde, vi arbejdede med. Da vi talte med printleverandøren kunne de gøre det muligt for kunden for – så vidt vi husker – omkring 3.000 kr…