Forbedring af dårlige scanninger

Mange virksomheder var hurtige til at reagere og gå ind i den digitale tidsalder og skanne deres dokumentation for at have fordelene ved digitale versioner. Med nutidens øjne er mange af disse skannede dokumenter for ringe og man kan ofte ikke søge i dokumentet og dermed heller ikke søge det frem.

Af: Vibeke Bugge Kristiansen

Søgbarhed
Mange virksomheder var hurtige til at reagere og gå ind i den digitale tidsalder og skanne deres dokumentation for at have fordelene ved digitale versioner. Med nutidens øjne er mange af disse skannede dokumenter for ringe. Dokumentet kan være skannet med lav opløsning og teksten bliver derfor uskarp at læse, papiret kan have ligget lidt skævt eller der kan være kommet lidt skævt lys ind, som giver sorte skjolder osv. Og så kan man ofte ikke søge i dokumentet og dermed heller ikke søge det frem.

Mange ældre skanninger er et billede af teksten og ikke egentlig tekst og det giver sig selv, at man ikke kan søge i tekst, der ikke er der. TIFF er fx et billedformat, og der er ingen tekst. Dvs en skanning, som blev leveret som en TIFF-fil har ikke tekst. Nogle gamle skanninger er i PDF og i de tilfælde kan filen være søgbar, men er det ikke altid. Det er nemt at afgøre: Åbn filen og søg på et ord eller prøv at markere et ord med musen. Kan man det, er dokumentet søgbart.

OCR-teknologi (Optical Character Recognition) kan genkende tekst i et billede. Ved en OCR behandling oprettes en ny fil, som ser us som den oprindelige, men hvor teksten nu er tekst, og dermed søgbart. En ikke-søgbar PDF som er blevet OCR-behandlet resulterer altså i en søgbar PDF. Også TIFF og andre billedformater kan konverteres til en søgbar fil, typisk PDF.

OCR teknologierne var ganske elendige år tilbage og æ, ø og å mm gav gevaldige problemer, men der er nu teknologier, som selv på ret så ringe læsbare filer, skæve filer osv blive læst og genkendt med meget, meget høj præcision.

Læsbarhed
Når nu teksten i en ringe læsbar skanning er genkendt ved en OCR-behandling har man muligehden – hvis man vil – for at danne en ny fil med den genkendte tekst. Den tekst vil stå knivskarpt: Teksten er jo frisk og ny, står pænt vandret med sorte fine trykte bogstaver. Med andre ord: den bliver opfrisket og vi får som en sidegevinst løst vores læsbarhedsproblem.

Konklusion
Så står man med gamle gnidrede dokumenter – søgbare eller ej – så er OCR-behandling af filerne noget, der virkelig batter ifht brugbarheden. Det er enkelt, teknologien er nem at komme til, og det hele kan udføres automatiseret uden store sværdslag. Og måske har virksomheden allerede god OCR-teknologi i forbindelse med den moderne printer/skanner, og måske kan den tilgås ved at føde filer ind i den uden først at skanne. Det kunne man i hvert fald hos en kunde, vi arbejdede med. Da vi talte med printleverandøren kunne de gøre det muligt for kunden for få tusinde kroner. \\\