Spring til indhold

Dokumentformater og teknologi til konvertering

    Dokumentformater og teknologi til konvertering

    Kender du det? Gamle oplysninger i gamle ulæselige formater. Problemer med at den nyeste software ikke fungerer godt med de gamle dokumenter. Bøvl med at modtager af dokumenterne ikke kan læse dem – eller ser noget lidt andet osv. Man kan faktisk gøre noget ved det – automatisk.

    Af: Vibeke Bugge Kristiansen

    Formater – en del af arkivets vedligehold
    Først og fremmest skal det slås fast, at det er grundlæggende vigtigt, at opbevarede dokumenter, sikres på en måde, så de kan læses i den fremtid, som de gemmes til. Det handler om at vælge et passende format af dokumentet til opbevaring, og det er en central – omend ofte overset – opgave ved vedligehold af arkiver. Der findes anbefalinger, standarder og best practices for det, som vi sikkert kommer ind på i en anden artikel en anden dag, men det er i hvert fald et emne på flere af vore kurser. Den traditionelle og mest almindelige strategi er at konvertere alle dokumenter til fx en eller anden udgave af PDF, fx PDF/a, og de data, som ikke fungerer i det format så i et specifikt andet. Så kan man til enhver tid læse dokumentet, men ikke helt så let arbejde videre med det. 

    Formater – afgørende for anvendeligheden
    En anden vinkel som er meget vigtig er, dokumentets anvendelighed i hverdagen. Med dokumenter som løbende skal versioneres er det rigtigt rart at have dokumentet i originalformatet til rådighed – ofte er det jo Word – så man kan skrive videre, bruge track changes og alt det andet smarte. Til det, er der en anden anvendelse af konverteringsteknologier, som kan hjælpe. Den går ud på løbende at opgradere selve dokumentet, når softwaren opgraderes. Fx hvis man udruller Word 2016 i virksomheden, så opgraderer man også lige alle Worddokumenters format fra 2013 til 2016, så man altid er på den seneste version. Der er nogle vigtige overvejelser, man skal gøre sig hvis man vælger den strategi, for det bevarer ikke dokumentets autenticitet, men det giver til gengæld maksimal anvendelighed. 

    Bunken med de gamle dokumenter
    Hvad så hvis man har en fortid… en lidt tvivlsom fortid – hvad formater angår? Gamle dokumenter som har formatmæssige skavanker kan i praksis være uanvendelige, men der er mange ting, som kan udbedres. Her et par eksempler:

    Søgbarhed
    Nogle dokumentformater som “de gamle udgaver” af PDF og billedformater som TIFF har ikke i tekst-lag iformatet. Dvs at der er ingen tekst at søge i og dokumentet er derfor ikke søgbart.

    Teksten skal skrabes af billedet og fortolkses som tekst og derefter skal dokumentet gemmes i et format som kan rumme et tekstlag. Derpå vi dokumentet være søgbart. Den process hedder OCR – optical character recognition. Det er der mange teknologier – herunder de fleste konverteringsteknologier –  der kan og nogle kan endda gøre det fremragende

    Nusset, skævt og dårlig læsbarhed
    Typisk er dokumenter, som falder unde denne overskrift en gammel fax eller skanning. Hvis man OCR fortolker som beskrevet ovenfor, så har han jo helt frisk tekst, og når det fortolkede så gemmes i et nyt format, står det jo helt skarpt igen. Så forudsat at OCR teknologien kan læse det skæve og nussede så kan det friske det op. Det er langt fra alle OCR teknolgier som er i stand til at kapere skæve linjer – det kræver at man ser sig lidt for, når man vælger.

    Udveksling af dokumenter
    Det er blevet almindelig kutyme at dokumenter udveksles i et PDF-format. PDF-formatet og de forskellige versioner af det med hver sin fordel, kan man også skrive en hel artikel om. Men her her begrænser vi os til at sige at det er smart, fordi alle kan læse et PDF-dokument, mens det at læse meget andet kræver at man ejer det software som dokumentet er skrevet i, og fordi det bevarer den visuelle oplevelse af dokumentet (med et lille forbehold) fra maskine til maskine. 

    Billeder, lyd og video
    Nogle gange kan konvertering forstås og bruges lidt kreativt. En af de mere “skæve” anvendelser af denne type af teknologi er, at transskribere lydfiler eller lydsiden af en video til tekst. Det kan – hvis man gemmer den transskriberede tekst sammen med sin lydfil eller video gøre, at man kan søge i den talte – nu transskriberede – tekst. 

    Formater og konvertering er værd at overveje
    Målet med denne artikel var at gøre opmærksom på, at en bevidst anvendelse af formater og teknologier til at konvertering er et rigtig stærkt værktøj og kan løse mange praktiske problemstillinger, selvom det lyder af meget lidt. \\\