Dokumentformater og teknologi til konvertering

Transfer of data. File format. The hand with the phone. Send documents from your smartphone to the laptop.
Kender du det?
  • Gamle oplysninger i gamle ulæselige formater
  • Skannede dokumenter, som ikke er søgbare, nussede, skæve og delvist ulæselige
  • Problemer med at den nyeste software ikke fungerer godt med de gamle dokumenter
  • Bøvl med at modtager af dokumenterne ikke kan læse dem - eller ser noget lidt andet
  • osv
Man kan faktisk gøre noget  ved det - automatisk. Der findes teknologier, som laver konvertering fra et format til et andet (på engelsk: "rendering") - og de kan afhjælpe disse problemer mere eller mindre avanceret.

Formater - en del af arkivets vedligehold

Først og fremmest skal det slås fast, at det er grundlæggende vigtigt, at opbevarede dokumenter, sikres på en måde, så de kan læses i den fremtid, som de gemmes til. Det handler om at vælge et passende format af dokumentet til opbevaring, og det er en central – omend ofte overset – opgave ved vedligehold af arkiver. Der findes anbefalinger, standarder og best practices for det, som vi sikkert kommer ind på i en anden artikel en anden dag, men det er i hvert fald et emne på flere af vore kurser. Den traditionelle og mest almindelige strategi er at konvertere alle dokumenter til fx en eller anden udgave af PDF, fx PDF/a, og de data, som ikke fungerer i det format så i et specifikt andet. Så kan man til enhver tid læse dokumentet, men ikke helt så let arbejde videre med det. 

Formater - afgørende for anvendeligheden

En anden vinkel som er meget vigtig er, dokumentets anvendelighed i hverdagen. Med dokumenter som løbende skal versioneres er det rigtigt rart at have dokumentet i originalformatet til rådighed – ofte er det jo Word – så man kan skrive videre, bruge track changes og alt det andet smarte. Til det, er der en anden anvendelse af konverteringsteknologier, som kan hjælpe. Den går ud på løbende at opgradere selve dokumentet, når softwaren opgraderes. Fx hvis man udruller Word 2016 i virksomheden, så opgraderer man også lige alle Worddokumenters format fra 2013 til 2016, så man altid er på den seneste version. Der er nogle vigtige overvejelser, man skal gøre sig hvis man vælger den strategi, for det bevarer ikke dokumentets autenticitet, men det giver til gengæld maksimal anvendelighed. 

Bunken med de gamle dokumenter

Hvad så hvis man har en fortid… en lidt tvivlsom fortid – hvad formater angår? Gamle dokumenter som har formatmæssige skavanker kan i praksis være uanvendelige, men der er mange ting, som kan udbedres. Her et par eksempler:

Søgbarhed

Nogle dokumentformater som “de gamle udgaver” af PDF og billedformater som TIFF har ikke i tekst-lag i formatet. Dvs at der er ingen tekst at søge i og dokumentet er derfor ikke søgbart. Teksten skal skrabes af billedet og fortolkses som tekst og derefter skal dokumentet gemmes i et format som kan rumme et tekstlag. Derpå vi dokumentet være søgbart. Den process hedder OCR – optical character recognition. Det er der mange teknologier – herunder de fleste konverteringsteknologier –  der kan og nogle kan endda gøre det fremragende.  

Nusset, skævt og dårlig læsbarhed

Typisk er dokumenter, som falder unde denne overskrift en gammel fax eller skanning. Hvis man OCR fortolker som beskrevet ovenfor, så har han jo helt frisk tekst, og når det fortolkede så gemmes i et nyt format, står det jo helt skarpt igen. Så forudsat at OCR teknologien kan læse det skæve og nussede så kan det friske det op. Det er langt fra alle OCR teknolgier som er i stand til at kapere skæve linjer – det kræver at man ser sig lidt for, når man vælger.

Udveksling af dokumenter

Det er blevet almindelig kutyme at dokumenter udveksles i et PDF-format. PDF-formatet og de forskellige versioner af det med hver sin fordel, kan man også skrive en hel artikel om. Men her her begrænser vi os til at sige at det er smart, fordi alle kan læse et PDF-dokument, mens det at læse meget andet kræver at man ejer det software som dokumentet er skrevet i, og fordi det bevarer den visuelle oplevelse af dokumentet (med et lille forbehold) fra maskine til maskine.  

Billeder, lyd og video

Nogle gange kan konvertering forstås og bruges lidt kreativt. En af de mere “skæve” anvendelser af denne type af teknologi er, at transskribere lydfiler eller lydsiden af en video til tekst. Det kan – hvis man gemmer den transskriberede tekst sammen med sin lydfil eller video gøre, at man kan søge i den talte – nu transskriberede – tekst. 

Formater og konvertering er værd at overveje

Målet med denne artikel var at gøre opmærksom på, at en bevidst anvendelse af formater og teknologier til at konvertering er et rigtig stærkt værktøj og kan løse mange praktiske problemstillinger, selvom det lyder af meget lidt.