Kunstig intelligens og dokumenter – brugbart? betalbart?

Der er meget hype omkring kunstig intelligens og sci-fi-agtige fortællinger om, hvordan det vil ændre vores liv og hverdag. Men hvor er vi lige nu med udviklingen i forhold til at kunne bruge kunstig intelligens til klassifikation af dokumenter – og kan det købes for rimelige penge?

Af: Vibeke Bugge Kristiansen

Hvad er kunstig intelligens?
Det korte svar er, at vi er så ganske bestemt i gang – og ja, noget er bestemt betaltbart. Det lidt længere svar følger herunder og der går en lille smule nørderi i den. Der kan sikkert udkæmpes mange kampe om at definere det helt skarpt, men grundlæggende handler det om at få maskiner til at arbejde eller opføre sig som mennesker. Her vælger vi at fortælle om to helt banebrydende elementer af kunstig intelligens, nemlig at en computer kan “lære” noget – machine learning – og at en computer kan “forstå” naturligt sprog – NLP.

Machine learning
Hvis vi skal pille det science fiction-agtige ud af machine learning, så handler det om, at en algoritme sikrer at parametre til beregning af de følgende værdier rettes ind efter de situationer og værdier, som maskinen hidtil har set, og således “lærer” maskinen.

Et banalt eksempel: Lad os sige, at vi vil forudsige huspriser udfra to oplysninger, nemlig afstand til Rådhuspladsen og antal kvadratmeter. Husprisberegningen vi forsøger at lave, er en parameter gange afstand til Rådhuspladsen plus en anden parameter gange antal kvadratmeter. Så føder vi vores maskine med 100 eksempler på afstand til Rådhuspladsen og antal kvadratmeter sammen med den rigtige pris. De to parametre tilpasses så af machine learning algoritmen til at give den overordnet set bedste mulige forudsigelse på de 100 kendte huspriser. Det kaldes at træne forudsigelsen. Derefter slipper vi forudsigelsen løs og begynder at forudsige priser på andre huse. Jo mere man føder tilbage til algoritmen, des bedre bliver den. Vores udgangspunkt for forudsigelsen – afstand fra Rådhuspladsen og antal kvadratmeter – er virkelig ikke noget sport godt grundlag at forudsige fra, og vores resultater vil blive derefter – kunstig intelligens er nemlig ikke en trylleformel, men “bare data” brugt virkelig kløgtigt. Men eksemplet illustrerer ideen i den her konstante feedback og tilpasning, som machine learning i sin aller simpleste for blot er.

Gruppering af dokumenter
Der findes mange andre typer af algoritmer en den helt banale ovenfor, man kan sætte ind i den her cyklus af konstant feedback og tilpasning. Det kunne passende være en algoritme, som grupperer noget, og hvor machine learning sørger for, at vores gruppering er optimal ifht det datagrundlag, vi har. Dette “noget”, som vi grupperer, kunne jo passende være dokumenter, og vi ønsker os at dokumenter som ligner hinanden kommer i samme bunke. Så bliver vi nødt til også at have en algoritme, som beskriver et dokument på en måde, så det kan sammenlignes og måles, “hvor ens” det er med et andet dokument. Den information bruges af grupperingsalgoritmen, der konstant forbedres af træningsalgoritmen.

Det her beskrevne findes. Der findes teknologier, som kigger på dokumenter, og (på hver sin unikke måde) beskriver dokumenter og sammenligner dem med hinanden, for så at lægge dem i bunker efter lighed. En variant af det er, at teknologier ud fra et dokument kan vise andre dokumenter, som “ligner”. Det er ikke svært af forestille sig, hvor nyttigt det er, når der skal ryddes op i stor bunker digitale dokumenter.

NLP – Natural language processing
Vi kan ud fra en gruppering (som udført ovenfor) fx vide, at det vi har her, er en kontrakt, men vi ved ikke hvilke to organisationer, den er imellem, og vi har ikke brugt en fast skabelon, så vi ved heller ikke hvor på siden, det står.

Så er det svært for en maskine at udlede det, men hvor ville det være rart hvis den kunne, for så havde vi de oplysninger vi havde brug for, for at arkivere kontrakten automatisk.

Natural Language Processing (NLP) går ud på ultimativt at kunne behandle store mængder naturligt talt (skrevet) sprog. En af de ting man med NLP kan er, at pege nogle bestemte elementer ud af en tekst. Med træning i det sprog, som dokumenterne er skrevet på, kan NLP algoritmer gætte meget kvalificeret på at det, der står her i sætningen nok er en organisation og dermed kan den komme med et kvalificeret bud på hvem kontrakten er mellem. Tilsvarende fx vedr. dato.

Hvis vi siger “Hun tog bussen til Rønne”, så kan de fleste mennesker godt gætte, at vi taler om at tage en bus til en by. Computeren kan – vha. NLP – også godt forstå af konteksten, at Rønne må være en geografisk lokation. Før vi havde NLP kunne computeren muligvis have slået op i en ordbog, hvis vi havde stillet en til dens rådighed, og fundet ordet Rønne, men ikke kunnet afgøre, om der var tale om byen eller et forfaldent hus (en rønne). Nu har vi ikke brug for noget at slå op i – konteksten alene afslører hvad det er for et begreb. NLP- funktion er helt central i klassifikationsløsninger og kan specifikt udnyttes til at ekstrahere oplysninger af teksten. Disse kan derpå bruges som metadata på dokumentet.

Dette findes også, og det er endda i den lave ende af kunstig intelligens teknologier så teknologier der udnytter NLP til ekstraktion er ikke så dyre. Der er nogle udfordringer med at tale dansk og have dokumenter på både dansk og engelsk i en bunke, som vi vel alle har, for NLP er sprogafhængig. Det burde ikke være ret svært at få teknologien til at detektere sproget og så fortolke på det skrevne sprog, men udvikling løber forrest i den engelsktalende lande, og det her er ikke altid medtænkt.

Domæneviden
Hvis man i sin gruppering og klassifikation af dokumenter er i stand til at medtage domæneviden, så bliver det endnu stærkere. Her kunne det være, at maskinen kender til lægemidler og er i stand til at se, at her omtales et lægemiddel eller en bivirkning og medtage den oplysning i sin gruppering eller i sin ekstraktion af data. Hvis det blot er et par specifikke ting som her, kan det være overkommeligt (også prismæssigt) at opnå. Men der skal ikke så frygteligt meget mere kompleksitet, før det stikker lidt af.

Der er et kæmpestort potentiale i dette. Nogle af de løsninger, som kommer frem, er intet mindre end imponerende. Men vi er ude i en meget stor træningsopgave og teknologier i den meget tunge ende med deep learning algoritmer, som vi helt springer over denne gang. Men tiden arbejder for os, for mere og mere bliver tilgængeligt.

Konklusion
Med artiklen her vil vi gerne sige, at det ikke er helt urealistisk, at få fat i de her nyere teknologier for danske budgetter, og at de findes i mange størrelser og gørelser. Afhængig af, hvad man vil opnå, kan nogle af de lidt mindre avancerede af dem være en kæmpestor hjælp. Vi vil også gerne prøve at tage lidt af mystikken af og tilvejebringe en smule baggrund for kritisk stillingtagen til dem. Og måske også – ærlig talt – dele lidt af fascinationen og forventningen til, at dette kommer til at gøre en kæmpe forskel for vores fag. \\\