av gust » ons 21.10.2009 21:12
Jeg har scannet et 100 siders maskinskrevet dokument og bruker tesseract-ocr til å lage en tekstfil.
Installerte Tesseract via Synaptic i Ubuntu 9.04, men da fulgte det bare med tyske språkfiler (deu). Dette gjør at æ,ø,å ikke tolkes rett, det hadde vært overkommelig dersom forslaget i tesseract hadde vært konsisent, men det er det ikke. æ kommer i mange varianter - tildels de samme som ø og å - så "Søk og erstatt" tar omtrent like lang tid som å gjøre endringen manuelt.
Har prøvd å søke på nettet etter norsk evt. dansk språkfil uten å lykkes (forøvrig ser det ut til at Google har overtatt utviklingen av tesseract). Er det noen på dette forum som har vært borti problemstillingen ?