Tesseract OCR - norsk språkfil ?

av **gust** » ons 21.10.2009 21:12

Jeg har scannet et 100 siders maskinskrevet dokument og bruker tesseract-ocr til å lage en tekstfil.
Installerte Tesseract via Synaptic i Ubuntu 9.04, men da fulgte det bare med tyske språkfiler (deu). Dette gjør at æ,ø,å ikke tolkes rett, det hadde vært overkommelig dersom forslaget i tesseract hadde vært konsisent, men det er det ikke. æ kommer i mange varianter - tildels de samme som ø og å - så "Søk og erstatt" tar omtrent like lang tid som å gjøre endringen manuelt.

Har prøvd å søke på nettet etter norsk evt. dansk språkfil uten å lykkes (forøvrig ser det ut til at Google har overtatt utviklingen av tesseract). Er det noen på dette forum som har vært borti problemstillingen ?

av TO » ons 21.10.2009 22:05

Ja, brukte Tesseract OCR for noe tilsvarende på norsk i sommer. Jeg fant heller ikke noen god løsning siden den ikke var ferdigtrent. Ser at de beskriver "trene" prosedyren ganske godt nå: http://code.google.com/p/tesseract-ocr/ ... gTesseract .

Uansett, for mitt formål så ryddet jeg først opp i allverdens snåle tegn, erstattet de med _ tror jeg. Jeg brukte deretter stavekontrollen (ispell i emacs) til å hjelpe meg gjennom. Det tok tid, men for mitt formål var det vel hakket bedre enn å skrive manuellt.

av **gust** » tor 22.10.2009 9:48

Takk for tipset, - hadde håpet noen andre hadde gjort jobben med å lære opp Tesseract til å skrive norsk !! (ser ut til å være litt for omfattende for min del).

Rettskrivingen i dokumentet hører til på 1800-tallet , så stavekontroll nytter ikke, jeg måtte bare få bokstavene rett. (eks stærke ble til stmrke - kan ikke godt skifte ut "m" med "æ" i hele dokumentet)
Men igjen, takk for tilbakemeldingen.

av TO » tor 22.10.2009 11:17

>hadde håpet noen andre hadde gjort jobben med å lære opp Tesseract
Fant en melding på utviklerstedet om at man bør vente med slikt til etter versjon 3.

Verktøy

Siste fra forum

Tesseract OCR - norsk språkfil ?

Tesseract OCR - norsk språkfil ?

Re: Tesseract OCR - norsk språkfil ?

Re: Tesseract OCR - norsk språkfil ?

Re: Tesseract OCR - norsk språkfil ?

Hvem er i Forumene