Oppslag i Norsk ordbank via Linux

Korleis bøyer me ordet «forum» på norsk? Heiter det «har sloss» eller «har slåss»? Er «fan» eit hankjønnsord eller eit hokjønnsord, eller er det kanskje valfritt? Bøying på norsk er ikkje alltid like lett! Heldigvis har me Bokmålsordboka og Nynorskordboka på nett, men oppføringane der er gjerne ikkje fullstendige nok til å vera til hjelp, med mindre me kjenner til alle forkortingane som vert brukte, og til alle dei ulike bøyingsreglane, for eksempel for samsvarsbøying av verb.

Løysinga er eit lite program som heiter Ordbanken, som gjev tilgang til orddatabasen til Norsk ordbank via kommandolinja i Linux og liknande system. Med dette er fullstendige bøyingar av alle orda på bokmål og nynorsk berre nokre tastetrykk unna. Syntaksen er veldig enkel:
ordbanken [VAL] grunnord [KRITERIUM1] [KRITERIUM2] …

Her er nokre brukseksempel. Merk at oppslagsordet må vera fullstendig, mens det held å bruka starten av eventuelle kodar.

Bøying av ordet «å lese»:
ordbanken lese

Berre perfektum partisipp-former:
ordbanken lese perf

Ordet «hoppe», men berre som substantiv:
ordbanken hoppe subst

Bøying av «å finnes» på bokmål:
ordbanken --sprak=nb finnes

Fleirtal av substantivet «hoppe» på bokmål:
ordbanken -snb hoppe su fl

Ordet «annan» på nynorsk, med fargekoding (som er standard):
ordbanken --sprak=nn --fargekod annan

Same, men no utan fargekoding, og utan klammeformer:
ordbanken --sprak=nn --ikkje-fargekod --ikkje-klammer annan

Same som over, berre mindre å skriva:
ordbanken -snn -FK annan

Lagra resultatet som HTML i fila «annan.html»:
ordbanken --html annan > annan.html

Ordbanken støttar òg autofullføring via bash
completion. Sjå artikkelen på bloggen min for nokre eksempel, samt meir informasjon om andre funksjonar som er støtta.

Programmet brukar orddabasen Norsk ordbank, som vert utvikla og vedlikehalden av Universitet i Oslo. Bokmålsordboka og Nynorskordboka på nett brukar for øvrig den same databasen.

Programmet er heilt gratis og fri programvare, og er tilgjengelig under den same lisensen som Norsk ordbank, GNU GPL versjon 3 eller seinare. Du kan lasta det ned frå den offisielle heimesida, der du òg kan melda deg på e-postlista vår om du er spesielt interessert i prosjektet, og eventuelt også følgja utviklinga via SVN.

Meldingar om feil og manglar er svært velkomne. Skriv enten til e-postlista, eller direkte til Karl Ove Hufthammer <karl@huftis.org>.

Valg for kommentarvisning

Velg din foretrukket måte å vise kommentarer på og klikk på "Lagre innstillinger" for å aktivere endringene.

Japps73

Litt om den offisielle sida
Kven i alle dagar er det som lid av eit slikt mentalt nivå at dei lagar ei engelskspråkleg side for å distribuere eit norsk program for å ha kontakt med ei norsk ordbok kvar 99,999999999999999999 prosent av brukarane er meir enn middels bra i norsk og resten av brukarane óg i stand til å forstå det?

Er dette eit bevis på det som eg har høyrt fleire gonger frå folk eg kjenner i andre land at Norge er eit land med 4 millionar individualistar som samstundes trur alt dreier seg om dét landet?

litt om orbanken
Eg har nett no prøvd 500 ord og ingen av dei var i ordlista. Dei var alle samansette ord dels bokmål og dels nynorsk og har kommi fram til konklusjonen at det nok ein gang er tale om ei ordbok som berre inneheld nokre få prosent av språket og me har fått nok ein syndebukk til særskrivingsgalskapssituasjonen som herjar fritt i landet.

ceetux

Dette ser ut til å vere eit interessant prosjekt! Satsar på å få testa det om ikkje så lenge når eg får litt betre tid. Det er sjeldan eg gidd å finne fram til ei nettside berre for å sjekke eit enkelt ord eller to. Med eit alternativ som dette tek eg meg kanskje bryet med å sjekke rettskrivinga litt oftare.

Til kommentaren ovanfor: Du kommenterer jo her i bunn og grunn berre ordlista frå UiO, og den har allereie vore tilgjengeleg i lang tid. Kva synes du om sjølve ordbanken -- konseptet og utføringa? Når det gjeld orddeling så er det vel ikkje nokon "feil" her som ikkje stammar frå kjelda (ordlista frå UiO)? Du får heller retta din vrede mot dei som står for utvalet av oppslagsord. Mitt tips til dei som slit med orddeling/særskriving: Sei ordet/uttrykket med overdriven stor pause mellom komponentane du er usikker på. Høyres det dumt eller unaturleg ut så sløyf mellomrommet! (Og er du i tvil så sløyf for din gamle norsklærar si skyld mellomrommet då også.)

Har som nevnt ikkje fått prøvd ordbanken, men eg kan tenke meg ein ting som eg vil sjå på som ei ulempe med denne løysinga. Nemleg at ordbank oppslaga vil blande seg med resten av kommandolinje historikken. Eg ville helst hatt desse separat. Kanskje lage ein ekstra brukar kalt "ordbanken" med minimale privilegier som du loggar inn med i eit terminal vindu? Eller fins det ei meir elegant løysing?

terjejh

Jeg har installert og prøvd flere av de opplistede eksemplene, og det fungerer. Syntaksen må læres og innarbeides, både for å kunne søke og filtrere effektivt og for å forstå svarene man får.

Kanskje ennå litt tregt, men oppfattet at det arbeides med å gjøre det raskere. Slik det er nå, er man avhengig av å bruke en terminal. Det jeg nå lurer på, er om programmet også kan få et enkelt grafisk brukergrensesnitt med litt hjelpeknapper for vanlig bruk. Eventuelt bli til en plugin som kan gjøres tilgjengelig i andre skriveprogrammer? OpenOffice har allerede ordbok/rettskrivingshjelp, men hva med andre skriveprogrammer, editorer (eks. gedit) og epost (eks. Mozilla baserte)?

Veldig bra tiltak og lovende program som kan bidra til å bedre rettskrivingen. Alle og enhver vil ha behov for å bli bedre, ikke minst her på forumet hvor skrivefeil og slurv florerer. Engelsk orientering kan derfor være nyttig både for brukere som ikke kan norsk både innenlands og utenlands. Brukere i andre land vil se at det er mulig å få det til.

huftis

Eg har valt å ha prosjektet på Savannah, som gjev oss blant anna e-postlister, nedlastingsområde og SVN-tilgang, men som (førebels) berre er tilgjengelig på engelsk. Dette er grunnen til at «heimesida» er på engelsk. Sjølve programmet og all dokumentasjonen er på norsk.

Om det andre: Dette er ei ordliste der oppslagsorda er grunnord, akkurat som for alle andre trykte og elektroniske ordbøker og ordlister. Du finn dermed ikkje ord som «førskulelærarassistentopplæring» eller «særskrivingsgalskapssituasjonen». Men viss du lurer på bøyinga av desse orda, er det naturlig nok berre å slå opp på oppslagsorda «opplæring» og «situasjon».

Ordbanken inneheld rett nok nokre av dei vanligaste samansette ord (som «førskule», og til og med «førskulelærar»), men viss han skulle hatt alle norske orda, måtte han tatt uendelig stor plass. Ordbanken er ikkje meint å fungera som ein stavekontroll, men som hjelp til bøying av ord på norsk.

For øvrig arbeidar eg òg litt med ein fri stavekontroll for nynorsk, og denne vil handtera samansette ord som ikkje finst i Norsk ordbank. Men det er eit heilt anna prosjekt.

huftis

ceetux, det finst ei løysing på problemet med kommandolinjeloggen. Berre køyr

export HISTIGNORE='ordbanken*'

(legg det eventuelt inn i ~/.bashrc)

No vert ikkje oppslag på ordbanken lagde inn i loggen, og vert verken synlige med kommandoen history eller ved navigering med piltastane.

huftis

terjejh, eg har no endra metoden brukt til ordbokoppslag til ein raskare ein, som du førebels berre finn i SVN-versjonen. Oppslaga går no rundt 10 gongar so raskt. På mi 5–6 år gamle maskin dukkar dei opp med éin gong (før tok det opptil eit eit halvt sekund).

Grunnen til at oppslaga gjekk tregt før, er at ordlistefilene inneheld rundt 1 million fullformer, med bøyingsinformasjon for kvar av desse. Dette går tregt å slå opp i. Den nye løysinga brukar verktøyet «look» (viss det er installert) til å utføra eit binærsøk, slik at ein i verste fall berre treng rundt log₂(10⁶) ≈ 20 oppslag mot 1 million før. Men ein må framleis lesa frå den store fila på harddisken fleire plassar, og utføra nokre av dei same operasjonane, slik at ting totalt ikkje går 50 tusen gongar so raskt som før (men likevel mykje raskare).

huftis

terjejh, eg har ingen planar om å laga eit grafisk grensesnitt, men eg er einig i at det hadde vore fint å hatt, so viss andre er interessert i å utvikla noko sånt …

For øvrig har KDE 4 ein «plasmoide» som kan visa resultatet av kommandoar i ei rute (eg hugsar ikkje namnet nett no, og fann han ikkje i plasmoideoversikta – ligg han kanskje i extragear?). Denne kan kanskje vera OK for folk som ikkje likar kommandolinja?

Elles har eg forsiktige planar om (kanskje på lang sikt) å laga ein nettversjon. Dette vil i praksis vera ei nettside som viser resultatet av ordbanken --html ord når du tastar inn ordet i eit skjema, eller går til ei adresse som inneheld ordet.

ltg

Jeg lastet ned svn utgaven. Den virker men jeg får feil som dette:
$ ordbanken lese
[: 271: 0: unexpected operator
lese lesne adj bu eint
........
Jeg tenker på den første linja "unexpected operator"

Ellers er dette helt glimmrende og flott at det blir tilgjengelig gjort.

huftis

ltg, tippar du brukar *buntu, og dermed «dash» i staden for «bash». Det hadde vist snike seg inn ein liten «bashisme». Eg har no retta det, slik at programmet skal fungera på alle POSIX-kompatible skal. (Men bash-brukarar har den store fordelen at programmet støttar bash-basert autofullføring, noko dash-brukarar ikkje får nytte av.)

Japps73

Til ceetux (og eventuelt andre som vart irriterte på meg) beklager at eg lot meg rive med.

Eg har no sett litt meir på prosjektet og synes det er heilt i orden og kan vera til god hjelp. Eg har merka at det i ein del tilfelle er enklare å kontrollere bøyingsformer enn andre løysningar som tidlegare har vore tilgjengelege.

Det vart lengre oppe lufta muligheitar for grafisk brukargrensesnitt; om noko slik kan komme for ein dag vil det gjere prosjektet ei stor tjeneste og det vil bli lettare å få folk til å bruka det.

Og så meiar eg fortsatt at sida burde vera tilgjengelig på norsk; ein form for vandalisme av språket som er like stort som særskriving er engelskinfisering. Men som sagt; prosjektet er ellers bra!

(PS til nynorskfanatikarar ein del ord som bl.a. beklager, muligheit, tjeneste, ellers osv. brukar eg konsekvent av dialektgrunnar.)

QtanJ

Hei

Personleg ser eg ikkje noko anna behov for eit slikt program enn å ha ordbok tilgjengeleg på maskina når internett ikkje er til stades. Likevel fann eg ut at eg ville lage ein .ebuild for dette programmet for å lære meg å gjera dette for enkle program. Då eg gjorde dette fann eg ut at eg savna støtte for DESTDIR i Makefile.

Det er klart at eg kan patche før eg installerer, men eg tenkte å dele patchene her. Sidan du har forandra ein del på Makefile i svn tenkte eg du ville ha for siste svn versjon. Sidan code-funksjonen ikkje er snill med patcher, og kode i forhold til kva som skal vera på ei og same linje sende eg patchen, og heile Makefile til epostlisten.

Dersom du ikkje vil ha støtte for DESTDIR forstår eg det og heller patcher Makefile i src_unpack{} eller src_prepare{} i ebuild-filen.

huftis

Til orientering har eg no lagt ut ein ny versjon av ordbank­programvaren, samt eit blogg­innlegg med over­sikt over dei viktigaste endringane. Kortversjon: Oppslaga går no mykje raskare, og programmet er blitt POSIX-kompatibelt.

  • Skriv ut artikkel
  • Abonner med RSS

Siste kommentarer