Introduksjon

Innhold

  1. Motivasjon
  2. Hva er maskinoversettelse?
  3. Historisk oversikt
  4. Hvordan fungerer maskinoversettelse?
  5. Kjente problemområder
  6. Forskell på fiksjon og faksjon; datalingivstens perspektiv
  7. Utvalgte arbeider på maskinoversettelse av litteraur

Motivasjon

"Computational Linguistics" er tidsriktig tverrfaglig

Hvorfor bedrive maskinoversettelse?

  • AI-komplett problem
  • Del av store forskningsspørsmål som:
    • Hva er språk?
    • Hvordan behandler hjernen språk?
    • Hvordan representere språk?
    • Er kunstig intelligens mulig?
    • Hvordan skrive effektive/brukervennlige programmer?

Maskinoversettelse definert

Garvin (1956):

“The transference of meaning from one patterned set of symbols occurring in a given culture ... into another set of patterned symbols in another culture.”

Bente Mægård (1999):

Any use of computers in going from one language to another

FA HQ GP MT

Restriksjoner - FAHQ(GP)MT

  • Fully-Automated
  • High-Quality
  • General Purpose
  • Machine Translation

FA - Helautomatisert

HQ - Høykvalitet

GP - Generelt formål

Source: visual.ly

Er FAHQ(GP)MT mulig?

  • Bar-Hillel (1960): nei
  • Martin Kay (1980): nei, men "translator's amanuensis"
  • Melby (1980): nei, men mulig for spesifikke domener

Source: Wikicommons.

Historie

Hovedtyper av maskinoversettelse

Regelbasert

Eksempel-basert maskinoversettelse

  • Matching
  • Alignment (samstilling)
  • Recombination (kombinasjon)

Example-based Machine Translation

(Mohammad Irfan, 2017)

Statistisk maskinoversettelse

Nevrale Nettverk

Nevral maskinoversettelse (NMT)

Evaluering av maskinoversettelse

  • Har vært meget kontroversielt blant forskere.
  • Hva korrelerer best med menneskelig evaluering?
  • BLEU (Papinieni et al., 2002) er et toneangivende system.

Alternativer til BLEU

  • METEOR (Denkowski og Lavie, 2011, 2015) - tar syntaks og omskrivninger med i betraktning.
  • NIST (Doddington, 2002) - mindre frekvente n-gram tilskrives høyere vekt.
  • Word Error Rate (ordfeilrate).
  • Translation Edit Rate (endringsrate - hvor mange redigering er nødvendig for å få riktig setning).
  • Manuell evaluering.

Kjente problemer for maskinoversettelse

Anafora

  • Hvis babyen ikke trives med råmelken, kok den (Ruslan Mitkov, 2014).
  • Myndighetene ville ikke gi demonstrantene tillatelse fordi de fryktet vold.
  • Forfattaren greia ut om boka. Veka etter las eg henne.

  • Se, e.g., Suthanker, et al. (2018).

Ordvalg i målspråk (leksikale valg)

  • The temperature rose.
  • The temperature fell.
  • Kalles "Word Sense Disambiguation", finnes veldig mye arbeid på dette. (Par og Saha, 2015).

Syntaktisk flertydighet

  • Jeg så mannen med kikkerten under broen ved soveposen i transen.

Semantisk flertydighet

  • Det er tanken som teller.

Pragmatisk flertydighet

  • Her var det kaldt!

Kollokasjoner

  • Følge regelverk.
  • Stille til ansvar.
  • Se. e.g, Seretan (2011).

Metaforer

  • News travels fast.

  • En kjent metode for er å lage parafraser og bruke dem i maskinoversettelse (Shutova, 2010),

Idiomer

  • Han har ikke gjort en flue fortred.
  • "Ikke øl i en sådan stund, rekk meg Løiten" (Nils Arne Eggen, 1996).

Ironi

  • feel so blessed to get ocular migraines
  • van Hee (2017)

Strukturelle forskjeller på fiksjon og faksjon

  • Fordi litteratur er ordets kunst er oppgaven per definisjon den vanskligste (Chapman 1973).
  • Slocum (1985) avviste idéen. Relativt lite har vært gjort.
  • Korpuslingvistiske mål kan brukes, e.g. antall unike ord (n-gram), setningslengde, kollokasjoner.

Referentiell binding (Referential Cohesion)

  • Setninger bindes sammen av meningsinnhold. Samme referent gjentas flere ganger.

  • Litteratur har høyere grad av referentiell binding enn nyhetstekst (Voigt og Jurafsky, 2012)

Arbeider på maskinversettelse av litteratur

The (Un)faithful Machine Translator (Jones and Irvine, 2013)

  • Kvalitativ studie av oversettelse av litteratur (Camus, Bonnefoy).
  • SMT kan identifisere problemområder
  • Fri vs. trofast oversettelse / domestisert vs. fremmed

Etter-redigering (post-editering)

  • Maskinoversettelse fulgt av post-editering av ikke-profesjonelle (Besacier and Schwartz, 2015).
  • Lavere kvalitet, men kan være et alternativ for lavbudsjettoversettelse.

Spesialtilpasset system for nære språk

  • I en oversettelse av Ruiz Zafón ble 20% av setningene helt like mellom maskinoversettelse (SMT) og profesjonelle helt like (Toral og Way, 2015).

Translatørstudier (Toral et al. 2018)

  • Sammenlikning av SMT og NMT på oversettelse av 'Warbreaker' av Brandon Sanderson (1996) (CC).
  • Typer oversttelse: H1 ("from scratch"), MT1 (etterredigering av SMT), og MT2 (ereg. av NMT).
  • Kapittel 1 består av 3734 ord over 330 setninger.
  • Teksten delt opp i 33 oppgaver for hver oversetter, hvor disse kjenner faktorene, men hvem som gjør hva ble randomisert. Totalt 11 jobber for hver type.
  • Translatørverktøyet PET ble brukt til å registrere type, setningslengde, tid, tastetrykk, og pauser.

Temporal dimensjon

  • RQ1: Tar oversettelse kortere tid ved etterredigering?

Teknisk dimensjon

  • RQ2: Fører etterredigering til færre tastetrykk?

Kognitiv dimensjon

  • RQ3: Medfører etterredigering mindre kognitiv anstrengelse?
  • Målt med å telle pauser. Ja, færre pauser per produserte ord.

Domain Adaptation

Definisjon

  • Å tilpasse et generelt maskinoversettelsesssytem til et spesifikt tekstdomene (ofte et emne, men kan også være stilistisk)

Fremtiden?!

  • Post-editing
  • Enormt publikasjonstrykk
  • Ikke undervurder AI (AlphaGo, DeepMind, etc)
  • Behov for veldig mye oversettelse
  • Bruk det som et verktøy
  • Domain Adaptation

Spørsmål? Kommentarer?

  • Chapman (1973): Linguistics and Literature
  • Slocum (1985): A Survey of Machine Translation: its History, Current Status, and Future
  • Maegaard (1999): MLIM—Multilingual Information Management: Current Levels and Future Abilities
  • Papinieni et al. (2002): BLEU: a Method for Automatic Evaluation of Machine Translation
  • Seretan (2011): Syntax-Based Collocation Extraction
  • Voigt and Jurafsky (2012): Towards a Literary Machine Translation: The Role of Referential Cohesion
  • Shutova (2011): Computational Approaches to Figurative Language.
  • Jones and Irvine (2012): The (Un)faithful Machine Translator
  • Mitkov (2014): Anaphora Resolution
  • Besacier and Schwartz (2015): Automated translation of a literary work : a pilot study.
  • Toral and Way (2015): Translating literary text between related languages using SMT.
  • van Hee (2017): Can Machines Sense Irony?
  • Toral et al. (2018): Post-editing Effort of a Novel With Statistical and Neural Machine Translation.