PROST-seminar onsdag 12/11 - Harald Martens, NTNU

Eva-Katrine Hilmen (ekh@asker.chembio.ntnu.no)
29 Oct 1997 15:14:39 -0000

Velkommen til PROST-seminar

-------------------------------------------------------------------
Tid: Onsdag 12. november kl. 14.30-15.30
Sted: Lunsjrommet ved NTNU - Kjemiteknikk,
Gloeshaugen, kjemiblokk 5, 2.etg

Foredragsholder: Harald Martens
Prof.II, Kjemometri, Institutt for fysikalsk kjemi,NTNU
Gjesteprof. Kjemometri, Institutt for bioteknologi, DTU, Lyngby
Forskningsgruppeleder, Internatl Digital Technologies, GmbH, Muenchen

"Prediktiv validering og verifisering av multivariable
kalibrerings-modeller i kjemometri: Bruk av test-sett
eller kryss-validering? "
-------------------------------------------------------------------
Foredrag begynner kl. 14.30 (45 min pluss 15 min diskusjon).

____
Abstract:

Moderne mange-kanals maaleteknikk og myk multivariabel kalibrering i =
latente variabler gjoer det generelt lettere aa gaa fra forenklede =
lab-modeller til virkelige, kompliserte prosesser og systemer. =
Kjemometrisk 'unscrambling av 'skitne' kjemiske-tekniske systemer =
v.h.a. statisk eller dynamisk PLS Regresjon har foert til raskere, =
billigere og mer presis kvantitativ analyse. Med brukervennlig grafikk =
og automatisk feilvarsling har PLSR vist set aa gi mer effektiv, =
tverrfaglig kunnskaps-generering og oeket menneskelig kreativitet.
NFR ga ifjor kjemometrikere fra UiB og Norsk Hydro sin forskningspris =
for beste anvendte forskning; Norsk Hydro og andre store bedrifter =
staar frem i pressen og bekrefter aarlige innsparinger i 100-mill. =
klassen p.g.a. innfoering av kjemometriske metoder. Norge og Sverige =
leder an internasjonalt i teori-utviklingen og i innfoeringen av =
kjemometri i moderne flerkanals instrumentering og i prosess-industrien. =
Norske kjemometrikere fikk ifjor 3 prestisjetunge internasjonale =
forskningspriser. Trondheim-produsert programvare (The UNSCRAMBLER fra =
CAMO ASA) er blitt noe av en internasjonal industristandard innen =
kjemometri/kvalimetri/infometri.
Deler av denne suksess-historien er basert paa teknikker som ikke =
behoever aa kalles kjemometri, f.eks. bruken reduserte =
forsoeksplaner. Selv om ordet 'kjemometri' har fungert godt som et =
'buzzword' for innfoering av effektive nye metoder i FoU i mange =
kretser, har ordet derfor vekket litt aggresjoner i visse kretser, ikke =
minst innen norsk statistikk og norsk kjemiteknikk. Naar vi naa =
proever aa gjen-etablere kjemometrien ved NTNU etter professor Odd =
Borgens bortgang, oensker vi maksimum samarbeide og minimum friksjon i =
vaart forhold til kjemiteknikk, kybernetikk og statistikk: Vi har noe =
aa l=E6re av hverandre, og har stort sett felles maal og felles =
'fiender'.

En av vaare felles fiender er den data-analytiske analfabetisme hos =
mange uteksaminerte kjemi-kandidater. Dette faktum maa vi i fellesskap =
faa gjort noe med! La oss utvikle en data-analytisk =
kompetanse-oekologi ved NTNU: Alle maa ikke kunne alt, men =
tilstrekkelig mange maa kunne tilstrekkelige mye, og vite hvor de kan =
faa hjelp naar det kniper!

Myk, data-drevet modellering krever tilgjengelighet av GODE DATA - =
presise, noeyaktive, representative og tilstrekkelig komplekse til aa =
favne mangfoldet i den delen av virkeligheten som skal modelleres. =
Dessuten maa man OPTIMERE BRUKEN av de tilgjengelige dataene: Man maa =
modellere saa meget som mulig av den paalitelige STRUKTUREN i dataene, =
(altsaa unngaa 'UNDERFITTING'), men samtidig trekke minst mulig av =
ST=D8YEN i dataene inn i modellen (altsaa unngaa 'OVERFITTING'). Man =
maa med andre ord estimere OPTIMALT ANTALL MODELL-PARAMETRE fra =
dataene, og dessuten estimere den FREMTIDIG PREDIKSJONSFEIL: Hvor godt =
kan den valge modellen forventes aa fungere paa nye, ukjente =
observasjoner i fremtiden? Dette er generelle vitenskapsteoretiske =
problemer. Men det syndes tilsynelatende spesielt ofte ved bruk av =
hoeyparametriske teknikker som neuralte nett og genetiske algoritmer, =
og i mer gammelmodige seleksjons-metoder som stegvis multippel line=E6r =
regresjon.

Estimeringen av optimal modell-kompleksitet og av fremtidig =
prediksjonsfeil kan gjoeres paa mange ulike maater. Foredraget vil =
sammenligne tre hoved-teknikker: 1) bruken av klassisk statistisk =
estimeringsteori (frihetsgrader osv), 2) splitting av de tilgjengelige =
data i trenings-sett og mer eller mindre uavhengige test set, og 3) =
bruken av de tilgjengelige data baade som trenings-sett og testset, ved =
hjelp av full kryssvalidering. En ny utvidelse av =
kryss-valideringsmetoden for aa sikre uavhengig estimering av =
prediksjonsfeil (full kryss-verifisering) vil bli presentert. Studiet er =
basert paa multivariabel PLSR kalibering for NIR spektroskopisk =
hurtigbestemmelse av protein-innhold i hele mais-planter. Resultatene =
viser at full kryss-validering er spesielt verdifull naar mengden =
tilgjengelige data er begrenset ( og naar er den ikke det?)
____