Tror kanskje greia bare var at en skal tenke litt logisk for seg selv;
doble arealet i en skog burde føre til dobling av antall trær. Dette
skulle tilsvare et estimat av beta(log(area)) på 1 (for hver faktor
areal øker med, øker responsen (antall trær) med lik faktor).
Når vi ser i summary, er estimatoren beta litt høyere enn 1, men hvis
du tar med standardfeilen i tillegg, betyr det at beta-estimatoren kan
være 1,236-standardfeilen(0,142), altså enda nærmere 1...
Siden vi "kjenner" effekten av areal-variabelen - antallet trær øker
proporsjonalt med 1 når aralet økes (for hver gang alealet dobles,
dobles antall trær) - er bruk av areal som en offset-variabel en god
ide. Når vi har modellert det hele uten offset-variabel, ser vi (i
summary) at R har tilpasset seg den tilfeldige variasjonen i
datasettet ved å gi areal-variabelen en større effekt enn 1 - hvilket
vi jo vet ikke kan stemme. Dermed bygger modellen til en viss grad på
uriktige antakelser.
Når log(area) settes inn som offset-variabel, får den riktig effekt
uansett hvor stort/lite areal vi setter inn i modellen. Forventet
antall trær blir (lineært) proporsjonalt med area. Eller sagt på en
annen måte: en offset-variabel kan sees på som en variabel x der
tilhørende estimator (beta) er lik 1.
Muligens litt kronglete formulert, men gir det mening?