Taak Statistische Dataverwerking

Sam Hox, Sarah Bostoen en Tho Demeester
Dataset tomaat15
Taak Statistische Dataverwerking - blutsschade

bij tomaten
1. Inleiding
Tomaten worden snel beschadigd door blutsten tijdens het transport, wat zo
snel mogelijk moet gebeuren en regelmatig over grote afstanden. De schade die
een tomaat kan oplopen moet geminimaliseerd worden. In deze taak wordt
bijgevolg getest of er een correlatie bestaat in verschil in rijpheid en
impactenergie van het voorwerp op de blutsschade. Er werd onderzoek gedaan
naar tomaten in 3 verschillende stadia van rijpheid. Groene tomaten met
ongeveer 30% kleuring, oranje tomaten en rode tomaten. Deze tomaten worden
gecontroleerd geblutst met behulp van een slinger.
Dataset tomaten 15 bestaat uit een experiment bij 24 at random geselecteerde
tomaten, 8 uit elke rijpheidsklasse. De impactenergie van de slinger werd telkens
gemeten evenals het percentage beschadiging bij elke tomaat.
Een dataset bestaat uit kwantitatieve respons- en verklarende variabele (Y en X).
De Y variabele is percentage beschadiging en de X variabele is de impactenergie.
Daar bovenop is er nog een kwalitatieve variabele rijpheid. In deze taak worden
met behulp van het programma Jump (JMP) regressierechten voor verschillende
niveaus van een kwalitatieve verklarende variabelen met elkaar vergeleken. Zo
wil men testen welke stadia van rijpheid bij tomaten het gevoeligst is voor
blutsen.
Aangezien de kwalitatieve variabele 3 niveaus heeft, hebben we 2 dummy
variabelen nodig. Om deze dummys te coderen in JMP hebben we gebruik
gemaakt van Effects-type codering.
Kleur
d1
d2
Groen
+1
0
Oranje
0
+1
Rood
-1
-1
Dit heeft als full model : Y = 0 + 1 x + 1 d 1 + 2 d2 + 1 x d 1 + 2 x d 2+ U
Hierin is 0 het intercept, of de verwachte beschadiging bij gemiddelde rijpheid
indien de impactenergie (of x) = 0.
1 is het verschil in percentage beschadiging van de gemiddelde rijpheid met
rijpheid groen indien de impactenergie (of x) = 0.
2 is het verschil in percentage beschadiging van de gemiddelde rijpheid met
rijpheid oranje indien de impactenergie (of x) = 0.
[( 1+ 2 ) ] is het verschil tussen de gemiddelde rijpheid en rijpheid rood indien
impactenergie (of x) = 0.
1 is het effect (of de helling) van de impactenergie bij een tomaat met
gemiddelde rijpheid.
1 is het verschil in het effect van de impactenergie op rijpheid groen en de
2 is het verschil in het effect van de impactenergie op rijpheid oranje en de
[( 1+ 2) ] is het verschil in het effect van de impactenergie op rijpheid rood
en de gemiddelde rijpheid.
Effect van impactenergie : Bij groen : 1+ 1
; Bij oranje : 1+ 2
; Bij
rood : 1( 1 + 2 )

Dataset tomaat15
2. Analyse
2.1
Grafische visualisatie
We beginnen onze analyse met een grafische
visualisatie van het full model. Een eerste stap is het
opstellen van een regressieplot van het effect van de
impactenergie per level van rijpheid op de percentage
van beschadiging.
In de plot is de kleur van de lijnen overeenstemmend
met de rijpheid van dezelfde kleur.
Deze plot lijkt uit te schijnen dat elke rijpheid een
verschillende helling heeft, wat een verschillend effect van impactenergie per
rijpheid betekent. Ook is het percentage beschadiging bij rijpheid groen lager
dan bij oranje en rood. Rood lijkt de meeste beschadiging te vertonen.
Vervolgens gaan we een prediction profiler opstellen voor elke rijpheid.
Uit deze grafieken kunnen we duidelijk

zien dat er een verschil is in schade bij
groene tomaten vergeleken met oranje
en rode tomaten. Tussen deze laatste
twee is er geen overduidelijk verschil
zichtbaar.
Uit de voorgaande plots (regressie en
prediction profiler) kunnen we de
volgende testen voorstellen :
Groen verschilt significant van oranje en rood.
Oranje en rood verschillen niet significant van elkaar.
Omdat we uit onze regressieplot dachten te kunnen afleiden dat de hellingen
verschillen per level van rijpheid, vermoeden we dat er in het uiteindelijke model
interactietermen kunnen zitten.
2.2 Schatten van het beste model
Na deze grafische visualisatie gaan we over op het schatten van het beste model
op basis van het effect-type coding. We beginnen met het beschouwen van de
parameter estimates van het full model. Aangezien het model een kwalitatieve
variabele bevat met meer dan 2 levels, mogen we enkel naar de F-test kijken om
uitspraken te doen over de significantie van de parameterschattingen. We
bekijken de P-waardes van de F-testen om te weten of we al parameters kunnen
weglaten en ons model kunnen reduceren.
Onze hypotheses zijn :
H 0 : impactenergie (x)=0
H a : impactenergie( x) 0
H 0 : 1 = 2=0
H a : 1 2 0
H 0 : 1= 2=0
H a : 1 en 2 0
2

Dataset tomaat15
In bijgaande testen zien we dat zowel de impactenergie als de interactie-effecten
geen significante invloed hebben aangezien de P-waarde groter is dan het
significante niveau van 0,05, waardoor we H 0 aanvaarden. We vermoeden dus
dat er een beter, gereduceerd model gevonden kan worden.
Om tot een beter model

te komen, laten we eerst de interactie-effecten weg, aangezien zij de grootste Pwaarden hebben. Daarna bekijken we de parameter estimates opnieuw en ook de
P-waarden van de F-test.
H 0 : 1=2=0
H 0 : impactenergie (x)=0
H a : impactenergie(x) 0
H a : 1 en 2 0
In bijgaande testen zien we nu dat de impactenergie wel een significante invloed

heeft en bijgevolg houden we
deze in het model.
Dan
bekomen
we
gereduceerde model
het
Y = 0 + 1 x + 1 d 1 + 2 d2 +U .
Vervolgens kijken we naar de R adj. en de MSE om te oordelen of het

gereduceerde model beter is dan het full model. In onderstaande figuren kunnen
we zien dat de Rsquare adj. gestegen is en dat de MSE kleiner is geworden. Het
gereduceerde model is dus beter als het full model.
Nieuw model
Oud model
De geschatte parameters van het nieuwe (gereduceerde) model zijn dan :

Uit het full model hadden we een
interactieterm
verwacht
aangezien de helling van groen
zichtbaar verschillend was van die
van oranje en rood. Maar in het
nieuwe model hebben we de
interactietermen
weggelaten,
waardoor de helling voor alle 3
levels van rijpheid gelijk zijn. We moeten dus niet meer testen op een verschil in
1 en 2 .
Wat we nu doen is het analyseren van de normaliteit van de residuals. Dit doen
we door het weergeven van de waarnemingen ten opzichte van het gefitte model
en het plotten in een histogram en een boxplot.

Dataset tomaat15
Ten
laatste
analyseren
we
die
normaliteit
een shapiro-wilk test.
H 0 : de residuals zijn normaal verdeeld
Onze hypothese :
H a : de residuals zijn niet normaal verdeeld.
in
De P-waarden zijn kleiner dan 0,05,

H 0 , wat
dus verwerpen we
betekent dat de residuals niet
normaal verdeeld zijn.
Uit de boxplot en de Shapiro-wilk test kunnen we besluiten dat het model niet
perfect is. Maar de Radj en de MSE-waarden van het nieuwe model geven toch aan
dat het model te gebruiken is en nog steeds beter is dan het full model.
2.2
Vergelijken van de regressierechten van de 3 levels van
rijpheid onderling.
We beginnen met een visualisatie van de
regressierechten per level van rijpheid.
Omdat de interactietermen zijn weggelaten in het
nieuwe model zijn de hellingen alle drie evenwijdig.
Ook zien we dat rood de hoogste beschadiging heeft,
gevolgd door oranje, met weinig verschil. Ook zien
we dat groen altijd de laagste beschadiging vertoont
en ver van de andere twee regressierechten ligt.
Op bijgaande prediction profiler hebben
we een negatieve desirability ingesteld,
wat
inhoudt
dat
de
laagste
beschadiging de grootste desirability
heeft.
De figuur geeft weer dat groen de
hoogste desirability heeft, gevolgd door
oranje en rood. Daarnaast heeft een
lage
impactenergie
een
hoge
desirability en een hoge impactenergie
een lage desirability.
We vermoeden dus dat er geen verschil is tussen rood en oranje. Ook
vermoeden we dat de beschadiging van groen wel verschilt met die van oranje
en rood. Dit gaan we nu testen.
4

Dataset tomaat15
We beginnen met het vergelijken van de beschadiging van
rood en oranje.
H0
2= 3
Hypotheses :
:
of
nog
(met
3 = [ ( 1+ 2 ) ] )
Ha
2 2 + 1=0
: 2 3 of nog
Uitleg voor de dummys :

dus oranje rood
cofficinten bij
2 2 + 1 0
d 3=[( d1 +d 2 ) ]
d 2d 3=d 2[( d 1 +d 2 ) ]=2d 2 +1 d 1 . De
d 1 en d 2 zijn dus 1 en 2 voor deze test.
In de test zien we dat de P-waarde van de F-test groter is dan

0,05. Hieruit besluiten we dat we H 0 niet verwerpen met
significantieniveau 0,05. Met andere woorden, beschadiging
van oranje en rood verschillen niet significant van elkaar,
wat overeenkomt met onze vermoedens.
Nu vergelijken we de beschadiging tussen groen en rood.
H0
1= 3
Hypotheses :
:
of
nog
(met
3 = [ ( 1+ 2 ) ] )
Ha
2 1 + 2=0
: 1 3 of nog
Uitleg voor de dummys :

dus groen rood
cofficinten bij
2 1 + 2 0
d 3=[( d1 +d 2 ) ]
d 1d 3=d 1[( d 1 +d 2 ) ]=2 d 1 +1 d 2 . De
d 1 en d 2 zijn dus 2 en 1 voor deze test.
In de test zien we dat de P-waarde van de F-test veel kleiner is dan 0,05. Hieruit
besluiten we dat we H 0 mogen verwerpen met significantieniveau 0,05. Met
andere woorden, beschadiging van groen en rood verschillen significant van
elkaar, wat ook overeenkomt met onze vermoedens.
2.3
Vergelijken van de parameterschatting bekomen bij effectstype coding en 0/1 coding.
We beginnen met het verklaren van de parameters bij 0/1 coding. Het full model
is ook hier
Y = 0 + 1 x + 1 d 1 + 2 d2 + 1 x d 1 + 2 x d 2+ U
0 is het intercept, of de verwachte beschadiging bij rood indien de

1 is het verschil in percentage beschadiging van rood en groen indien de
2 is het verschil in percentage beschadiging van rood en oranje indien de
1 is het verschil in het effect van de impactenergie op groen en rood.
2 is het verschil in het effect van de impactenergie op oranje en rood.
Effect van impactenergie :
Bij groen : 1+ 1 ; Bij oranje : 1+ 2
; Bij
rood : 1
Vervolgens bekijken we de parameter estimates van het reduced model op basis
van de 0/1 coding.
5

Dataset tomaat15
H 0 : effect parameter = effect bij
rood.
H a : effect parameter effect
bij rood.
Aangezien de P-waarde van oranje groter is dan het significantieniveau 0,05,
aanvaarden we H 0 bij oranje. Er is dus geen significant verschil tussen het
effect van oranje en rood. Dit komt overeen met de uitkomst van de eerder
uitgevoerde custom test oranje-rood. De andere P-waarden zijn kleiner dan
=0,05 en hier verwerpen we H 0 dus telkens.
Bij effects type coding wordt het effect van elke rijpheid vergeleken met een
gemiddelde rijpheid. Groen (-39) doet het veel beter dan het gemiddelde, maar
oranje en rood doen het slechter dan het gemiddelde (rood het slechtste).
In de coding 0/1 zijn de parameter schattingen telkens vergelijkingen van de
eerste 2 rijpheden met de laatste, in dit geval rood. We zien hier dan zowel
groen als oranje een negatieve parameter hebben en ze dus beter zijn dan rood
(minder beschadiging hebben). Dit komt overeen met het vorige besluit uit effect
type coding. Hier is ook groen het beste en loopt het minste schade op.
3. Conclusie
Het beste model is Y = 0 + 1 x + 1 d 1 + 2 d2 +U .

Aan de hand van de normaliteits en ouliersanalyse zien we dat dit model niet
perfect is. De Radj en MSE-waardes zijn echter acceptabel.
Aan de hand van de analyses op het reduced model (grafische interpretaties,
interpretaties van de parameterschattingen en de custom-tests) was het zowel
bij effect-type coding als bij 0/1 coding duidelijk dat rijpheid groen de laagste
beschadigingsgraad heeft. Daarnaast zagen we dat ook een zo laag mogelijke
impactenergie zorgt voor een lage beschadiging.
Groen is duidelijk de beste rijpheid. Hier moeten we echter ook rekening houden
met wat de consument wilt; namelijk geen groene tomaten. De tomaten zullen
daarna in rijpingsserres verder moeten rijpen.

Taak Statistische Dataverwerking

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Taak Statistische Dataverwerking

Uploaded by

Copyright:

Available Formats

Sam Hox, Sarah Bostoen en Tho Demeester