DISKRIMINANTANALYS I GEOBOTANIK

av Göran Kjellström

I en intressant och mycket informativ artikel, betitlad Växter och Mineral, har Hans Josefsson (Tunabygdens Geologiska Förening) sammanfattat värdefulla iakttagelser gällande vissa växtarters preferens till geologiska miljöer. Hans Josefsson berättar sålunda om vissa växtarter som visat sig vara särskilt goda indikatorer för vissa kemiska grundelement som förekommer i den geologiska miljö de bebor, en omständighet som med fördel kan utnyttjas vid geologisk prospektering. I den mycket välskrivna artikeln citerar Hans Josefsson bl a en studie genomförd av växtsociologen Olof Rune, som under 1950-talet lät undersöka floran på ett antal serpentinbergarter i skandinaviska fjällkedjan. Fritt hämtat från Hans Josefssons artikel står att läsa bl a följande:

"Serpentin är ett magnesiumsilikat som innehåller järn och höga halter av nickel, koppar och krom. Serpentin är känd för att utöva stor morfologisk påverkan på vegetation. Rune kunde visa att Skandinaviens serpentinberg de facto håller sig med en genetiskt sett helt specifik flora. Till denna exklusiva association, som kommit att kallas de serpentinicola växterna eller serpentinofyterna, hör även vanligare arter som ängssyra, rödblära och krypven. De taxa som gjorde Rune berömd 1953 utgjordes främst av särformer av nejlikväxter, som Cerastium alpinum var. Först några år senare utskilde han den smala ängssyran Rumex acetoca ssp. acetosa var. serpentinicola och serpentinformen fjällnörel Minuartia biflora var. serpentinicola. Till de taxa han redan 1953 namngav hörde Lychnis alpina var. serpentinicola, serpentinnejlikan, eller spenslig fjällnejlika, som den skall heta enligt nya kärlväxtförteckningen. I sin avhandling ger Rune typbeskrivningen för serpentinbergens genetiskt stabila fjällnejlika. Som viktiga skiljekaraktärer gentemot normalformen anges:

- smalare blad
- mer eller mindre reducerade kronblad, som ibland saknas helt.
- tunn men styvt upprätt stjälk, upp till 25 cm hög.
- rikt grenig, med blomskaft utskjutande även från de nedre bladverken, vilket ger en långsträckt form."

Syftet med nu föreliggande artikel är att visa hur man med hjälp av särskilda kvantitativa dataanalysmetoder kan separera skiljekaraktärer av exempelvis ovan slag. Vi skall i det följande stifta bekantskap med en speciell variant av kvantitativ dataanalys benämnd diskriminantanalys. Det material vi skall arbeta med är hämtat från en klassisk studie utförd av Sir Ronald Fisher, en legendarisk statistiker som verkade särskilt aktivt under 1930-talet.

Diskriminananalysen har till mål att separera (diskriminera) skiljekaraktärer hos de ingående variablerna ifråga, liksom att bestämma vilken eller vilka variabler som bäst separerar två eller flera taxonomiska grupper. Anledningen till att man önskar göra sådan diskriminering är att vissa arter ofta uppvisar överlappande övergångsformer (varieteter) att man vid mätning av de olika variablerna (exempelvis foderbladens längd och bredd, kronbladens längd och bredd etc) ej alltid med säkerhet vet till vilken varietet man skall föra ett nytt insamlat exemplar. Vikten av att kunna göra en korrekt klassificering inses om vi tänker oss att vi insamlat från ett större geografiskt område ett stort antal exemplar av vad vi preliminärt bedömt vara serpentinnejlika (mer korrekt benämnd spenslig fjällnejlika, se ovan). Eftersom en mängd överlappande särformer finnes bland nejlikväxterna erfordras stringenta data för klassificeringsarbetet. Skall vi dessutom framgångsrikt kunna bedriva geologisk prospektering med utgångspunkt från förhållandet att vissa växtarter är goda indikatorer för vissa kemiska element, ja då måste vi i vårt fall naturligtvis vara helt säkra på att vårt insamlade material verkligen är spenslig fjällnejlika. Låt oss därför studera nämnda Fishers material för att mer konkret belysa diskriminantanalysens möjlighet hjälpa till i det taxonomiska arbetet.

Fishers material består sålunda av mätdata (längdmått och viddmått) över foderblad (engelsk benämning: sepal) och kronblad (engelsk benämning: petal) tillhörande tre iristyper, setosa, versicol och virginic. Låt oss i fortsättningen vänja oss vid att använda oss av de engelska termerna sepal för foderblad och petal för kronblad eftersom artikelförfattarens dataanalysprogram använder sig av engelsk terminologi. Hur skall vi nu kunna differentiera mellan de tre grupperna setosa, versicol och virginic baserande sig på de fyra olika mätdata, dvs sepal-längd, sepal-vidd, petal-längd, petal-vidd?

Det aktuella materialet består av 150 exemplar av irisblommor, 50 tillhörande gruppen setosa, 50 tillhörande gruppen versicol och 50 tillhörande gruppen virginic. Vi skall här tabellariskt endast visa mätdata för 10 exemplar. För vår analys kommer vi givetvis nyttja samtliga 150 exemplars mätdata för respektive fyra variabler, men önskar här ej tynga framställningen med en tabell över samtliga.

   Sepallängd  Sepalvidd   Petallängd  Petalvidd   Iristyp
 1  5,0  3,3  1,4  ,2   setosa
 2  6,4  2,8  5,6  2,2   virginic
 3  6,5  2,8  4,6  1,5  versicol
 4  6,7  3,1  5,6  2,4  virginic
 5  6,3  2,8  5,1  1,5  virginic
 6  4,6  3,4  1,4  ,3  setosa
 7  6,9  3,1  5,1  2,3  virginic
 8  6,2  2,2  4,5  1,5  versicol
 9  5,9  3,2  4,8  1,8  versicol
 10  4,6  3,6  1,0  ,2  setosa

En första analys visar följande medelvärden samt lägsta och högsta mätvärden för respektive variabler:

 Variabel  Antal  Medelvärde  Minimum  Maximum
 Sepallängd  150  5,843333  4,300000  7,900000
 Sepalvidd  150  3,057333  2,000000  4,400000
 Petallängd  150  3,758000  1,000000  6,900000
 Petalvidd  150  1,199333  ,100000  2,500000

Överför vi tabellens mätdata till en grafisk form kallad Box and Whisker Plot (se SARF-artikel "EDA - ett kraftfullt geologiskt verktyg"), ter sig respektive variabels medelvärden, minimum- och maximumvärden enligt följande:

Följande fyra grafer visar så distributionen av de olika variablerna för respektive iristyp. Först visar vi distributionen för de tre grupperna med avseende på sepallängd, därefter med avseende på sepalvidd, petallängd samt petalvidd:

Vi ser att variablerna sepallängd och sepalvidd uppvisar överlappning avseende samtliga tre iristyper samt att variablerna petallängd och petalvidd uppvisar överlappning avseende två iristyper (versicol och virginic). Endast irisgruppen setosa är tydligt separerad från de övriga.

Låt oss nu betrakta vilka relationer som kan tänkas föreligga mellan de ingående variablerna. En korrelation mellan de olika variablerna ger följande resultat:

Det förefaller som om det fanns två separata svärmar av data. Låt oss studera närmare två grafer, en som visar relationen mellan petallängd och petalvidd samt en som visar relationen mellan sepallängd och petallängd:

Kan det vara så att punktsvärmarna längst ned till vänster på respektive graf alla tillhör en och samma iristyp? Det är nu diskriminantanalysen kommer in i bilden (teorin bakom denna analys ryms ej inom denna artikel, varför läsaren hänvisas till exempelvis läroboken: McLachlan, G. J. 1992: Discriminant analysis and statistical pattern recognition. New York: Wiley). Låt oss nu koncentrera oss på resultatet av dataanalysen ifråga och slutligen studera en graf som genererats av diskriminantanalysen:

 

Vår sista graf visar att den mest signifikanta diskrimineringen, dvs särskiljandet av iristyp, låter sig göras på setosa-gruppen. Värdena i grafen innebär i korthet att diskriminantanalysen genererat negativa koefficienter för petallängd och petalvidd samt positiva vikter för sepallängd och sepalvidd. Ju längre och vidare petal (dvs kronblad) samt ju kortare och vidare sepal (dvs foderblad) desto mindre sannolikt är det att det rör sig om setosa-typ.

Hade en diskriminantanalys av vår tidigare omnämnda inventering av vad vi preliminärt trodde vara spenslig fjällnejlika givit en lika tydlig separation som setosa, ja då kunde vi vara säkra på att ha gjort en korrekt klassificering.

© 1999 Göran Kjellström



©2001- GeoNord