torsdag 26. mars 2009

Korrelasjonseksperiment

I forbindelse med korrelasjonanalysene av S&P 500 og OBX måtte jeg se litt nærmere på selve korrelasjonsbegrepet. I denne posten vil jeg ikke gå inn på det matematiske grunnlaget for korrelasjon, men heller vise hvordan korrelasjonsanaylsen slår ut i praksis for to syntetiske indekser skapt i excel for å simulere korrelasjon.

I følge wikipedia er korrelasjon:
Korrelasjon, samvariasjon, er i statistikk og sannsynlighetsregning et mål på styrken og retningen på den lineære avhengigheten mellom to variabler. Empirisk observert samvariasjon en nødvendig men ikke tilstrekkelig forutsetning for å avdekke om det er kausalitet (dvs. at en variabel forårsaker en annen).

Korrelasjonen mellom to datasett kan virke ganske vilkårlig ut ifra datasettets egenskaper som illustrert av dette bildet fra wikipedia. Alle disse fire datasettene har en korrelasjon på 0,81.


Jeg har i excel laget to syntetiske indekser som beveger seg motsatt av hverandre intradag som vist i diagrammet under. En skulle tro at korrelasjonen da vil være -1, men siden det er en svak stigende trend som begge indekser deltar i blir korrelasjonen ikke en perfekt -1, men heller -0,90



Indeksene er konstruert slik at de ikke bare beveger seg motsatt av hverandre på daglig basis, men også på ukentlig basis. Det betyr at for hver 14 dagers (10 handelsdager) syklus har indeksene beveget seg 10 sammenhengende dager i motsatt retning samtidig som at de intradag har beveget seg motsatt av hverandre. Dette må vel være et perfekt eksempel på negativ korrelasjon? På tross av at indeksene beveger seg motsatt av hverandre både intradag og ukentlig har de like vel en viss felles retning og korrelasjonen ender på svake -0,28.



Over 50 handelsdager har indeksene fortsatt å beveget seg motsatt av hverandre og dannet følgende diagram. Korrelasjonen er nå 0,54.


I løpet av et år har begge indeksene steget en del. Korrelasjonen er nå 0,89.


Det andre året fører med seg en nedgang som nesten tar inn igjen oppgangen fra året før. Korrelasjonen er nå gått litt ned til 0,86.


Det siste diagrammet viser hvordan de samme utvikler seg over 5 år hvor annethvert år er et bull år og annenhvert år er et bear år. Indeksene beveger seg fortsatt motsatt av hverandre på daglig og ukentlig basis. Total korrelasjon er 0,87.


Eksperimenter viser at man ikke kan ta korrelasjon mellom to indekser og trekke konklusjoner om hvorvidt indeksene korrelerer på daglig eller ukentlig basis. Dersom en skal bruke korrelasjonen til en tradingstrategi må en se på korrelasjonen i lys av den tidshorisonten en har for tradingen. Er man en langsiktig investor vil kanskje en totalkorrelasjon eller årlig korrelasjon være av interesse. Men skal en trade på daglig, ukentlig eller månedlig basis må en se på tilsvarende perioder når en regner på korrelasjon dersom denne inngår i tradingstrategien. Å se på et et annet tidsvindu enn det en faktisk skal bruke er meningsløst som eksperimentet viser. En langsiktig investor ville satt en helt feil investering dersom han la ukentlig korrelasjon til grunn, det samme ville en trader som la den totale korrelasjonen til grunn.

I hele dette eksempelet har jeg brukt indekskorrelasjon. Dersom en ser på korrelasjon for daglige endringer blir resultatet helt annerledes. 5 dagers korrelasjon: -0,99, 20 dagers korrelasjon: -0,99, 50 dager: -0,99, 200 dager: -0,99, 5 år: -0,98. Dette resultatet gjenspeiler den negative korrelasjonen som var lagt inn de syntetiske indeksene helt perfekt. Men en får ikke utglattingsfaktoren som viser at selv om indeksene beveger seg motsatt av hverandre på en daglig basis vil de over år har en sterk korrelasjon i de store bevegelsene.

Jeg synes resultatet av dette eksperimenter var interessant nok til at det skulle postes på bloggen. Jeg vil gjerne har innspill og tanker fra andre om disse observasjonene og hvilke konsekvenser det har for bruken av korrelasjon i statistisk aksje/indeks analyse.

2 kommentarer:

  1. Kom på at det ikke er vanlig å regne korrelasjon på "råe" data. Det vanlige er å fjerne trendkomponenten, så dataserien blir såkalt stasjonær, f.eks ved å trekke fra en moving average. Da kan man begynne å se på sammenhenger mellom dataserier. Dette er noe mange har "glemt";)
    En serie med avkastninger er pr def stasjonær.

    SvarSlett
  2. Takk for innspillet e_m! Det bekrefter min egen og MscFE sin konklusjon fra faglitteraturen. Samtidig forklarer det avvikene i korrelasjonseksperimentet.

    SvarSlett