2 min read

Kuratering av datasett

Steve Easterbrook har skrevet en lang og interessant blogpost om et initiativ til et massivt nytt arkiv for historiske temperaturdata. Før en har tenkt seg ordentlig om virker det som noe som burde være en overkommelig jobb. Alle observasjoner har en temperatur, geografiske koordinater og et tidspunkt?

Men http://www.surfacetemperatures.org/ satser mer fundamentalt enn som så. De har ambisjon om å arkivere data på flere forskjellige nivåer:

  1. instrumentlesinger, kanskje i form av scan av håndskrevne papir-logger
  2. Data slik de ble skrevet inn i lokalt format
  3. Data konvertert til et felles format
  4. Data konsolidert i “databank”.
  5. Kvalitetskontrollert avleda produkt, korrigert for skjevheter ved målestasjonene.
  6. Homogenisert ferdig produkt, interpolert, i et felles koordinatsystem osv..

Og de ønsker å dokumentere hvordan høyere-nivå former av data avhenger av lavere-nivå former.

Dette er selvsagt et enormt arbeid, men også en utfordring fordi svært lite er gjort fra før på nivåer lavere enn 3. Men oversikt over de lavere nivåene er viktige ikke bare for å sikre kvaliteten gjennom hele kjeden, men også fordi det siste årets liksom-avsløringer har vist at dersom en ikke kan gjøre rede for hele kjeden fra rådata til de strømlinjeformede normaliserte databasene, så vil skamløse antivitenskaplige “skeptikere” bruke det til å så tvil om hele feltet.

I samfunnsøkonomi finnes det ikke noe som likner. I den grad forskere tar del i konstruksjon av referansedatakilder er det ofte i produksjon av noe som korresponderer til nivå 4 i klassifiseringa over, og det er stort sett veldig begrensa informasjon (gjerne bare beskrivelse av generelle prinsipper) å finne om hvordan resultatet bygger på de lavere nivåene. (Verdensbank databasene jeg linker til i en annen blogpost her kan kanskje sies å ha nivå 5, men det er ofte dypt mystisk hvordan de bygger på lavere nivåer.)

At denne systematiske tilnærmingen til kuraterte datasett er så lite fremtredende blant samfunnsøkonomer er antakelig et produkt av manglende politisk press og akademi-internt preferanse for smartness heller enn byråkratisk arbeid. Men datakvalitet kan ha politiske konsekvenser, som når Hellas systematisk og i mange år tilslørte underskuddene på statsbudsjettet. Dersom politiske beslutninger skal tas på bakgrunn av økonomiske argumenter burde både data og teori/metode holde høy kvalitet og være etterprøvbare.

Tradisjonelt har det vel i samfunnsøkonomi vært teori og metode som har fått mest oppmerksomhet i etterprøvbarheten, selv om mange virkelige store spørsmål, som feks. om de siste 30 års globalisering har skapt mer eller mindre ulikhet i verden, per i dag vanskelig kan besvares fordi data har lav kvalitet – og det som finnes ofte voktes over som om det var forretningshemmeligheter.