Ryktena om teorins död är kraftigt överdrivna – eller?

Att vi lever i “Big Data”-eran har inte undgått någon vid det här laget, och svulstiga proklamationer om vissa tings död och andra tings pånyttfödelse avlöser varandra i strida strömmar. En som var tidigt ute med att förklara självaste “teorin” som död var Chris Anderson på Wired. Gängse akademiska områden och förklaringsmodeller – sociologi, psykologi, lingvistik – har med ens blivit överflödiga. Nu när vi har så mycket data om allt folk företar sig så talar siffrorna för sig själv – teorier och modeller har blivit överflödiga, reliker från en datafattigare tid. Andersons tes är att den gamla vetenskapliga metoden – hypotes testas med hjälp av data, vars kausala samband man försöker identifiera utan att falla i “korrelation är inte kausalitets”-fällan – har varit motiverad tidigare, men nu har gjorts obsolet. “Data without a model is just noise, but faced with massive amounts of data, this approach to science […] is becoming obsolete”. Ju mer vi lär oss om saker och tings komplexitet, desto mindre kan modeller och teorier hjälpa oss i vårt sökande efter förståelse. Vi har datan vi behöver, och följaktligen är korrelationer gott nog. Ett exempel han använder är hur Google Translate fungerar:

“Google’s founding philosophy is that we don’t know why this page is better than that one: If the statistics of incoming links say it is, that’s good enough. No semantic or causal analysis is required. That’s why Google can translate languages without actually “knowing” them (given equal corpus data, Google can translate Klingon into Farsi as easily as it can translate French into German).”

Svårigheten i ovanstående är att göra en distinktion mellan att veta i termen “besitta relevant information som kan besvara frågan” och veta i termen “kunna förstå det underliggande sambandet och orsakerna bakom”. Googles översättningstjänst tillhör den förra kategorin, medan en människa som översätter ett ord tillhör den senare. Om man blir tillfrågad att översätta ett ord från svenska till engelska vill man ofta veta sammanhanget innan man ger sig på att översätta – ett steg som Googles tjänst utan vidare hoppar över. Ibland med stor träffsäkerhet, ibland med skrattretande absurda resultat.

Anderson menar alltså i förlängningen att Googles metod är vida överlägsen den “utdaterade”, klassiska vetenskapliga metoden. (Artikeln slutar med provokationen: “There’s no reason to cling to our old ways. It’s time to ask: What can science learn from Google?”). Är det en allt igenom positiv utveckling att människans roll som uttolkare av datan – och därmed rollen som förmedlare av teorier och förklaringsmodeller – urholkas? Har Google m.fl något oförhappandes kommit nästa vetenskapliga tidsålder på spåren – en tidsålder där enorma datamängder kan ersätta människans roll helt?

Om denna bild av utvecklingen stämmer, och vi fortsätter vandra utmed vägen mot ett samhälle där teorier blir alltmer överflödiga, får det givetvis långtgående konsekvenser i vardagen. Vi kan redan se hur det påverkar vår internetupplevelse: algoritmer som enbart väger data som vi ger ifrån oss mot varandra blir alltmer raffinerade och träffsäkra. Spotify kan (med stor ackuratess, enligt min egen erfarenhet) säga dig vilken musik du lär gilla; Google kan alstra önskvärda sökresultat trots luddiga eller halvfärdiga sökord; och affärskedjor vet vad du vill ha, och skapar riktad reklam därefter, innan du vet det själv. Till exempel kan en affärskedja lista ut att du är gravid innan dina föräldrar inser det.

Som vi tidigare konstaterat riskerar detta att skapa ett inhägnat internet. Det skräddarsyr vår upplevelse och tapetserar internetrummets väggar enligt vad vi på förhand beräknas föredra. Vi – användarna – konsulteras inte i förstone, och allt som oftast protesterar vi inte när vi ställs inför fullbordat faktum, eftersom slutresultatet – t.ex en översättning i Google Translate – är gott nog.


VAKNA! Nu får Anderson mothugg – intellektuella slagsmål med ord är den roligaste sorten!

Anderson får emellertid mothugg av en person som gjort statistiska förutsägelser till något av en personlig konstform. Nate Silver driver sajten FiveThirtyEight, där han med närmast kirurgisk precision förutsade utgången i det amerikanska presidentvalet 2012. Innan dess gjorde han lika träffsäkra statistiska modeller som kunde användas för att förutsäga utvecklingen i den amerikanska basebolligan. Silver skrev för några år sedan boken “The Signal and the Noise: why so many predictions fail – but some don’t”, en sorts stridsskrift till försvar för ett ödmjukt och ett kritiskt förhållningssätt till människans förmåga att göra förutsägelser av utvecklingen inom komplexa system (t.ex ekonomin). Baserat på sin egen erfarenhet som en av få konsekvent framgångsrika “forecasters” argumenterar han för en syn tvärtemot vad Anderson förfäktar.

Silver identifierar snarare en fara i mängden data. I nuläget produceras mer än två triljoner data per dag. När vi får sådana ohemula mängder data att tillgå uppstår ett antal potentiella problem. För det första blir det svårt att sålla i datan och få med endast den information som är relevant för det du sysslar med (kycklingproduktion i Uganda har väldigt lite med USA:s BNP-utveckling att göra). För det andra innebär den här typen av mängder att du enligt en sorts utveckling av de stora talens lag får möjlighet att leta upp data som bekräftar den tes du driver, som påfallande ofta är ideologiskt driven. För det tredje får vi ännu svårare att hålla isär slump och kausalitet, framför allt om vi har att göra med ett dynamiskt och komplext system där variablerna är till synes oändliga. I många år trodde börsmäklarna på Wall Street på fullaste allvar att det fanns ett kausalt samband mellan Super Bowls vinnare och börsens utveckling. Varje gång ett lag från det “ursprungliga NFL” vann finalen gick börsen upp, och när ett lag från AFL (American Football League) vann så gick börsen ned. Mellan 1967 och 1997 stämde detta till punkt och pricka. Men 1998 vann Denver Broncos, ett AFL-lag – och börsen gick dagen efter upp med 28% (i tid sammanföll detta med hypen av IT-sektorn – högmodet före fallet). Sedan dess har denna teori visat sig ha varit helt avhängig slumpen för sin giltighet – man misstog oväsen för signal med Silvers terminologi.

Ett annat exempel som Silver tar upp i sin bok handlar om Jan Hatzius, chefsekonomen på Goldman Sachs som varnade för finanskraschen 2008 ett år i förväg. Hatzius tillvägagångssätt skilde sig åt från det många andra använde, vare sig det rörde sig om banker, myndigheter eller analytiker: han valde ut ett fåtal faktorer som ansågs relevanta för det han intresserade sig för (börsmarknadens utveckling) och började leta efter “the signal amidst all the noise”. Noise, alltså oväsen, är här all ovidkommande data som riskerar att vilseleda oss på jakten efter en signal som kan hjälpa oss att göra bättre förutsägelser. Silver påvisar att myndigheter m.fl som använde mer avancerade metoder, vilka tog upp till 400 olika faktorer i beaktande, misslyckades kapitalt med sina förutsägelser, trots att de tog hänsyn till mycket mer data. Hatzius själv beskrev det som att han försökte skapa en berättelse om ekonomin baserad på den data han hade att tillgå. Den berättelsen skulle sedan appliceras på och förankras i en ekonomisk verklighet, som är komplex och nyckfull. Hans mothuggare byggde snarare en berättelse om data, som i sin strävan efter att efterlikna verklighetens komplexitet kom längre och längre ifrån den. Om datan inte är relevant för de verkliga fenomen vi försöker mäta och förutsäga så går det heller inte att förankra och skapa relevans för våra fynd i nämnda verklighet.


I slagsmålets efterdyningar, med tillstånd av Görenhönaavenfjäder-sällskapet

Har Anderson eller Silver rätt? En vid det här laget bekant friskrivningsklausul från min sida: Jag har inte den blekaste aning själv. Mitt intresse för detta ämne är stort, men mina ämnesspecifika kunskaper är få. Dock tycks mig Silvers argumentation både övertygande, välmotiverad och framför allt empiriskt hållbar. Samtidigt verkar Anderson på sikt föreställa sig en tillvaro där människan till slut också blir obsolet. En värld där matematiken – algoritmer baserade på relevant data – leder oss dit vi behöver vandra, ibland utan att veta det själva. Silvers argumentation, å andra sidan, handlar mer om vilka fatala misstag som kan ske när människor, rustade till tänderna med tendenser till logiska felslut, inte kan förhålla sig till datan på ett kritiskt, distanserat och komplexitetsbejakande sätt.

Den megakvantitet av data som vi idag har att röra oss med ger oss helt nya möjligheter, och alla de möjligheterna är inte bra. Vissa av dem appellerar till våra sämre sidor: att vi tror vi sitter inne på hela sanningen, att vi helst predikar för de redan frälsta, att vi hellre söker bekräftelse på hållna övertygelser än motsatsen. Nu har vi helt plötsligt chansen att med hjälp av data skapa avancerade, data-drivna luftslott, uppförda som en intellektuell maktdemonstration för att legitimera “vår sak”. Datan kan emellertid bearbetas, misstolkas och i vissa fall manipuleras (för ett skrämmande exempel med allvarliga konsekvenser i den fysiska verkligheten, läs här om Reinhart/Rogoff-studien). Vi är beredda att gå långt för att få verkligheten att anpassa sig efter våra mentala narrativ snarare än tvärtom. Det är dessa narrativ vi läser upp för oss själva för att göra en komplex, motsägelsefull och svårbegriplig värld till något annat: en logisk, förutsägbar och enklare värld som dansar efter vår pipa. Vi försätter oss själva i ett läge där vi riskerar – och här parafraserar jag Kahneman – en sorts “data-inducerad blindhet”. Vi missar inte skogen för alla träd – snarare är träden så många och sinsemellan olika att vi resignerat kastar händerna i luften och kallar alltsammans för en björkskog för att bespara oss den mentala ansträngningen.

Vidare läsning, inspriation och källor:

http://www.wired.com/2008/06/pb-theory/

“The Signal and the Noise: Why so many predictions fail – but some don’t”, Nate Silver

http://www.econtalk.org/archives/2016/01/greg_ip_on_fool.html

http://www.econtalk.org/archives/2015/12/philip_tetlock.html

http://www.bloomberg.com/bw/articles/2013-04-18/faq-reinhart-rogoff-and-the-excel-error-that-changed-history

Leave a Reply

Your email address will not be published.