From the category archives:

Proof of concept

eMind Flu Trends

by Dag Petter Svendsen on 16/06/2009

Kan data fra norske diskusjonsfora påvise utbruddet av influensa? I november 2008 annonserte Google at gjennom analyser av søkeord kunne Google påvise starten på influensasesongen før amerikanske helsemyndigheter. Denne nyheten skapte oppsikt og viste at data over hva folk søker informasjon om og diskuterer på internett faktisk kan påvise fenomener før konvensjonelle analyser registrerer slike hendelser. Google har gjentatt analysen i forbindelse med utbruddet av “svineinfluensaen” i Mexico og USA i april.

eMind har gjennomført analyser tilsvarende de Google har gjort med sine data. I grafikken under vises data over diskusjoner (blå linje) relatert til influensa i alle store diskusjonsfora i Norge (VGD.no, Diskusjon.no, Barnimagen.com etc.), i tillegg til Googles data (grønn linje) over norske influensasøk, samt Folkehelseinstituttets (FHI) data over andelen legekonsultasjoner relatert til influensaliknende diagnoser (rød linje). Data er innsamlet for influensasesongen 2006-2007, og for å kunne sammenliknes er data standardiserte.

Googles søkeorddata og data fra norske diskusjonsfora påviser sesongens influensautbrudd før Folkehelseinstituttet:

eMind_flu_trends_s

Jens vs. Jensen

by Dag Petter Svendsen on 14/06/2009

Så langt inn i den gryende valgkampen synes to partier å utgjøre de politiske hovedmotsetningene; Arbeiderpartiet og Fremskrittspartiet. I dette innlegget vil ikke mulige forklaringer til denne polariseringen kommenteres, her vises kun de tendensene som identifiseres i norske diskusjonsfora i løpet av de siste sju ukene.

Jens_Jensen_s

Jens_Jensen_kke_s

Antallet diskusjoner relatert til de to nevnte politiske konkurrentene er ganske jevnt fordelt, men Jens Stoltenberg er noe mer omtalt. Hva kan så konkluderes ut fra denne observasjonen?

I den nye norske offentligheten, som utgjøres av diskusjonsfora, av bloggosfæren, twittersfæren osv. deltar en omfattende mengde borgere – og i sin konsekvens potensielle velgere – i politisk meningsutveksling. De politiske tema som opptar de norske “online crowds” kan måles, gjennom kvantifisering av foruminnlegg, bloggposter, twittermeldinger etc. Viser så slike målinger tendenser som gjelder for befolkningen i sin alminnelighet? Har denne type målinger prediksjonskraft, eller sagt på en annen måte – kan denne type målinger generaliseres til å gjelde for hele befolkningen og slik påvise reelle politiske tendenser?

Borgere som ytrer politiske meninger online utgjør ikke et representativt utvalg. Antakelsen er – inntil semantiske analyser muliggjør en empirisk begrunnelse av dette eller hint – at online-borgerne avviker fra befolkningen hva angår alder (de yngre deltar mer enn de eldre), kohort (folk i etableringsfasen har ikke tid til onlinediskusjoner), yrke (borgere hvis arbeid krever så mye av dem at fritiden ikke prioriteres til politiske onlinediskusjoner eller øvrige politiske onlineytringer, enten det gjelder hjelpepleiere eller forskere) og tech-savvyness (borgere som ikke er familiære med og/eller interessert i internett og alt hva den digitale revolusjonen innebærer vedr. bl.a. deltakelse i politiske ytringer online). Dertil eksisterer mest sannsynlig andre forhold som også bidrar til skjevheter.

Fra dette kan man så utlede som en hypotese at det eksisterer skjevheter i mengden av online-borgere. Disse skjevhetene kan så “blåse opp” betydningen av meningene til borgere som a) tilhører de yngre generasjoner, slik som milleniumere, y-ere og x-ere, b) som ikke er i etableringsfasen (gitt at likestillingsidealet holdes høyt), c) som ikke har for krevende yrker hverken mentalt eller fysisk, og som d) i tillegg behersker blogging, forumdiskusjoner og dets like. I tillegg må kategorien (forløpig) “ukjent” legges til faktorer som kan skape skjevhet i de tendensene som påvises.

Likevel: Vi står fremfor en revolusjon hva angår formen for politisk deltakelse, både i Norge og i de øvrige deler av verden som er “connected”. Barrierene for politisk deltakelse senkes, velgere fra stadig bredere sosiale, økonomiske og generasjonelle lag deltar i onlinediskusjoner. Uansett om disse borgerne ikke er representative for befolkningen i sin helhet vil tendenser påvises – som i alle fall er reelle for de borgere som deltar i denne nye offentligheten – men ikke nødvendigvis begrenset til dette: I et fremtidig innlegg på denne bloggen vises eMind Flu Trends (vår variant av Google Flu Trends) – norske diskusjonsforadata påviser utbrudd av influensasesongen før Folkehelseinstituttets registrerer utbruddet. Konklusjonen i tilfellene Google Flu Trends og eMind Flu Trends er klar: “The online crowds” påviser tendenser og fenomener i kraft av deres antall og sosioøkonomiske bredde. Ønskes mer kunnskap om slike fenomener, se Predicting the Present with Google Trends.

Arbeidshypotesen er derfor at politiske tendenser som påvises i diskusjonfora, bloggosfæren og twittersfæren kan påvise viktige, underliggende reelle fenomener, politiske eller av annen type.

Proof of Concept – kan vi stole på buzzmålinger?

by Dag Petter Svendsen on 08/02/2009

I november i fjor skrev bl.a. Aftenposten og New York Times at Google forutser influensautbrudd gjennom å analysere Googles søkemotordata.

I grafikkene under vises trendanalyser som tidfester starten på og utbredelsen av a) sesongens influensautbrudd og b) svingninger i interessen for henholdsvis sommer- og vintersportsaktiviteter. Analysene er utført av eMind med Integrascos analyseplattform, og med data fra sentrale norske diskusjonsfora.

Påvisning av influensasykluser:

Influensa, fluktuasjoner

Interesse for sommer- vs. vintersport:

Sommersport vs vintersport