© cc-beeld: KamiPhuc
Heb je een vraag, suggestie of wil je gewoon iets kwijt? Dat kan hier. Lees onze spelregels.
In 2009, toen de gevolgen van de crisis net duidelijk begonnen te worden, had Wired een vooruitziende blik. Big data bestond nog niet, maar duidelijk was wel dat de manier waarop (financiële) gegevens verborgen zaten in tienduizenden ontoegankelijke documenten analyse vrijwel onmogelijk maakte. Nu, nu de pers uitgeknepen wordt (excusez le mot) is de publieke toegankelijkheid van betrouwbare gegevens belangrijker dan ooit. Het zal helaas nog vele jaren duren voor de wetgever dat ook maar begint te beseffen. https://archive.wired.com/techbiz/it/magazine/17-03/wp_reboot?currentPage=all
De huidige samenleving wordt gedomineerd door ‘Big Data’, enorme datasets van informatie over onze voorkeuren en handelingen. Bedrijven als Google en Facebook traceren dagelijks ons zoek- en klikgedrag om op die manier zoveel mogelijk informatie over ons in te winnen. Deze informatie wordt verkocht aan de hoogste bieder, die ons vervolgens bombardeert met advertenties. Dat heeft weinig van doen met big data, het dagelijkse bombardement aan advertenties gaat gewoon aan de hand van ingevoerde zoektermen of websitebezoeken in de afgelopen paar dagen, gecombineerd met wie het meest wil betalen voor de verbindingen. Big data zou juist tussen de regels door lezen zijn, conclusie trekken aan de hand de miljoenen andere interacties waar het systeem van geleerd heeft.
Al jaren krijg ik de dagelijkse nieuwsbrief van het zeer kritische duitse Telepolis dat zelfs de financiële crisis van 2007 correct voorspeld had. Dat had niks met big data te maken, maar uit voorhandene informatie de juiste conclusies trekken.. In juli publiceerde het online magazine in een artikel over de Panama papers dat de Rothshilds in Reno, US-staat Nevada een kantoor hebben waar zonder enige registratie ondernemingen, rijke families enz hun geld kunnen bewaren. Voor die informatie is geen big data nodig, hoogstens een betrouwbare informatiebron en mensen die de gegevens natrekken Telepolis is onderdeel van de Duitse uitgeverij Heise, die ook in Nederland het computermagazine c't uitgeeft.
> Door samenwerking tussen journalisten vormen tijdsdruk en een capaciteitstekort een minder groot obstakel voor Big Data-onderzoek. Ik geloof dat mw. Ruigrok niet helemaal weet wat het concept "Big-Data" inhoudt. Of liever gezegd - helemaal niet. Komt wel meer voor met buzz words. Maar als je denkt dat BigData gewoon "een heleboel gegevens" betekent, dan ben je er niet helemaal. Panama Papers heeft ook niets te maken met het potentieel van BigData in de huidige maatschappij. Het zijn gelekte gegevens - 1 anoniem persoon bij Mossack Fonseca die last kreeg van zijn geweten en een berg emails en documenten dropte bij een Duitse krant. Dat je dan veel "handjes" bij nodig hebt om dat door te spitten, dat begrijp ik ook wel. Maar dat heet geen BigData.
"Op deze manier heeft Trump menig (sociale) mediaplatformen weten te vullen en ook in de campagne voor de Tweede Kamerverkiezingen zien we deze trends terugkomen, getuige de laatste rel rond een Tweet van Wilders" WTF heeft dat met big data te maken? De Panama Papers kregen pas waarde doordat serieuze journalisten daaraan werkten. Hetzelfde geldt voor Wikileaks, voordat Assange de weg kwijt was, iedereen eruit werkte en (overgeleverd aan wat zijn tegenstanders zouden moeten zijn) besloot alles maar blind online te kwakken. En natuurlijk heeft Google meer hooggekwalificeerde mensen in dienst die goedbetaald met big data aan de slag gaan. Maar dat betekent zeker niet dat je dat moet kunnen matchen om daar gaten in te schieten en misstanden aan de kaak te stellen. Twee bekwame journalisten en een deep throath waren voldoende om het Watergateschandaal bloot te leggen, terwijl de tegenstander toch echt over meer troepen beschikten. Bovendien zien we veel hoopvolle ontwikkelingen: waar (in ieder geval Nederlandse) media alleen incidenteel in staat zijn om mensen vrij te maken voor onderzoeksjournalistiek ontstaan allerlei initiatieven die zich daar juist in specialiseren. Deels gefinancierd door crowd funding en gebruik te maken van online verdienmodellen. Er worden dus beslist stappen gezet om tot een nieuw evenwicht te komen. Bij the way: hoeveel weerstand moet je overwinnen om te gaan werken voor iets dat zich 'NLdse Nieuwsmonitor' noemt? Dus Nederlanddse Nieuwsmonitor, met dubbel d?
[Hoe breng je immers toekomstige misstanden aan het licht als grote bedrijven en overheden vaardiger zijn met Big Data dan de journalist?] Het antwoord: statistiek. Andere oplossingen zie ik voor als nog niet.
Big data analyse is het toverwoord van de laatste jaren maar het gebruik ervan in de journalistiek zal er vooral voor zorgen dat journalisten alleen nog maar verhalen schrijven die de meeste lezers trekken. Data mining is veel te moeilijk voor journalisten, daar heb je experts voor nodig, en die experts hebben meestal wel wat beters te doen.
Eigenlijk is het te triest voor woorden dat er geld wordt gevraagd zodat de journalist wordt geleerd hoe te zoeken in data. Een journalist zonder datavaardigheden is gewoon geen journalist van deze tijd en mag wat mij betreft met vervroegd pensioen. Ik mag toch aannemen dat datavaardigheden tegenwoordig onderdeel is van de opleiding tot journalist ... Mijn ervaring is dat de meerderheid van gepubliceerde krantenberichten fouten bevatten die zeer eenvoudig voorkomen hadden kunnen worden door een paar google zoekopdrachtjes uit te voeren. Maar nee, daar is geen geld voor dus nieuws is tegenwoordig in hoofdzaak het 1 op 1 overnemen van persberichten. Dan kan je er voor 100 miljoen aan datamining cursussen voor journalisten tegenaan gooien maar zolang persberichten kritiekloos geplaatst worden blijft het imago slecht. Daarnaast, dataminen heeft een hoge IT-component en vereist specialismen die je de gemiddelde journalist niet snel aan kan leren. Laat het ontsluiten van de data maar over aan IT'ers en leer de journalisten maar hoe je effectief kan zoeken in de ontsloten data of leer de journalist hoe ze in samenwerking met datamining specialisten specificaties opstellen betreffende op welke wijze relaties in data gepresenteerd moet worden zodat een IT'er leuke interfaces kan maken en de wat minder onderlegde journalist er eenvoudig in kan zoeken. Nog beter, zoek de samenwerking op en bouw het samen voor het geval bestaande cots tooling ontoereikend is. Voor de goede orde, ik ben een groot voorstander van onderzoeksjournalistiek en daar mag best geld voor gereserveerd worden mits de opinie van de journalist zo veel mogelijk achterwege blijft. Daar wil ik zelfs voor betalen. Randvoorwaarde is het ontsluiten van de data op basis waarvan de journalist het onderzoek heeft gedaan zodat ik de weggelaten informatie tot mij kan nemen en zelf een mening kan vormen.
"Mijn ervaring is dat de meerderheid van gepubliceerde krantenberichten fouten bevatten die zeer eenvoudig voorkomen hadden kunnen worden" Wen er maar aan. "door een paar google zoekopdrachtjes uit te voeren" En hoe moet je vervolgens de waarde inschatten van wat er in die zoekresultaten boven komt drijven? Grote kans dat dat ook aansluit bij jouw bubbel en je dus geen stap verder helpt. "Daarnaast, dataminen heeft een hoge IT-component en vereist specialismen die je de gemiddelde journalist niet snel aan kan leren." Het omgekeerde geldt evenzeer: je kunt een bèta niet zo snel specialismen aanleren waardoor ze ook echt in staat zijn om betekenis aan die data toe te kennen. Dat vereist toch echt een postdoctorale opleiding. "leer de journalisten maar hoe je effectief kan zoeken in de ontsloten data of leer de journalist hoe ze in samenwerking met datamining specialisten specificaties opstellen betreffende op welke wijze relaties in data gepresenteerd moet worden zodat een IT’er leuke interfaces kan maken en de wat minder onderlegde journalist er eenvoudig in kan zoeken" De bekende zelfoverschatting: de IT'er is niet beter onderlegd maar anders. Het vergt inderdaad een journalist om de specificaties op te stellen, want daar heeft die IT'er weer geen kaas van gegeten. Idealiter heb je alle vaardigheden in huis en staat er aan het hoofd van een team iemand die van alles kaas heeft gegeten.
Nee, de IT'er weet niet alles. Kern van het verhaal is dat je specialisten in moet zetten en het een illusie is dat je zomaar een journalist alles aan kan leren. Daarom zei ik ook dat journalisten en IT'ers samen moeten werken aan specs. Nu ik er verder over nadenk is dat niet genoeg. Ook heb je materiedeskundigen nodig zoals financieel specialisten wanneer het bijvoorbeeld om de Panama-papers gaat. Maar op hoofdlijnen zijn we het volgens mij wel eens.
"Maar op hoofdlijnen zijn we het volgens mij wel eens." Jazeker. Alleen rangschik ik de specialismen nevengeschikt. Met daarboven een generalist met een helikopterview die geen van de specialismen tot in de finesses beheerst maar die wel precies weet wat welk specialisme op kan leveren. Daarom zou ik bijvoorbeeld nooit een IT'er een 'leuke interface' laten bouwen maar alleen de achterkant ervan. Interactiondesign is een apart vakgebied dat meer op een kruispunt staat. Maar bepalend is: wat voor vragen wil je kunnen stellen. Regel je dat niet goed dan krijg je wat je iedere keer weer bij 'de diensten' ziet: achteraf blijken ze over alle benodigde kennis te beschikken maar vooraf was geen van hen in staat om uit de berg big data te halen wat relevant is en wat niet. Daarvoor heb je ook kennis uit de menswetenschappen nodig.