A John Hopkins Egyetem Covid adatai valószínűleg számítógépes modellezés eredményei voltak

2024.05.15.

„A John Hopkins Egyetem közzétette a legfrissebb járványszámokat, eszerint már félmilliárd felett a Covid-fertőzöttek száma világszerte.” „Világszerte xxxxxx ember fertőződött meg eddig a koronavírus-járványban, a halálos áldozatok száma yyyyyy – derül ki a baltimore-i Johns Hopkins Egyetem [...] adataiból.” Ilyen és hasonló híreket olvashattunk a Covid idején. Úgy tűnt, hogy kutatók egy egyetemen pontos adatokkal rendelkeznek a pandémiáról, amelyeket nyilvánosságra is hoznak. A John Hopkins Egyetem (JHU) interaktív dashboard-ja (műszerfala) a Covid-19 járvány globális referenciájává vált, naponta több milliárdan kattintottak rá. 2023. március 10-től leállították a Covid adatgyűjtést.

A The Dashboard that Ruled the World („A dashboard, amely a világot uralta”) című cikk részletesen kifejti, hogy ez a dashboard valószínűleg egy számítógépes szimuláción alapult, és semmiképpen sem tükrözte a fertőzés valós idejű alakulását, ahogyan azt állították.

Egy nappal a WHO első jelentése után a még nevet nem kapott betegségről elindult a dashboard

Az első különös dolog, amire a cikk felhvja a figyelmet, az az, hogy hogy mindössze 23 nappal azután, hogy Wuhanban néhány „ismeretlen tüdőgyulladásos” esetet találtak, Baltimore-ban három személy elindított egy dashboard-ot, amelynek célja az volt, hogy nyomon kövesse a világ minden országában a betegséggel kapcsolatos esetek és halálesetek számát. A WHO első helyzetjelentését csak az előző napon tették közzé, és a „Covid” kifejezést még nem is alkották meg. Az első WHO-jelentésben 282 megbetegedés szerepelt négy országból, Kínán kívülről mindössze négy eset. „Összehasonlításképpen és a dolgok perspektívába helyezése végett a norovírus becslések szerint 685 millió embert fertőz meg és 212.000 halálesetet okoz évente. Nincs tudomásunk arról, hogy a világon bárhol is lenne norovírus-dashboard.”

Az egyik lehetséges magyarázat a dashboard létrehozására az, hogy az egyetemen 3 hónappal korábban rendezték meg az Event 201 eseményt, egy globális és halálos világjárványt okozó új koronavírusról szóló fiktív forgatókönyvön alapuló gyakorlatot.

Az új weboldal gyorsan a média, az orvosi kutatók, az egészségügyi hatóságok és a nagyközönség első számú adatszolgáltató webhelyévé vált. Az indulást követő két hónapon belül a honlapot a jelentések szerint naponta 1,2 milliárdszor keresték fel.

A valós idejű adatgyűjtés nehézsége

Hónapokig vagy akár évekig tart megbízható halálozási adatok összegyűjtése és kiértékelése. Kanadában pl. még mindig csak 2020-ra vonatkozó hivatalos adatok állnak rendelkezésre a minden okból bekövetkezett halálozásokról. Hogyan juthatott volna hozzá a JHU valós idejú halálozási adatokhoz?

Nagy kihívás statisztikát készíteni egy adott kórokozóról. Hét hónappal a 2017/2018-as influenzaszezon vége után a CDC az Egyesült Államokban még mindig csak becsléseket közölt az esetek és a halálesetek számáról. Pontosan két hónappal később elindult a JHU dashboard-ja, amely valós idejű információkat ígért egy újonnan felfedezett, az influenzához hasonló légúti vírus eseteiről és halálesetekről.

„Természetesen rengeteg olyan ország van a világon, ahol az adatszolgáltatás a legjobb esetben is megbízhatatlan. Hasonlóképpen, a Human Mortality Database, amely a halálozást országonként követi nyomon, számos ország esetében rendszeresen tízéves késésben van. Hogyan számíthatott tehát a JHU arra, hogy képes lesz valós időben ábrázolni a Covid halálozását a világ minden országára vonatkozóan? Ami még ennél is fontosabb, hogyan tudták »15 percenként« frissíteni a dashboard-jukat?”

Adatforrások: Twitter, online média, más dashboard-ok, a számítógépes modelleket használó Worldometer

Az elsődleges adatforrás kezdetben a DXY, a kínai orvosi online platform volt, amely a helyi média és a kormányok jelentéseit összesítette. Később különböző Twitter-csatornák, online hírszolgáltatók és a dashboard-on keresztül küldött közvetlen adatok, majd az egészségügyi ügynökségek dashboard-jainak adatait vették figyelembe, de nem közöltek részleteket ezekről. Ha a nagy online hírszolgáltatók a JHU adataiban bíztak, akkor hogyan kaphatta a JHU az adatait (potenciálisan) ugyanezekből a hírforrásokból?

A Worldometer volt az egyik adatforrás. A Worldometer általában számítógépes szimulációkat használ a statisztikai információk „valós idejű” közléséhez, amelyek éves összesítéseken és becsléseken alapulnak.

„Használt-e a Worldometer számítógépes számításokat a Covid-statisztikák meghatározásához hasonló módon, mint a gépjárműbalesetek esetében? Ha igen (és mivel nem tudhatták előre az éves összesített adatokat), akkor nem valós halálesetek, hanem járványtani modellek alapján becsülték meg, hogy hány ember fog az adott évben Covidban meghalni? Egyik kérdésre sem lehet biztos választ adni. Forráslistájukban csak kormányzati intézmények szerepelnek. Mivel azonban a források teljes listája nem áll rendelkezésre, és mivel nem tagadják kifejezetten, hogy számítógépes algoritmusokat használtak volna, meglehetősen valószínű, hogy a Worldometer számítógépes modelleket használt a Covid-statisztikák előállításához. Ezt még biztosabbá teszi az a tény, hogy a kormányok nem tudtak volna valós időben Covid-információkat generálni.[...] Mivel a JHU a Worldometer-t használta forrásként, ez azt jelenti-e, hogy a JHU dashboard-ján szereplő adatok is számítógépes modelleken alapulnak, nem pedig valós eseményeken?”

A duplikációk problémája

Több adatforrás kombinálása összetett folyamat; az egyik jelentős kihívás a duplikációk kezelése. Egynél több forrásból származó információ esetén előfordulhat, hogy ugyanazt az eseményt kétszer számoljuk. A hírforrások ugyanis nem tartalmazzák a személyek egészségügyi azonosítóit. Ez azt jelenti, hogy a dashboard által közölt Covid esetek és halálesetek száma egyes régiókban két, három vagy többszöröse lehetett a valóságnak.

Nyelvi korlátok

„A JHU dashboard tervezésében részt vevő három ember közül kettő Kínában született, a harmadik amerikai volt. Ez lehetővé tette volna számukra, hogy elolvassák a DXY weboldalán közzétett kínai jelentéseket. De a világ nem minden országa tesz közzé adatokat kínai vagy angol nyelven. Az idegen nyelvű weboldalakról való adatszerzés még az automatizált fordítóeszközökkel is jelentős nehézségeket okoz. Ennek globális automatizálása szinte elképzelhetetlen. Az internetről való lekérdezés szinte lehetetlen, ha a keresett weboldalak a kutató számára ismeretlen nyelven vannak. Az ilyen jellegű kihívásokkal általában mindenki szembesül, aki globális kutatást végez, és emiatt a kutatók gyakran az általuk ismert nyelvet használó országokra szorítkoznak. Hogyan csinálta ezt a JHU csapata?”

A dashboard csapatának vezetője Lauren Gardner, a fertőző betegségek modellezésének szakértője volt.

A John Hopkins Egyetem Covid adatai nagy valószínűséggel egy számítógépes modell eredményei

2020. március 13-án Lauren Gardner a Capitol Hillen tartott kongresszusi meghallgatáson a dashboard-dal kapcsolatban megemlítette a „modellezési erőfeszítéseket, amelyeket a színfalak mögött teszünk”.

A JHU egyetem honlapján olvasható, hogy Gardner a fertőző betegségek kockázata modellezésének szakértője, beleértve a COVID-19-et is, és ő vezeti a COVID-19 modellezési erőfeszítéseket amerikai városokkal együttműködve, hogy testreszabott modelleket dolgozzanak ki a COVID-19 kockázatának helyi szintű becslésére.

2019-ben Gardner „újszerű matematikai modellezési keretrendszert” dolgozott ki egy vírusos járvány kitörésének becslésére.

„Ezért arra a tényre alapozva, hogy Gardner szakértő a betegségek modellezésében, hozzászokott a modellek empirikus adatokkal történő kalibrálásához, aktívan részt vett a Covid modelljeinek fejlesztésében, kijelentette, hogy modelljei pontosabbak a hivatalosan közölt számoknál, és hogy osztálya a modellezést alapvetőnek tartja bármely probléma megközelítésekor, biztosra kell venni, hogy az adatok alapjául számítógépes modelleket használtak. Más szóval, hacsak nincs erős bizonyíték az ellenkezőjére, biztos, hogy a JHU csapata számítógépes modelleket használt az eset- és halálozási számok előállításához. Közvetlen bizonyítékot azonban nem találtunk.”

Több probléma is felmerül, ha egy megbízhatónak tartott dashboard állítások szerint egészségügyi hatóságok által felhasználható empirikus adatokat tárol, de az adatokat valójában számítógépes modellek generálják. Ezek közül néhány a cikkben olvasható.

A cikk végén egy esettanulmány található: a Covid halálesetek számának alakulása New York városban 2020. május 17-ig. Az összehasonlítás érdekében a Hubei tartományban 2020 első három hónapjában bekövetkezett Covid-halálozások grafikonja szerepel. Hubei tartomány lakossága 58 millió, New York város lakossága 8,3 millió. A 3.164 haláleset Hubeiben jelentősen kevesebb volt, mint a 23.338 haláleset New York-ban. „Ha ezek a számok helyesek lennének, akkor ez azt jelentené, hogy ami New York-ban történt, az 51-szer rosszabb volt, mint ami abban a tartományban történt, ahonnan a Covid állítólag származik. Ez a forgatókönyv annyira valószínűtlen, hogy már-már a képtelenség határát súrolja, és alátámasztja azt az elképzelést, hogy a New York-i adatok nem a megfigyelt tényeken alapulnak.”

Következtetés

„A JHU dashboard-ot „azért fejlesztették ki, hogy a kutatók, a közegészségügyi hatóságok és a nagyközönség számára felhasználóbarát eszközt biztosítson a járvány kibontakozásának nyomon követésére”. Amellett, hogy bármilyen betegség valós idejű nyomon követése funkcionálisan lehetetlen, és annak ellenére, hogy semmi különös nem „bontakozott ki”, amikor kifejlesztették, minden bizonyíték arra utal, hogy sikerült létrehozniuk egy Covid dashboard-ot számítógépes modellek segítségével, amelyeket időről időre „korrigáltak” a hivatalos kormányzati honlapokról szerzett adatokkal. Azzal, hogy a számítógépes modellekből származó adatokat összekeverték a megfigyelésekből származó adatokkal, miközben egyidejűleg azt állították, hogy „teljes mértékben a nyilvánosan elérhető adatokra támaszkodtak”, olyannyira összezavarták az adatokat, hogy azok értéktelenné váltak. Ennek eredményeképpen a JHU Covid-adatbázisa annyira megbízhatatlan volt, és most is az, hogy soha nem lett volna szabad felhasználni sem a Covid-esetek, sem a halálesetek meghatározásához.”