A John Hopkins Egyetem Covid adatai valószínűleg számítógépes modellezés eredményei voltak

Adatforrások: Twitter, online média, más dashboard-ok, a számítógépes modelleket használó Worldometer

Az elsődleges adatforrás kezdetben a DXY, a kínai orvosi online platform volt, amely a helyi média és a kormányok jelentéseit összesítette. Később különböző Twitter-csatornák, online hírszolgáltatók és a dashboard-on keresztül küldött közvetlen adatok, majd az ​egészségügyi ügynökségek dashboard-jainak adatait vették figyelembe, de nem közöltek részleteket ezekről. Ha a nagy online hírszolgáltatók a JHU adataiban bíztak, akkor hogyan kaphatta a JHU az adatait (potenciálisan) ugyanezekből a hírforrásokból?

A Worldometer volt az egyik adatforrás. A Worldometer általában számítógépes szimulációkat használ a statisztikai információk „valós idejű” közléséhez, amelyek éves összesítéseken és becsléseken alapulnak. 

„​Használt-e a Worldometer számítógépes számításokat a Covid-statisztikák meghatározásához hasonló módon, mint a gépjárműbalesetek esetében? Ha igen (és mivel nem tudhatták előre az éves összesített adatokat), akkor nem valós halálesetek, hanem járványtani modellek alapján becsülték meg, hogy hány ember fog az adott évben Covidban meghalni? Egyik kérdésre sem lehet biztos választ adni. Forráslistájukban csak kormányzati intézmények szerepelnek. Mivel azonban a források teljes listája nem áll rendelkezésre, és mivel nem tagadják kifejezetten, hogy számítógépes algoritmusokat használtak volna, meglehetősen valószínű, hogy a Worldometer számítógépes modelleket használt a Covid-statisztikák előállításához. Ezt még biztosabbá teszi az a tény, hogy a kormányok nem tudtak volna valós időben Covid-információkat generálni.​[...] Mivel a JHU a Worldometer-t használta forrásként, ez azt jelenti-e, hogy a JHU dashboard-ján szereplő adatok is számítógépes modelleken alapulnak, nem pedig valós eseményeken?

A duplikációk problémája

Több adatforrás kombinálása összetett folyamat; az egyik jelentős kihívás a duplikációk kezelése. Egynél több forrásból származó információ esetén előfordulhat, hogy ugyanazt az eseményt kétszer számoljuk. A hírforrások ugyanis nem tartalmazzák a személyek egészségügyi azonosítóit. Ez azt jelenti, hogy a dashboard által közölt Covid esetek és halálesetek száma egyes régiókban két, három vagy többszöröse lehetett a valóságnak.

Nyelvi korlátok

„A JHU dashboard tervezésében részt vevő három ember közül kettő Kínában született, a harmadik amerikai volt. Ez lehetővé tette volna számukra, hogy elolvassák a DXY weboldalán közzétett kínai jelentéseket. De a világ nem minden országa tesz közzé adatokat kínai vagy angol nyelven. Az idegen nyelvű weboldalakról való adatszerzés még az automatizált fordítóeszközökkel is jelentős nehézségeket okoz. Ennek globális automatizálása szinte elképzelhetetlen. Az internetről való lekérdezés szinte lehetetlen, ha a keresett weboldalak a kutató számára ismeretlen nyelven vannak. Az ilyen jellegű kihívásokkal általában mindenki szembesül, aki globális kutatást végez, és emiatt a kutatók gyakran az általuk ismert nyelvet használó országokra szorítkoznak. Hogyan csinálta ezt a JHU csapata?”

A dashboard csapatának vezetője Lauren Gardner, a fertőző betegségek modellezésének szakértője volt. 

A John Hopkins Egyetem Covid adatai nagy valószínűséggel egy számítógépes modell eredményei

2020. március 13-án ​Lauren Gardner a Capitol Hillen tartott kongresszusi meghallgatáson a dashboard-dal kapcsolatban megemlítette a „modellezési erőfeszítéseket, amelyeket a színfalak mögött teszünk”.

A JHU egyetem honlapján olvasható, hogy Gardner a fertőző betegségek kockázata modellezésének szakértője, beleértve a COVID-19-et is, és ő vezeti a COVID-19 modellezési erőfeszítéseket amerikai városokkal együttműködve, hogy testreszabott modelleket dolgozzanak ki a COVID-19 kockázatának helyi szintű becslésére.

2019-ben Gardner „újszerű matematikai modellezési keretrendszert” dolgozott ki egy vírusos járvány kitörésének becslésére.

„Ezért arra a tényre alapozva, hogy Gardner szakértő a betegségek modellezésében, hozzászokott a modellek empirikus adatokkal történő kalibrálásához, aktívan részt vett a Covid modelljeinek fejlesztésében, ​kijelentette, hogy modelljei pontosabbak a hivatalosan közölt számoknál, és hogy osztálya a modellezést alapvetőnek tartja bármely probléma megközelítésekor, ​biztosra kell venni, hogy az adatok alapjául számítógépes modelleket használtak. Más szóval, hacsak nincs erős bizonyíték az ellenkezőjére, biztos, hogy a JHU csapata számítógépes modelleket használt az eset- és halálozási számok előállításához. Közvetlen bizonyítékot azonban nem találtunk.”

Több probléma is felmerül, ha egy megbízhatónak tartott dashboard állítások szerint egészségügyi hatóságok által felhasználható empirikus adatokat tárol, de az adatokat valójában számítógépes modellek generálják. Ezek közül néhány a cikkben olvasható.

A cikk végén egy esettanulmány található: a Covid halálesetek számának alakulása New York városban 2020. május 17-ig. Az összehasonlítás érdekében a Hubei tartományban 2020 első három hónapjában bekövetkezett Covid-halálozások grafikonja szerepel. Hubei tartomány lakossága 58 millió, New York város lakossága 8,3 millió. A 3.164 haláleset Hubeiben jelentősen kevesebb volt, mint a 23.338 haláleset New York-ban. „Ha ezek a számok helyesek lennének, akkor ez azt jelentené, hogy ami ​New York-ban történt, az 51-szer rosszabb volt, mint ami abban a tartományban történt, ahonnan a Covid állítólag származik. Ez a forgatókönyv annyira valószínűtlen, hogy már-már a képtelenség határát súrolja, és alátámasztja azt az elképzelést, hogy a New York-i adatok nem a megfigyelt tényeken alapulnak.

Következtetés

„A JHU dashboard-ot „azért fejlesztették ki, hogy a kutatók, a közegészségügyi hatóságok és a nagyközönség számára felhasználóbarát eszközt biztosítson a​ járvány kibontakozásának nyomon követésére”. Amellett, hogy bármilyen betegség valós idejű nyomon követése funkcionálisan lehetetlen, és annak ellenére, hogy semmi különös nem „bontakozott ki”, amikor kifejlesztették, minden ​bizonyíték arra utal, hogy sikerült létrehozniuk egy Covid dashboard-ot számítógépes modellek segítségével, amelyeket időről időre „korrigáltak” a hivatalos kormányzati honlapokról szerzett adatokkal. Azzal, hogy a számítógépes modellekből származó adatokat összekeverték a megfigyelésekből származó adatokkal, miközben egyidejűleg azt állították, hogy „teljes mértékben a nyilvánosan elérhető adatokra támaszkodtak”, olyannyira összezavarták az adatokat, hogy azok értéktelenné váltak. Ennek eredményeképpen a JHU Covid-adatbázisa annyira megbízhatatlan volt, és most is az, hogy soha nem lett volna szabad felhasználni sem a Covid-esetek, sem a halálesetek meghatározásához.”