Blíží se další zima a s ní i pravděpodobně další vlna Covidu. Podíval jsem se tedy na data za období posledních dvou let, zda-li z nich můžeme vyčíst něco užitečného.

Uvědomění hned na začátek

Jakožto správný hravý chlapec (neboli pětatřicátník) jsem samozřejmě nejdříve strávil jedno odpoledne zkoušením sestavit prediktivní model, který by předpovídal přírůstky nakažených na 7 dní dopředu. A bylo to až poté, co jsem se stále nemohl dostat pod průměrnou chybu více než 2000, kdy mi došlo, že tyto přírůstky se dost dobře předpovídat nedají právě proto, že silně závisí na tom, jak moc se v daný den testuje. A tedy že toto číslo, které vidíme a určitě ještě uvidíme v každodenních titulkách novin, nemá samo o sobě téměř žádnou vypovídací hodnotu. Jediné, co mi tedy přijde smysluplné, je % pozitivních testů, které je asi nejvěrohodnější údaj o tom, jak velká část populace je aktuálně promořena.

Přírůstky vs. procenta nakažených

Proto když se podíváme na graf denních přírůstků pro PCR testy, uvidíme to, co je nám již dobře známo:

a nyní pohled na celou epidemii podle % pozitivních PCR testů, který vypadá takto:

Při srovnání obou grafů se zdá, že na přelomu 2021/2022 byl zvýšený zájem o testování, zatímco maximální % pozitivních testů dosahovalo podobných hodnot jako před rokem. Pokud by se tedy měl člověk orientovat podle % nakažených lidí, otázkou je, jaká hodnota je už to “velký špatný” (to si netroufám odhadovat), ale každopádně máme zatím polovinu července a procentuálně se již blížíme maximálním hodnotám, kterých epidemie dosáhla v minulých letech. Paradoxně aktuální čísla denních přírůstků se na grafu jeví v porovnání s předchozími vrcholy jako nízké.

Srovnání PCR a Antigen testů

Pro zjištění vlivu si vytvoříme lineární model:

Call:
lm(formula = pcr_procent ~ antigen_procent)

Residuals:
    Min      1Q  Median      3Q     Max 
-35.709  -6.575  -2.165   6.062  24.933 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)      8.86655    0.36472   24.31   <2e-16 ***
antigen_procent  1.96841    0.08214   23.96   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.095 on 772 degrees of freedom
Multiple R-squared:  0.4266,	Adjusted R-squared:  0.4258 
F-statistic: 574.3 on 1 and 772 DF,  p-value: < 2.2e-16

Z výsledků vyplývá, že % pozitivních zjištěných antigenními testy má významnou spojitost s % pozitivních případů zjištěných pomocí PCR. Vliv nárůstu 1% pozitivity u antigenních testů způsobí nárůst o 1.96% u pozitivity PCR. Tzn. pokud byste chtěli ve firmě ušetřit za PCR testy a pokud by vás jen velmi hrubě zajímala celková promořenost zaměstnanců, otestujte je pomocí antigenních testů a výsledné % pozitivity vynásobte dvěma. Když se na to podíváme z opačného úhlu pohledu, tak se zdá, že antigenní testy odhalí cca polovinu pozitivních případů ve srovnání s testy PCR. Celkový model vysvětluje 42.6% rozptylu s chybou ±8.1%.

Vizuálně pak vypadá model takto:

Na základě residuals/fitted grafu bych usoudil, že zde budou nějaké nelineární vlivy, takže jednoduché vynásobení % antigen testu dvěma je pouze hrubý odhad pro získání % pozitivity PCR:

Vztah Antigen/PCR testů podle období

Pokud data rozdělím na 2 skupiny podle období 1.6.2020-1.6.2021 a 1.6.2021-současnost, dostaneme taktéž zajímavý pohled:

Zde se nám děje něco zajímavého a zdá se, že se vztah mezi % pozitivních antigen/PCR testů nějakým způsobem v druhém ročním období změnil. Když vytvořím lineární model pro každé období zvlášť:

Call:
lm(formula = pcr_procent ~ antigen_procent, data = df[obdobi == 
    "2020-2021", ])

Residuals:
    Min      1Q  Median      3Q     Max 
-43.499  -8.040  -0.279   5.380  21.660 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)      12.1396     0.5277   23.00   <2e-16 ***
antigen_procent   2.1274     0.1485   14.33   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.645 on 363 degrees of freedom
Multiple R-squared:  0.3613,	Adjusted R-squared:  0.3595 
F-statistic: 205.3 on 1 and 363 DF,  p-value: < 2.2e-16

Call:
lm(formula = pcr_procent ~ antigen_procent, data = df[obdobi == 
    "2021-2022", ])

Residuals:
    Min      1Q  Median      3Q     Max 
-18.587  -4.217  -1.721   3.134  16.260 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)      4.77228    0.39470   12.09   <2e-16 ***
antigen_procent  2.23448    0.07735   28.89   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.903 on 407 degrees of freedom
Multiple R-squared:  0.6722,	Adjusted R-squared:  0.6714 
F-statistic: 834.5 on 1 and 407 DF,  p-value: < 2.2e-16

dostaneme, že první model (2020-2021) vysvětluje 36% rozptylu, kdežto druhý rovnou 67%. Z toho bych usoudil, že se korelace mezi % pozitivních antigen/PCR testů v druhém roce epidemie téměř dvojnásobně zvýšila. Za zmínku dle mého názoru taky stojí graf fitted/residuals, který jsem tentokrát vykreslil pomocí LOESS modelu pro druhé období epidemie (abychom potlačili nelineární vlivy):

Tady mi přijde zajímavé, že po překročení hodnoty 10% pozitivity PCR testů se rozptyl chyby modelu výrazně zvýší.

Poptávka po testech v závislosti na % PCR

Během Facebookové diskuze ještě vyvstala jedna zajímavá otázka, a sice jestli spolu koreluje počet provedených testů a míra promořenosti populace (kterou zde měřím podle % pozitivních PCR):

Call:
lm(formula = pcr_pocet ~ pcr_procent)

Residuals:
   Min     1Q Median     3Q    Max 
-40059 -16048  -5868   7491 119668 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 17907.39    1480.67  12.094  < 2e-16 ***
pcr_procent   656.87      83.58   7.859  1.3e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 24820 on 772 degrees of freedom
Multiple R-squared:  0.07408,	Adjusted R-squared:  0.07288 
F-statistic: 61.76 on 1 and 772 DF,  p-value: 1.301e-14

Zde nám vychází, že vliv mezi % PCR testů a počtem testů je statisticky významný a že nárůst 1% pozitivních PCR zvýší počet testů v průměru o 656. Model však vysvětluje pouze 7.4% celkového rozptylu a vizuálně vypadá takto: