Někdy stačí jeden tweet a nová pátrací akce je hned na světě:

Vliv počtu písmen
Z Wikipedie jsem se pokusil vyčíst, kdo kandidoval a kdo byl pak zvolen za prezidenta od roku 1918 až do současnosti. Bylo to celkem zajímavé srovnat se současnou dobou, kdy si vůbec máme z koho vybírat, neb často byly doby, kdy byl kandidát jenom jeden.
Podívejme se nejdříve na četnost počtu písmen v příjmeních kandidátů:

Zde je počet písmen 5 nejčastější. Pokud si uděláme logistickou regresi:
Call:
glm(formula = Prezident ~ Pocet_pismen, family = binomial(),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6172 -1.1552 0.9188 0.9188 1.5075
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.3855 1.2751 1.871 0.0614 .
Pocet_pismen -0.3483 0.1969 -1.769 0.0769 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 63.421 on 45 degrees of freedom
Residual deviance: 59.731 on 44 degrees of freedom
AIC: 63.731
Number of Fisher Scoring iterations: 4
tak na základě p-value 0.0769 nemůžeme zamítnout nulovou hypotézu, že počet písmen v příjmení vliv na zvolení kandidáta prezidentem nemá.
5 písmen vs. ostatní
Pokud si rozdělíme kandidáty na ty, co mají v příjmení 5 písmen a ostatní, pak nám vyjde:
Call:
glm(formula = Prezident ~ Ma_5_pismen, family = binomial(), data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.5829 -1.0108 0.8203 0.8203 1.3537
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4055 0.4082 -0.993 0.3206
Ma_5_pismenTRUE 1.3218 0.6325 2.090 0.0366 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 63.421 on 45 degrees of freedom
Residual deviance: 58.778 on 44 degrees of freedom
AIC: 62.778
Number of Fisher Scoring iterations: 4
> exp(1.3218)
[1] 3.750166
Zde na základě p-value 0.0366 usuzujeme, že kandidáti s 5 písmeny v příjmení mají 3,75x vyšší šanci být zvoleni prezidentem než ostatní.
Srovnání s nulovým modelem:
$Models
Formula
1 "Prezident ~ Ma_5_pismen"
2 "Prezident ~ 1"
$Fit.criteria
Rank Df.res AIC AICc BIC McFadden Cox.and.Snell Nagelkerke p.value
1 2 44 64.78 65.35 70.26 0.07321 0.09602 0.1283 0.01816
2 1 45 67.42 67.70 71.08 0.00000 0.00000 0.0000 Inf
I zde nám model zahrnující informaci o 5 písmenech vychází podle nižšího AIC i BIC jako lepší než model bez proměnných.
Rozdělení délky jmen v populaci
Ještě než se uchýlíme k předčasným závěrům, bylo by dobré si udělat přehled, jak často se jednotlivé délky jmen vyskytují v populaci. Data jsem si vypůjčil z této stránky:

Zde nám převládá počet 7. Data však zahrnují i ženská příjmení, která díky koncovce “ová” bývají o něco delší než mužské. Když zohledním, že historicky drtivá většina kandidátů na prezidenta byli muži, pak pokud z dat odfiltruju všechna příjmení, které obsahují “ová”, dostaneme:

Z grafu lze vidět, že u mužských příjmení jsou nejčastější zrovna ty o délce 5 písmen.
Závěr
Ze statistických modelů jsme zjistili, že kandidáti na prezidenta s 5 písmeny v příjmení mají 3,75x vyšší šanci být zvoleni prezidentem než ostatní. Ale pamatujme, že korelace není kauzalita, a proto když se podíváme, jak dlouhá mužská příjmení se v Česku vyskytují nejčastěji, jsou to zrovna ty o délce 5 písmen. Proto se zdá, že se tentokrát žádná konspirační teorie nekoná 🙂 .