Někdy stačí jeden tweet a nová pátrací akce je hned na světě:

Vliv počtu písmen

Z Wikipedie jsem se pokusil vyčíst, kdo kandidoval a kdo byl pak zvolen za prezidenta od roku 1918 až do současnosti. Bylo to celkem zajímavé srovnat se současnou dobou, kdy si vůbec máme z koho vybírat, neb často byly doby, kdy byl kandidát jenom jeden.

Podívejme se nejdříve na četnost počtu písmen v příjmeních kandidátů:

Zde je počet písmen 5 nejčastější. Pokud si uděláme logistickou regresi:

Call:
glm(formula = Prezident ~ Pocet_pismen, family = binomial(), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6172  -1.1552   0.9188   0.9188   1.5075  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)  
(Intercept)    2.3855     1.2751   1.871   0.0614 .
Pocet_pismen  -0.3483     0.1969  -1.769   0.0769 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 63.421  on 45  degrees of freedom
Residual deviance: 59.731  on 44  degrees of freedom
AIC: 63.731

Number of Fisher Scoring iterations: 4

tak na základě p-value 0.0769 nemůžeme zamítnout nulovou hypotézu, že počet písmen v příjmení vliv na zvolení kandidáta prezidentem nemá.

5 písmen vs. ostatní

Pokud si rozdělíme kandidáty na ty, co mají v příjmení 5 písmen a ostatní, pak nám vyjde:

Call:
glm(formula = Prezident ~ Ma_5_pismen, family = binomial(), data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.5829  -1.0108   0.8203   0.8203   1.3537  

Coefficients:
                Estimate Std. Error z value Pr(>|z|)  
(Intercept)      -0.4055     0.4082  -0.993   0.3206  
Ma_5_pismenTRUE   1.3218     0.6325   2.090   0.0366 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 63.421  on 45  degrees of freedom
Residual deviance: 58.778  on 44  degrees of freedom
AIC: 62.778

Number of Fisher Scoring iterations: 4

> exp(1.3218)
[1] 3.750166

Zde na základě p-value 0.0366 usuzujeme, že kandidáti s 5 písmeny v příjmení mají 3,75x vyšší šanci být zvoleni prezidentem než ostatní.

Srovnání s nulovým modelem:

$Models
  Formula                  
1 "Prezident ~ Ma_5_pismen"
2 "Prezident ~ 1"          

$Fit.criteria
  Rank Df.res   AIC  AICc   BIC McFadden Cox.and.Snell Nagelkerke p.value
1    2     44 64.78 65.35 70.26  0.07321       0.09602     0.1283 0.01816
2    1     45 67.42 67.70 71.08  0.00000       0.00000     0.0000     Inf

I zde nám model zahrnující informaci o 5 písmenech vychází podle nižšího AIC i BIC jako lepší než model bez proměnných.

Rozdělení délky jmen v populaci

Ještě než se uchýlíme k předčasným závěrům, bylo by dobré si udělat přehled, jak často se jednotlivé délky jmen vyskytují v populaci. Data jsem si vypůjčil z této stránky:

Zde nám převládá počet 7. Data však zahrnují i ženská příjmení, která díky koncovce “ová” bývají o něco delší než mužské. Když zohledním, že historicky drtivá většina kandidátů na prezidenta byli muži, pak pokud z dat odfiltruju všechna příjmení, které obsahují “ová”, dostaneme:

Z grafu lze vidět, že u mužských příjmení jsou nejčastější zrovna ty o délce 5 písmen.

Závěr

Ze statistických modelů jsme zjistili, že kandidáti na prezidenta s 5 písmeny v příjmení mají 3,75x vyšší šanci být zvoleni prezidentem než ostatní. Ale pamatujme, že korelace není kauzalita, a proto když se podíváme, jak dlouhá mužská příjmení se v Česku vyskytují nejčastěji, jsou to zrovna ty o délce 5 písmen. Proto se zdá, že se tentokrát žádná konspirační teorie nekoná 🙂 .