[SON] [AUDIO_VIDE] Bonjour. Bienvenue au cours d'aléatoire de l'École Polytechnique. Nous allons faire un exercice qui s'appelle Second tour d'une élection présidentielle. Deux candidats, grand D et grand D s'affrontent au second tour d'une élection présidentielle dans un grand pays. Un sondage auprès de 1 024 électeurs, sur 43 millions environ, donne grand G gagnant avec environ 52 % des suffrages. Question : quelle est la probabilité pour qu'en fait G soit le perdant? Donc solution de l'exercice Second tour d'une élection présidentielle. Des modalités précises du sondage de la façon dont l'échantillon a été constitué ne sont pas précisées, mais de toute façon l'approximation de la loi hyper géométrique par la loi binomiale sera excellente avec ces données. 1 024, la taille de l'échantillon, 43 millions, la taille de l'électorat. Donc pour construire la loi binomiale nous allons utiliser des variables de Bernoulli. On se donne une suite Xk de variables de Bernoulli, de variables aléatoires indépendantes identiquement distribuées de Bernoulli avec la probabilité pour que (X1 = 1) = p, et la probabilité que (X1 = 0) = 1- p. Donc un sondage comme ça, on construit un estimateur sans biais de petit p, entre guillemets vraie proportion de gens qui veulent voter pour G, donc l'estimateur sans biais de petit p sera donné par p chapeau de n = 1/n somme de k = 1 à n, de Xk. Donc on considère que Xk vaut 1 si l'électeur veut voter pour G, Xk vaut 0 si l'électeur ne veut pas voter pour G ou veut plutôt voter pour D. Donc le sondage utilise cet estimateur dans biais et le résultat c'est que p chapeau de 1 024 = 0,52. 52 % de l'échantillon déclare vouloir voter pour grand G, donc on estime p la vraie proportion de gens qui veulent voter pour grand G par p chapeau de 1 024 = 0,52. La question c'était de savoir quelle était la probabilité pour qu'en fait G perde les élections. La question c'est donc d'évaluer la probabilité pour que p chapeau n, estimation faite de p, moins p soit strictement supérieure à delta, donc la probabilité pour qu'on surestime p de delta pour n = 1 024, et delta = 0,02, qui est juste la différence entre 0,52 et 0,5. On dit que 52 % des gens qui sont prêts à voter pour lui, le sondage donne ce résultat-là. Si en fait il y en a légèrement moins de 50 %, G va perdre. Donc il s'agit de savoir si on surestime d'au moins 2 % la probabilité petit p qu'un individu veuille voter pour G. Donc on veut évaluer la probabilité pour que p chapeau n- p soit strictement plus grand que delta, et donc par définition c'est la probabilité pour que 1/n somme de k = 1 à n de Xk- p soit strictement plus grand que delta. Nous allons utiliser le théorème central limite qui dit que convenablement normalisé, 1/n somme de k = 1 à n de Xk- p normalisé en multipliant par racine de n et en divisant par l'écart type c'est-à-dire par la racine de la variance p(1- p) des variables de Bernoulli, cette quantité converge vers la variable aléatoire gaussienne centrée réduite. Donc en particulier les fonctions de répartition convergent vers les fonctions de répartition de la gaussienne, qui sont des fonctions continues, elles convergent petit a par petit a vers la fonction de répartition. De même les compléments convergent aussi, et donc en fin de compte le théorème central limite implique que pour tout a, la probabilité pour que 1/n somme de k = 1 à n de Xk - p, ce terme qui nous intéresse, normalisé en multipliant par racine de n en divisant par l'écart type qui est la racine de la variance racine de p(1- p), la probabilité pour que ça soit plus grand que a ça converge quand e tend vers l'infini, vers l'intégrale de a à l'infini de la densité gaussienne- x carré facteur de 1/racine de 2 pi. Donc par ailleurs il existe des théorèmes de vitesse sur cette convergence avec notemment l'uniformité en petit a. Un problème ici, c'est qu'on ne connaît pas p, puisqu'on est en train de l'estimer, donc a priori on ne connaît pas la variance p(1- p), donc ici la bonne façon de faire c'est de majorer p(1- p) par 1/4 qui est la valeur maximale de p(1- p) possible obtenue pour p = 1/2, dans d'autres circonstances on estime un p qui est loin d'1/2, on pourrait remplacer p par son estimation, ça donnerait pratiquement ici la même chose. Mais ici justement on est en train d'évaluer la probabilité pour qu'on se soit trompé et que au lieu d'avoir 0,52, on a des choses beaucoup plus proches de 0,5 donc c'est tout à fait naturel de remplacer la variance par celle obtenue pour p = n. Il faut qu'on fasse une majoration de la variance, donc on regarde un effet du hasard maximal en majorant la variance. Donc nous avons le résultat du théorème limite central, c'est que la probabilité pour que 1/n somme de k = 1 à n Xk- p, le tout multiplié par racine de n, divisé par l'écart type racine de p(1- p) soit plus grand que a, est équivalent quand n tend à l'infini à l'intégrale de a à l'infini de la densité gaussienne donc de cette équivalence, nous allons tirer un seuil de confiance asymptotique. Pour ça, nous. ce qui nous intéresse, c'est la probabilité pour que 1/n somme de k = 1 à n de Xk- p soit plus grande que delta. En prenant a = racine de n sur racine de p(1- p) delta, nous avons bien ici, en simplifiant ensuite par racine de n sur racine de p(1- p) delta, nous avons bien la probabilité pour qu'1/n somme de k = 1 à n de Xk- p soit plus grande que delta. Et donc nous disons que c'est à peu près la même chose que intégrale de a à l'infini de la densité gaussienne. Donc il s'agit de prendre a = racine de n sur racine de p(1- p) delta, donc n c'était 1 024, sa racine c'est 32, 1 024 c'est 2 puissance 10 sa racine c'est 2 puissance 5, donc 32. Ensuite nous avons majoré p(1- p) par 1/4, donc la racine par 1/2 donc nous nous retrouvons avec un 2, et ensuite il y a le 0,02, le 0,02 la valeur que l'on a donnée pour delta. Et donc tous calculs faits, ça nous donne 1,28. 0,02 c'était l'écart entre 0,52 et 0,5, la probabilité estimée que quelqu'un veuille voter pour G, et le fait qu'on s'est trompé de au moins 0,02 dans ce sens-là et que donc c'est G qui perd et D qui gagne. Donc en fin de compte on trouve 1,28. Une fois qu'on a ça, on approche la probabilité de l'événement qui nous intéresse par intégrale de 1,28 à l'infini de la densité gaussienne, donc on utilise les tables de la loi gaussienne centrée réduite, ou un ordinateur, et on trouve que l'intégrale de a à l'infini de la densité gaussienne ce qui vaut à peu près intégrale de 1,28 à l'infini de la densité gaussienne, on trouve 0,1, c'est-à-dire 10 %. Donc tous calculs faits, la probabilité qu'en fait G soit le perdant et donc que D gagne est de l'ordre de 10 %, ce qui n'est pas négligeable. La remarque qu'on peut aussi faire, c'est que très souvent dans les sondages, on donne des intervalles de confiance bilatères, donc on a tendance à dire que le vrai résultat de G se trouve entre telle et telle valeur autour de 52 % avec telle probabilité, or ici c'est pas du tout ça qui nous intéresse. Ce qui nous intéresse c'est de savoir si le petit p, la proportion de gens qui votent pour G est éventuellement strictement inférieure à 0,5 alors que le sondage donne comme valeur 0,52. Nous avons ici un intervalle de confiance unilatère, et nous avons calculé une probabilité qui n'est quand même pas négligeable de 10 %, pour que ce sondage se trompe. Ceci termine la solution de l'exercice.