Variable aléatoire réelle

Apparence déplacer vers la barre latérale masquer Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (septembre 2013).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

En théorie des probabilités, une variable aléatoire réelle est une variable aléatoire à valeurs dans R {\displaystyle \textstyle \mathbb {R} } , ou une partie de R {\displaystyle \textstyle \mathbb {R} }  ; c'est une fonction définie depuis l'ensemble des résultats possibles d'une expérience aléatoire, dont on doit pouvoir déterminer la probabilité qu'elle prenne une valeur donnée ou un ensemble donné de valeurs. Les variables aléatoires réelles sont les variables aléatoires les plus couramment étudiées, ce qui conduit certains auteurs à omettre l'adjectif réel, et à parler de variable aléatoire tout court.

Les variables aléatoires sont très utilisées en théorie des probabilités et en statistiques. Dans les applications, les variables aléatoires sont utilisées pour modéliser le résultat d'un mécanisme non-déterministe ou encore comme le résultat d'une expérience non-déterministe qui génère un résultat aléatoire. En statistique mathématique ou inférentielle, les variables aléatoires servent généralement à modéliser des populations supposées infinies.

Cet article ne traite que les variables aléatoires réelles :

Un exemple de variable aléatoire :
la fonction qui associe au résultat du jet de deux dés la somme de leurs valeurs.

Détails

Quelques variables aléatoires réelles

En guise d'introduction aux définitions concernant les variables aléatoires réelles, il semble intéressant de présenter brièvement une famille de variables très utilisées.

Outre la variable certaine qui prend une valeur donnée avec une probabilité égale à 1, la variable aléatoire réelle la plus simple est appelée variable de Bernoulli. Celle-ci peut prendre deux états, qu'il est toujours possible de coder 1 et 0, avec les probabilités p et 1-p. Une interprétation simple concerne un jeu de dé dans lequel on gagnerait un euro en tirant le six (p = 1/6). Sur une séquence de parties, la moyenne des gains tend vers p lorsque le nombre de parties tend vers l'infini.

Si on considère qu'une partie est constituée par n tirages au lieu d'un seul, le total des gains est une réalisation d'une variable binomiale qui peut prendre toutes les valeurs entières de 0 à n. Cette variable a pour moyenne le produit np. On obtient un exemple moins futile en considérant le score d'un candidat dans un sondage électoral.

Si n est assez grand et p pas trop petit, on peut trouver une approximation convenable en utilisant la variable de Gauss. Dans les sondages cela permet d'associer un intervalle de confiance au résultat brut. Ainsi, il y a 95 chances sur 100 pour qu'une enquête portant sur 1 000 personnes donne un résultat correct à ± 3 % près.

Toujours avec n grand, l'approximation de Poisson est préférable si p est assez petit pour que la moyenne np ne soit pas trop grande, de l'ordre de quelques unités. Dans un sondage ce serait la loi applicable aux « petits » candidats. C'est surtout la loi utilisée dans des problèmes de files d'attente.

La somme des carrés de ν variables de Gauss indépendantes est une variable de χ2 à ν degrés de liberté (la variable exponentielle en est un cas particulier). Le test du χ2 est utilisé pour apprécier la valeur de l'adéquation d'une loi de probabilité sur une distribution empirique.

Si on divise une variable de Gauss par une variable de χ (racine carrée de la précédente), on obtient une variable de Student. Le rapport de deux variables de χ2 indépendantes définit une variable de Snedecor. Ces deux lois sont utilisées dans l'analyse de populations supposées gaussiennes.

Notions de base

Loi de probabilité

Article détaillé : Loi de probabilité. P X ( A ) = P ( X ∈ A ) = P ( X − 1 ( A ) ) . {\displaystyle \mathbb {P} _{X}(A)=\mathbb {P} (X\in A)=\mathbb {P} \left(X^{-1}(A)\right).}

Fonction de répartition

Article détaillé : Fonction de répartition.

Il serait possible d'introduire cette notion à partir de l'une quelconque des variables précédemment considérées mais il paraît plus clair d'étudier le cas du dé sous un angle différent. En effet, il définit une variable aléatoire X qui prend avec la même probabilité d'apparition (1/6) des valeurs dans l'ensemble {1,2,3,4,5,6}. On peut alors associer à toute valeur réelle x la probabilité d'obtenir un tirage inférieur ou égal à x, ce qui définit une courbe en escalier dont les marches ont une hauteur égale à 1/6.

Formellement, cela conduit à une fonction de répartition

F X ( x ) = P ( X ≤ x ) {\displaystyle F_{X}(x)=\mathbb {P} (X\leq x)\,}

Dans celle-ci, la majuscule X représente la variable aléatoire réelle, ensemble de valeurs numériques, et la minuscule x représente la variable d'état, variable au sens usuel du terme.

Si les événements ne sont plus équiprobables, cela ne fait que déformer la courbe. Pour introduire une notion nouvelle, on peut commencer par remplacer le dé par une roulette à six numéros (ce qui conduit à un problème rigoureusement identique). Ensuite, on ne change rien de fondamental si on remplace les six nombres entiers par les repères des centres d'arcs de 60 degrés. À partir de là il est possible d'augmenter le nombre de secteurs en réduisant leur taille : les échelons deviendront de plus en plus petits jusqu'à être indiscernables sur un dessin. Le passage à la limite remplace la variable discrète par une variable continue qui prend toutes les valeurs réelles dans l'intervalle ]0,360] : c'est une variable uniforme.

Une fonction de répartition est croissante (au sens large) sur l'intervalle ]–∞ , +∞–∞ , +∞ = ∫ − ∞ + ∞ x   p X ( x )   d x . {\displaystyle \mathbb {E} =\int _{-\infty }^{+\infty }x\ p_{X}(x)\ {\textrm {d}}x.}

Cette quantité est plus connue sous le nom de moyenne.

X étant une variable aléatoire réelle, une fonction f supposée régulière définit une nouvelle variable aléatoire f ∘ X notée f(X) dont l'espérance, lorsqu'elle existe, s'écrit en remplaçant x par f(x) dans la formule précédente (théorème de transfert).

E = ∫ − ∞ + ∞ f ( x )   p X ( x )   d x . {\displaystyle \mathbb {E} =\int _{-\infty }^{+\infty }f(x)\ p_{X}(x)\ {\textrm {d}}x.}

Pour une variable discrète, la « densité de probabilité » conduit, sous réserve de sommabilité, à

E = ∑ k = − ∞ + ∞ f ( k )   P X ( k ) . {\displaystyle \mathbb {E} =\sum _{k=-\infty }^{+\infty }f(k)\ P_{X}(k).} Fonction caractéristique Article détaillé : Fonction caractéristique d'une variable aléatoire.

Si la densité de probabilité d'une variable aléatoire réelle X possède une transformée de Fourier, celle-ci (ou, plus précisément, la transformée inverse), fonction à valeurs complexes définie sur R {\displaystyle \mathbb {R} }

ϕ X ( t ) = E {\displaystyle \phi _{X}(t)=\mathbb {E} \,}

s'appelle fonction caractéristique de la variable.

Fonction génératrice des moments Article détaillé : Fonction génératrice des moments.

La fonction génératrice des moments d'une variable aléatoire X est définie par

M X ( t ) = E ( e t X ) , t ∈ R , {\displaystyle M_{X}(t)=\mathbb {E} \left({\textrm {e}}^{tX}\right),\quad t\in \mathbb {R} ,}

lorsque son espérance existe. Cette fonction, comme son nom l'indique, est utilisée afin de générer les moments associés à la distribution de probabilités de la variable aléatoire X. Elle permet en outre de déterminer l'additivité d'une loi.

Moments Article détaillé : moment (mathématiques).

Si la fonction caractéristique (ou la fonction génératrice) d'une variable aléatoire est développable en série, celle-ci fait apparaître les moments de celle-ci, le moment d'ordre k étant défini comme

m k ≡ E {\displaystyle m_{k}\equiv \mathbb {E} \,} .

Dans le cas, important pratiquement, d'une variable assez régulière, celle-ci peut donc être caractérisée par la suite de ses moments, sa fonction caractéristique ou sa fonction génératrice, sa densité de probabilité ou, éventuellement, sa fonction de probabilité ou par sa fonction de répartition.

Dans le cas général, seuls les premiers moments peuvent exister.

Outils pratiques

Moments et moments centrés

Le moment d'ordre un, espérance ou moyenne de la variable,

μ ≡ m 1 = E , {\displaystyle \mu \equiv m_{1}=\mathbb {E} ,\,}

est un indicateur de tendance centrale.

Les moments d'ordre supérieur éliminent ce paramètre de position en considérant la variable centrée par soustraction de sa moyenne.

Le moment centré d'ordre deux,

σ 2 ≡ m 2 ′ = E , {\displaystyle \sigma ^{2}\equiv m'_{2}=\mathbb {E} \left,\,}

est un indicateur de dispersion appelé variance. Sa racine carrée σ, grandeur homogène à la grandeur de base, s'appelle écart type. Lorsque la variable aléatoire est une valeur à un instant donné d'un processus aléatoire, l'expression moyenne quadratique est généralement préférée.

Ces deux moments fournissent une partie importante de l'information sur la variable, la totalité si celle-ci peut être considérée comme normale.

Les moments d'ordre supérieur, qui apportent pour les autres variables des précisions supplémentaires sur la forme de la distribution, portent sur la variable centrée réduite, rendue adimensionnelle par division par son écart type.

Le moment d'ordre trois de la variable centrée réduite,

m 3 ′ = E , {\displaystyle m'_{3}=\mathbb {E} \left,\,}

est un indicateur d'asymétrie.

Le moment d'ordre quatre de la variable centrée réduite,

m 4 ′ = E , {\displaystyle m'_{4}=\mathbb {E} \left,\,}

est un indicateur d'aplatissement des extrêmes des distributions appelé kurtosis.

Médiane et quantiles

Articles détaillés : Médiane et Quantile.

On appelle médiane d'une variable aléatoire X, un réel m tel que

P ( X ≤ m ) ≥ 1 / 2 ≤ P ( X ≥ m ) {\displaystyle \mathbb {P} (X\leq m)\geq 1/2\leq \mathbb {P} (X\geq m)}

Dans le cas d'une variable aléatoire discrète, cette définition est peu intéressante car elle permet l'existence de plusieurs médianes

si X est le numéro apparaissant sur la face supérieure d'un dé à 6 faces parfaitement équilibré, pour tout réel m strictement compris entre 3 et 4, on a : P ( X ≤ m ) = P ( X ≥ m ) = 1 / 2 {\displaystyle \mathbb {P} (X\leq m)=\mathbb {P} (X\geq m)=1/2}

ou bien l'existence d'une médiane qui ne donne pas une probabilité de 0,5.

Si X est la somme obtenue en lançant deux dés à 6 faces parfaitement équilibrés. X ne possède qu'une seule médiane 7 mais P ( X ≤ 7 ) = 21 / 36 {\displaystyle \mathbb {P} (X\leq 7)=21/36}

Dans le cas d'une variable continue, si la fonction de répartition est strictement croissante, la définition est équivalente à la suivante :

la médiane de X est le réel unique m tel que FX(m) = 0,5.

Le fait que la fonction de répartition soit continue, et supposée strictement croissante, à valeurs dans ]0 ; 1[, assure l'existence et l'unicité de la médiane.

Si la médiane a comme valeur m = 0,5, il est possible cependant de s'intéresser à d'autres valeurs de m (que l'on nomme les quantiles) :

Simulation d'une variable aléatoire

Article détaillé : Générateur de nombres pseudo-aléatoires.

On utilise souvent des générateurs pseudo aléatoires pour simuler le hasard. Il existe également des moyens d'exploiter l'indétermination de phénomènes physiques, par exemple en analysant les variations d'un film de lampe à lave, en analysant le bruit thermique, ou mieux encore, en demandant à la nature quantique de jeter des dés pour nous.

Voir aussi