Variables aleatorias

De acuerdo con Cruz (2023), las variables aleatorias son elementos o contenedores en donde se guardan valores o resultados de experimentos aleatorios. A la vez, pueden ser discretas cuando solo pueden tomar cierto número de valores específicos, es decir, son el resultado de contar algo, a diferencia de las continuas que surgen de un proceso de medición.

Por ejemplo, visualiza el experimento aleatorio de lanzar un dado:

X = el resultado de lanzar un dado.

Se sabe que hay seis diferentes resultados posibles:

Como puedes observar, se usa la variable discreta x para poder guardar cualquier posible resultado del experimento, es aleatorio; porque no se puede adivinar cuál será el resultado. Además, se sabe que la probabilidad de obtener cualquiera de los posibles resultados será igual a , ya que solamente puede salir una cara de las seis posibles:

Observa la siguiente tabla para visualizar los resultados de una mejor manera:

Tabla 1. Distribución de probabilidad para el lanzamiento de un dado.

Fíjate en la tabla que se armó, se toma como base la variable aleatoria x con cada uno de sus posibles resultados y sus posibilidades de ocurrencia. Para Cruz (2023), esta tabla se utiliza para representar las variables con sus probabilidades y recibe el nombre de distribución de probabilidad, la cual tiene características básicas y necesarias:

Cada probabilidad de x, es decir, f(x) debe ser un valor entre 0 y 1.
La suma de todas las probabilidades debe ser igual a 1.
Observa el siguiente ejemplo para ilustrar de mejor manera una distribución de probabilidad:

Luis y Paco van a hacer un experimento que consiste en lanzar tres veces una moneda. Ambos tienen que calcular la distribución para el número de la cara “águila”:

Fíjate que hay ocho posibles resultados para este experimento:

Tabla 2. Posibles resultados al lanzar 3 veces una moneda.

En la tabla puedes observar que únicamente en un posible resultado no saldría la cara “águila” y también, solo en uno saldrían las tres caras “águila”. Observa la distribución de probabilidad en la siguiente tabla:

Tabla 3. Distribución de probabilidad para la obtención de “águila”.

Como puedes observar, se construye la tabla con base en los resultados esperados en relación con la probabilidad de que suceda; es decir, hay un 12.5% de probabilidad de que, al lanzar tres veces la moneda salgan exactamente tres “águilas”, también hay un 12.5% de probabilidad de que no salga alguna. Si te fijas en la distribución, también cumple las condiciones, todas las probabilidades se encuentran entre 0 y 1, además, la suma de todas las probabilidades da el 100%.

Una distribución de frecuencia es posible representarla de manera gráfica, en donde se graficará en el eje de las x con los resultados esperados y en el eje de las y la función de probabilidad de cada valor esperado:

Gráfica 1. Representación gráfica de la distribución de probabilidad del lanzamiento de tres monedas, evaluando la cara “águila”.

Distribuciones de Bernoulli y binomial

De acuerdo con Lavamagazine.com (s.f.), el experimento de Bernoulli es un modelo estadístico que recibe el nombre del matemático que la propuso, el cual consiste en dividir los eventos de un experimento en únicamente dos resultados posibles, el éxito y el no éxito. Por ejemplo, se define el experimento aleatorio de lanzar un dado y se busca obtener la cara uno, para Bernoulli, el éxito está dado por la obtención de la cara uno, es decir , el no éxito será cualquier otra cara que aparezca, o lo que es lo mismo . Entonces, el éxito es aquello que queremos que ocurra, el no éxito es cualquier resultado diferente al deseado.

Analiza el siguiente ejemplo: supón que un experimento consiste en presentar un examen sin haber estudiado nada, el examen consta de 10 preguntas y cada una tiene 4 opciones de respuesta. Si sabes que la calificación mínima aprobatoria es 60 puntos, ¿cuál es la probabilidad de que apruebes con 60 puntos?

De acuerdo con la descripción previa, cada pregunta tiene un valor de 10 puntos, para aprobar con la mínima tendrías que contestar 6 preguntas de forma correcta, además sabes que la probabilidad de contestar una pregunta de manera correcta es: p = = 0.25, este valor es tu éxito, cualquier otra respuesta es incorrecta. Puedes decir y de acuerdo con Data Science Team (2020), el no éxito será igual a la unidad menos el éxito q = 1 — p, es decir, 0.75, esto te da el parteaguas para establecer la fórmula de la distribución binomial:

En donde:

x = es la cantidad de aciertos esperados.
P (x) = es la probabilidad de la cantidad de aciertos esperados.
n = es el número total de ensayos.
p = es la probabilidad de éxitos.
n! = (n factorial) es el producto de todos los enteros positivos hasta 𝑛. Calcula el coeficiente binomial, que representa el número de maneras de seleccionar x éxitos de n ensayos sin importar el orden.
Para aprobar el examen con la mínima calificación, necesitas tener 6 preguntas contestadas de manera correcta. Ahora despeja la fórmula:

x = 6 aciertos.
n = 10 preguntas que hay en el examen.
p = 0.25 es la probabilidad de acertar una respuesta.

Por lo tanto, 1.60 % es la probabilidad de sacar exactamente 60 en el examen, sin embargo, podrías aprobar el examen no solo con 60 puntos, sino obteniendo 70, 80 o incluso con 100 puntos. Entonces, ¿cómo podrías calcular la probabilidad de aprobar el examen? La respuesta es sencilla, tendrías que calcular las probabilidades de aprobar con 70, con 80, con 90 y con 100 puntos, y la suma de estos valores te daría la respuesta.

De acuerdo con KeepCoding (2022), R es un lenguaje de programación y entorno de software, utilizado principalmente para el análisis estadístico y generación de gráficos; fue desarrollado por Ross Ihaka y Robert Gentleman, en la década de 1990, y se ha convertido en uno de los lenguajes más populares en el ámbito de la estadística y la ciencia de datos.

A continuación, se resolverá un ejercicio mediante el programa de R Studio; para llegar a una solución, sigue estos pasos:

Abre R Studio y crea un nuevo script. Para ello, sigue los siguientes pasos: haz clic en “File” > “New File” > “R Script”.

Imagen 1. Vista de un nuevo script desde R Studio.
Esta pantalla se obtuvo directamente del software que se está explicando en la computadora, para fines educativos.

En el script que creaste, define los parámetros del problema:
n <- 10 # Número de preguntas.
p <- 0.25 # Probabilidad de responder correctamente una pregunta (1/4).

Calcula la probabilidad binomial de obtener exactamente seis aciertos; para ello, utiliza la función de R Studio dbinom(), la cual tiene los parámetros dbinom(x, size, prob), donde:
X = número de aciertos esperados.
size ó n = número de preguntas totales.
prob ó p = probabilidad de acierto.
Este paso quedaría de la siguiente manera:

prob_aprobacion <- dbinom(6, 10, 0.25)

Observa la siguiente imagen:

Imagen 2. Obtener exactamente seis aciertos en R Studio.
Esta pantalla se obtuvo directamente del software que se está explicando en la computadora, para fines educativos.

En la sección A, puedes observar el código creado; por tanto, es muy importante que lo selecciones todo y arrastres el mouse y el botón “Run”. Después, te mostrará lo que se encuentra en la sección B. En la sección C, por su parte, apreciarás el contenido de cada una de las variables que preconfiguraste; de la misma manera, se encuentra el resultado guardado en prob_aprobación. Te darás cuenta de que dicho valor es 0.1622, idéntico al que se encuentra en la sección D y al que se había calculado de forma manual.

Sin embargo, para que el alumno pueda aprobar, debe obtener mínimo seis aciertos, es decir, tienes que buscar la probabilidad de p (x ≥ 6), aunque también se puede escribir de esta manera:

p (x ≥ 6) = p (x = 6) + p (x = 7) + p (x = 8) + p (x = 9) + p (x = 10)

En términos de R Studio, se vería así:

prob_aprobacion = dbinom(6,10,0.25) + dbinom(7,10,0.25) + dbinom(8,10,0.25) + dbinom(9,10,0.25) + dbinom(10,10,0.25).

prob_aprobacion = 0.01972771

Entonces, la probabilidad de aprobar el examen es de 0.0197, la cual resulta muy baja; por ende, convendría estudiar mucho antes de presentarlo, ya que los alumnos tienen casi un 98% de probabilidad de reprobarlo.

En la imagen 3, podrás validar los cálculos que se hicieron dentro de R Studio:

Imagen 3. Cálculo de la probabilidad de aprobar un examen.
Esta pantalla se obtuvo directamente del software que se está explicando en la computadora, para fines educativos.

Distribución de Poisson

La distribución de probabilidad de Poisson describe la cantidad de veces que ocurre un evento dado en un intervalo determinado, ya sea tiempo, área, volumen o distancia. También es una distribución de probabilidad discreta, ya que sus resultados están basados en conteo. De acuerdo con Rodó (2020), la aplicación de la distribución de Poisson es muy amplia en donde se requieran modelar situaciones de riesgo para tiempos de espera en transacciones de la bolsa, evaluar pérdidas operativas, entre otras.

Se retomará el problema descrito al inicio sobre el retraso de los vuelos y se ejemplificará el concepto de distribución de probabilidad de Poisson:

Poisson busca pronosticar la ocurrencia de un evento determinado en un espacio o intervalo de tiempo, área, distancia, etcétera. Para el ejemplo de Viva Aerobus, se centrará en una unidad de tiempo, ya que el estudio se realizó con 14 vuelos en un día entero. Además, se puede observar que solo hay dos opciones o dos resultados esperados, éxito y no éxito; es decir, el vuelo sale retrasado con más de 30 minutos, es el éxito o el resultado que se está analizando, contra el no éxito, que es cualquier otro resultado diferente.

De acuerdo con Rodó (2020), la fórmula de Poisson es la siguiente:

Donde:

X = es la variable aleatoria.
x = es cualquier resultado observable.
μ = es tasa media del éxito.
e = es la constante exponencial 2.7182.
x! = es el factorial de x.
En el estudio realizado por Viva Aerobus, se obtuvo una tasa promedio de 2 retrasos por día, esa será la μ, y se necesita calcular la probabilidad de que en un día no haya vuelos retrasados, esta será la variable x. Se sustituyen los siguientes datos:

Se obtiene una probabilidad del 13% de que en un día no se tengan vuelos retrasados, entonces ¿cuál será la probabilidad de que por lo menos un vuelo se retrase?

Para contestar esta pregunta, se podría emplear la fórmula anterior, es decir, para X = 1, X = 2, X = 3…, X = n; sin embargo, ese procedimiento resultaría muy laborioso, así que es necesario recurrir al software R Studio para resolverlo:

Abre R Studio y crea un nuevo script.

Imagen 4. Vista del nuevo script desde R Studio.
Esta pantalla se obtuvo directamente del software que se está explicando en la computadora, para fines educativos.

Para resolver el ejercicio, debes entender que la premisa “por lo menos un vuelo se retrase” se puede formular de esta manera: P (x ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + … P (X = N).. De igual forma, se puede expresar así: P (x ≥ 1) = 1 — P (X =0).

En el script que creaste, define los parámetros del problema:
x <- 0 # Cantidad de retrasos requeridos.
lambda <- 2 # Cantidad media o promedio de retrasos.

Ahora, calcula la probabilidad de Poisson de obtener exactamente cero retrasos; para ello, utiliza la función de R Studio dpois(), la cual cuenta con los parámetros dpois(x, lambda), donde:
x = cantidad de retrasos requeridos.
lambda = cantidad media o promedio de retrasos.

Complementa el script ingresando el siguiente código y, luego, valida:
probabilidad_cero_retrasos <- ppois(0, lambda)
probabilidad_retraso_al_menos_uno <- 1 – probabilidad_cero_retrasos
print(probabilidad_retraso_al_menos_uno)

Observa la siguiente imagen:

Imagen 5. Cálculo de la probabilidad de, por lo menos, un retraso.
Estas pantallas se obtuvieron directamente del software que se está explicando en la computadora, para fines educativos.

La probabilidad de que haya al menos un retraso es de 0.8646, o sea, de un 86%. Como puedes observar, existen varias formas de llegar al mismo resultado, así que puedes usar la que mejor se ajuste al problema.

Para fortalecer el aprendizaje del tema revisa la siguiente actividad diaria, aquí.

Cierre
Las distribuciones de probabilidad son una herramienta sumamente importante y necesaria para todo científico de datos o cualquier persona que necesite tomar decisiones, ya que permiten generar escenarios y prospectos con base en probabilidades de ocurrencia; al tener los escenarios a la mano, resulta más fácil descubrir oportunidades o casos donde se corran menos riesgos.

En esta experiencia educativa, se abordaron las principales distribuciones de probabilidad para variables discretas, pues se trabajó con base en conteos, como en el ejemplo de los vuelos retrasados; sin embargo, las aplicaciones de dicha noción son muy numerosas y se extienden por todas las ramas de la ciencia. Por este motivo, resulta vital que las domines y logres emplearlas en escenarios de tu vida diaria.

En tu día a día, ¿dónde puedes aplicar las distribuciones de probabilidad?

¿Por qué consideras importante generar escenarios basados en probabilidad para tus materias escolares?

Checkpoint
Asegúrate de:

Identificar los problemas relacionados con las distribuciones de probabilidad binomial y Poisson para resolverlos con el método adecuado.
Aplicar el concepto de distribución binomial para elaborar cálculos precisos con él.
Aplicar el concepto de distribución de Poisson para elaborar cálculos precisos con él.
Referencias bibliográficas
Cruz, D. (2023). 5. Distribuciones de probabilidad. Recuperado de: https://bookdown.org/dcruzreyes/bookdown-bioestadistica/distribuciones-de-probabilidad.html
Data Science Team. (2020). Distribución binomial. Recuperado de https://datascience.eu/es/matematica-y-estadistica/distribucion-binomial/
KeepCoding. (2022). Glosario del lenguaje R: 7 conceptos clave. Recuperado de https://keepcoding.io/blog/glosario-lenguaje-r-conceptos-clave/
Rodó, P. (2020). Distribución de Bernoulli. Recuperado de https://economipedia.com/definiciones/distribucion-de-bernoulli.html
Para saber más – Recursos adicionales
© Universidad Tecmilenio | Todos los Derechos Reservados


Leave a Reply

Your email address will not be published. Required fields are marked *