Análisis Exploratorio y Correlación


📊 1. Tablas de Contingencia en STATA

Las tablas de contingencia permiten resumir datos de forma comparativa entre grupos. En esta práctica, vamos a utilizar dos comandos fundamentales:

🔸 A. tabstat: Estadísticas por grupo

📌 Objetivo: Obtener estadísticas resumidas (media, desviación estándar, mínimo y máximo) de variables continuas según un grupo categórico.

* Estadísticas de glucosa, edad y peso por sexo
tabstat glucosa edad peso, by(sexo) statistics(mean sd min max)

Interpretación didáctica:
Compara el promedio y la variabilidad entre hombres y mujeres. Por ejemplo:

  • ¿Tienen los hombres mayor glucosa promedio que las mujeres?
  • ¿Qué grupo tiene mayor variabilidad en el peso?

🔸 B. table: Cruce de variables categóricas

📌 Objetivo: Ver la frecuencia absoluta y/o porcentajes entre dos variables categóricas (por ejemplo, sexo e hipertensión).

* Tabla simple: número de personas por sexo e hipertensión
table sexo hipertenso

* Agregar porcentajes por fila
table sexo hipertenso, statistic(freq row)

Interpretación didáctica:
Observamos cómo se distribuyen los hipertensos entre hombres y mujeres.
¿Hay más mujeres con hipertensión en proporción? ¿O más hombres?


🧪 2. Pruebas de Normalidad en STATA

📌 ¿Cuándo se usan?

Antes de hacer comparaciones de medias o correlaciones paramétricas, debemos saber si nuestras variables tienen distribución normal. Para ello usamos:

ComandoPruebaUsar cuando…
swilkShapiro-WilkMuestras pequeñas (< 2000)
sktestAsimetría y curtosis combinadasMuestras medianas y grandes (> 20)

🔸 A. Shapiro-Wilk (swilk)

* Prueba de normalidad para la variable glucosa
swilk glucosa

Interpretación:

  • p > 0.05 → Distribución normal (no se rechaza H₀)
  • p < 0.05 → No normal (se rechaza H₀)

🔸 B. Skewness/Kurtosis Test (sktest)

* Prueba alternativa de normalidad
sktest glucosa

Interpretación:

  • También ofrece p-valor global para normalidad.
  • Si alguna de las subpruebas (asimetría o curtosis) sale significativa, puede indicar no normalidad.

🎯 Reglas prácticas para revisión rápida:

  • Asimetría entre -0.5 y +0.5 → simetría aceptable
  • Curtosis entre 2.5 y 3.5 → distribución no excesivamente picuda ni plana
  • p > 0.05 (en Pr(Skewness), Pr(Kurtosis) y chi²) → normalidad aceptada

📊 Extra: Histograma para visualización

* Histograma con curva normal
histogram glucosa, normal

👀 Interpretación visual: Compara la forma de los datos reales con la curva normal.


📝 Actividad para estudiantes

  1. Aplicar swilk y sktest a las variables: glucosa, colesterol, presión sistólica.
  2. Determinar si pueden aplicar t-test o deben usar pruebas no paramétricas.
  3. Interpretar y comentar:
    • ¿Cuál variable se aleja más de la normalidad?
    • ¿Qué análisis paramétricos podrían no ser válidos?

📌 Interpretación general del p-valor:

  • p > 0.05 → No hay evidencia contra la normalidad → ✅ Datos normales
  • p ≤ 0.05 → Se rechaza la normalidad → ⚠️ Datos no normales

Si los datos son normales (p > 0.05 en pruebas de normalidad)

🔹 Puedes usar pruebas paramétricas
Estas pruebas asumen normalidad y tienen mayor poder estadístico si se cumplen sus supuestos.

Objetivo del análisisPrueba paramétrica
Comparar 2 grupost de Student (t-test)
Comparar > 2 gruposANOVA
CorrelaciónPearson
Asociación entre variablesRegresión lineal

⚠️ Si los datos NO son normales (p ≤ 0.05)

🔹 Usa pruebas no paramétricas
Estas no requieren normalidad y son más robustas ante datos con asimetría o valores extremos.

Objetivo del análisisPrueba no paramétrica
Comparar 2 gruposMann-Whitney U / Wilcoxon
Comparar > 2 gruposKruskal-Wallis
CorrelaciónSpearman
Asociación entre variablesRegresión no paramétrica / modelos robustos

🧠 Tips prácticos:

  • Si tienes n > 30–40, muchas veces las pruebas paramétricas se pueden usar igual (por el teorema central del límite), pero debes justificarlo.
  • Si tienes valores atípicos, conviene usar no paramétricas o transformar los datos.
  • Siempre acompaña con gráficos (boxplot, histogramas, Q-Q plot) para reforzar tu decisión.

🔗 3. Correlación en STATA

La correlación evalúa la fuerza y dirección de la relación entre dos variables numéricas. Existen dos tipos principales:

TipoComandoUso recomendado
PearsonpwcorrVariables con distribución normal
SpearmanspearmanVariables no normales o con outliers

🔸 A. Correlación de Pearsonpwcorr

* Correlación entre edad, presión sistólica y colesterol
pwcorr edad presion_sys colesterol, sig star(0.05)

Interpretación:

  • Los valores van de -1 a +1
  • Positivo: a mayor edad, mayor presión.
  • Negativo: a mayor edad, menor colesterol.
  • sig muestra los p-valores.
  • star(0.05) pone * donde la correlación es significativa.

✅ Interpretación general:

  • Todas las correlaciones son positivas, fuertes (cercanas a 1) y estadísticamente significativas (p < 0.05).
  • El asterisco * indica que estas asociaciones tienen evidencia estadística para ser consideradas reales y no producto del azar.

✅ ¿Qué hace cada parte?

Parte del comandoFunción
pwcorrCalcula correlaciones de Pearson entre pares de variables
sigMuestra el p-valor asociado a cada correlación
star(0.05)Agrega un asterisco * si el p-valor es menor a 0.05 (significativo)


🔸 B. Correlación de Spearmanspearman

stataCopiar código* Correlación no paramétrica entre glucosa y edad
spearman glucosa edad

Interpretación:

  • Similar a Pearson, pero basada en rangos.
  • Útil cuando las variables no son normales o tienen outliers.

🧪 Recomendación antes de correlacionar:

👉 Verifica la normalidad de ambas variables
👉 Considera gráficos de dispersión:

* Diagrama de dispersión
scatter glucosa edad

Es probable que exista una correlación positiva significativa entre edad y glucosa.


📝 Actividad para estudiantes

  1. Usar pwcorr para evaluar:
    • edad y presión sistólica
    • edad y colesterol
  2. Usar spearman si alguna de las variables no es normal.
  3. Responder:
    • ¿Qué par de variables muestra la mayor correlación?
    • ¿La correlación es positiva o negativa?
    • ¿Es estadísticamente significativa?

⚖️ 4. Comparación de Medias en STATA

La prueba t de Student compara si dos grupos (definidos por una variable categórica binaria) tienen promedios diferentes en una variable numérica.


📌 Sintaxis general:

ttest <variable_continua>, by(<grupo_binario>)

🔸 A. Comparar glucosa entre hipertensos y no hipertensos

ttest glucosa, by(hipertenso)

Interpretación:

  • Compara las medias de glucosa entre personas con y sin hipertensión.
  • Si p < 0.05, hay diferencia estadísticamente significativa entre grupos.

Resultados de la prueba:

  • Hipótesis nula (H₀): No hay diferencia en los niveles de glucosa entre grupos.
  • t = -3.4023
  • p-valor (Pr(|T| > |t|)) = 0.0032Significativo
  • Intervalo de confianza del 95% para la diferencia: [-16.8286, -3.9795] → no incluye 0

🧠 Conclusión:

  • ✔️ Diferencia significativa en los niveles de glucosa entre personas hipertensas y no hipertensas.
  • ❗Las personas hipertensas tienen niveles más altos de glucosa en promedio.
  • Como p < 0.05, se rechaza la hipótesis nula.

🔸 B. Comparar colesterol por sexo

ttest colesterol, by(sexo)

✅ ¿Cuándo es válido usar t-test?

  • Cuando la variable continua tiene distribución normal en ambos grupos.
  • Si no hay normalidad, usar test no paramétrico como ranksum.

Resultados del test:

  • t = -1.3589
  • p-valor (Pr(|T| > |t|)) = 0.1910 → ❌ No significativo
  • Intervalo de confianza del 95% para la diferencia: [-32.66, 7.00] (incluye el 0)

🧠 Conclusión:

  • No hay diferencia estadísticamente significativa en los niveles de colesterol entre hombres y mujeres en esta muestra.
  • Aunque los varones tienen un promedio mayor, el p-valor > 0.05 y el intervalo de confianza incluye el 0, por lo tanto, no se rechaza la hipótesis nula.
  • Puede haber diferencia real, pero no es estadísticamente detectable con esta muestra (posible tamaño pequeño).

🔧 Si no cumple normalidad:

ranksum glucosa, by(hipertenso)
  • z = -2.812
  • p-valor aproximado = 0.0049
  • p exacto = 0.0032 → ✅ significativo

Conclusión:

  • p < 0.05 → se rechaza la hipótesis nula.
  • Existe una diferencia estadísticamente significativa en los niveles de glucosa entre hipertensos y no hipertensos.
  • Los hipertensos tienden a tener mayor glucosa (porque sus rangos son más altos).

🧠 ¿Cuándo usar esta prueba?

Se usa cuando:

  • ❌ Los datos no cumplen normalidad o hay valores atípicos.
  • ✅ Quieres una prueba robusta que no dependa de la distribución.

📈 Visualización adicional (opcional)

graph box glucosa, over(hipertenso)

👀 Esto te muestra gráficamente las diferencias de medias y rangos.


📝 Actividad para estudiantes

  1. Comparar la media de:
    • glucosa por hipertensión
    • colesterol por sexo
  2. Evaluar si las diferencias son significativas (p < 0.05).
  3. Responder:
    • ¿Qué grupo tiene mayor media?
    • ¿La diferencia es clínicamente relevante?
    • ¿Se cumplió la normalidad antes de usar ttest?