Regresión lineal: regress

📄 Título

Factores asociados a los niveles de glucosa en adultos de una población urbana


1. Planteamiento del estudio

🎯 Objetivo general

Evaluar los factores asociados a los niveles de glucosa en sangre en adultos de una población urbana.


💡 Hipótesis de trabajo

Los niveles de glucosa en sangre aumentan con:

  • mayor edad
  • mayor IMC
  • mayor presión arterial sistólica
  • mayor colesterol
  • tabaquismo
  • antecedentes familiares positivos

Y disminuyen con:

  • mayor actividad física semanal

2. Definición de variables

📌 Variable dependiente

VariableTipoDescripción
glucosaNumérica continuaNivel de glucosa en sangre (mg/dL)

📌 Variables independientes

VariableTipoInterpretación
edadNuméricaEdad en años
imcNuméricaÍndice de masa corporal
presionNuméricaPresión arterial sistólica
colesterolNuméricaColesterol total
actividad_fisicaNuméricaDías/semana de actividad física
fumadorBinaria1 = fumador, 0 = no fumador
antecedentes_familiaresBinaria1 = sí, 0 = no
sexo_mBinaria1 = hombre, 0 = mujer
infartoBinaria1 = infarto, 0 = no infarto

3. Ejecución en Stata


🔹 Paso 1. Importar base de datos

import excel "dataset_regresion_glucosa_infarto.xlsx", firstrow clear

🔹 Paso 2. Verificar estructura

describe

✔ Confirmar:

  • 300 observaciones
  • Variables correctamente identificadas

🔹 Paso 3. Visualizar datos

list in 1/10

🔹 Paso 4. Estadística descriptiva

summarize edad imc presion colesterol actividad_fisica glucosa

✔ Interpretar:

  • Media
  • Desviación estándar
  • Rango

🔹 Paso 5. Variables categóricas

tab sexo_m
tab fumador
tab antecedentes_familiares

✔ Interpretar proporciones


🔹 Paso 6. Exploración bivariada (opcional)

tab fumador infarto, row col chi2

4. Modelo principal

🔹 Paso 7. Regresión lineal

regress glucosa edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

5. Interpretación del modelo


🔹 Paso 8. Significancia global

Revisar:

  • Prob > F

✔ Interpretación:

Si p < 0.05 → el modelo es globalmente significativo

El modelo es globalmente significativo, lo que indica que el conjunto de variables independientes explica de manera significativa la variabilidad de los niveles de glucosa.


🔹 Paso 9. R cuadrado

✔ Interpretar:

Proporción de la variabilidad de glucosa explicada por el modelo

🔹 Capacidad explicativa

  • R² = 0.8734
  • R² ajustado = 0.8699

Interpretación:

El modelo explica aproximadamente el 87.3% de la variabilidad de la glucosa, lo cual es inusualmente alto para datos observacionales, sugiriendo un fuerte ajuste (esperable en datos simulados).


🔹 Paso 10. Interpretación de coeficientes

Formato estándar:

Por cada unidad de aumento en X, la glucosa cambia en β mg/dL, ajustando por las demás variables.


🔹 Edad

β = 0.291
p < 0.001

Por cada año adicional de edad, la glucosa aumenta en 0.29 mg/dL, manteniendo constantes las demás variables.

✔ Consistente con hipótesis


🔹 IMC

β = 1.23
p < 0.001

Cada incremento de 1 kg/m² en IMC se asocia con un aumento de 1.23 mg/dL en glucosa.

✔ Fuerte efecto metabólico


🔹 Presión arterial

β = 0.714
p < 0.001

Cada mmHg adicional de presión sistólica incrementa la glucosa en 0.71 mg/dL.

✔ Relación cardiometabólica esperada


🔹 Colesterol

β = 0.209
p < 0.001

Cada mg/dL adicional de colesterol aumenta la glucosa en 0.21 mg/dL.

✔ Asociación metabólica consistente


🔹 Actividad física

β = -3.29
p < 0.001

Cada día adicional de actividad física semanal reduce la glucosa en 3.29 mg/dL.

Factor protector claro


🔹 Fumador

β = 13.54
p < 0.001

Los fumadores tienen en promedio 13.5 mg/dL más de glucosa que los no fumadores.

✔ Efecto clínicamente relevante


🔹 Antecedentes familiares

β = 4.31
p < 0.001

Tener antecedentes familiares se asocia con un aumento de 4.31 mg/dL en glucosa.

✔ Factor de riesgo genético


🔹 Sexo (hombre)

β = -2.41
p = 0.018

Los hombres tienen en promedio 2.41 mg/dL menos de glucosa que las mujeres, ajustando por las demás variables.

⚠️ Hallazgo significativo pero clínicamente pequeño
→ Podría ser irrelevante clínicamente o dependiente del modelo


🔹 Intercepto

β = 64.58

Nivel basal de glucosa cuando todas las variables = 0 (interpretación limitada clínicamente)



6. Evaluación de supuestos


🔹 Paso 11. Guardar residuos

predict resid, residual
predict yhat, xb

🔹 Paso 12. Linealidad y homocedasticidad

rvfplot

✔ Adecuado:

  • nube aleatoria sin patrón

🔹 Paso 13. Normalidad de residuos

qnorm resid
hist resid, normal

🔹 Paso 14. Colinealidad

estat vif

✔ Interpretación:

  • VIF < 5 → adecuado
  • VIF > 10 → problema

🔹 Paso 15. Evaluación de heterocedasticidad

estat hettest

✔ Interpretación:

  • p < 0.05 → hay heterocedasticidad
  • p ≥ 0.05 → no hay heterocedasticidad

👉 En tu caso
p = 0.71 → no hay heterocedasticidad


Paso 16. Evaluación gráfica

rvfplot

✔ Interpretación:

  • Nube aleatoria → ✔ correcto
  • Embudo → ⚠️ heterocedasticidad

👉 En tu caso:

No hay patrón → modelo adecuado


Paso 17. Decisión sobre uso de robust

Aquí debes agregar:

✔ Redacción:

Dado que no se evidenció heterocedasticidad mediante pruebas formales ni análisis gráfico, el uso de errores estándar robustos no es estrictamente necesario. Sin embargo, se puede emplear como medida de verificación


7. Extensiones


🔹 Modelo robusto

regress glucosa edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m, robust

🔹 ¿Por qué usar robust?

Porque la regresión lineal clásica asume homocedasticidad (varianza constante de los errores).
En datos observacionales esto rara vez se cumple.
👉 robust (errores estándar de Huber–White) corrige los errores estándar, permitiendo p-valores e IC válidos aun con heterocedasticidad.


🔹 ¿Cuándo amerita usarlo?

  • ✔ Evidencia de heterocedasticidad (p. ej., estat hettest p < 0.05, patrón en embudo en rvfplot)
  • ✔ Datos observacionales (práctica habitual en epidemiología)
  • ✔ Presencia de outliers o varianza no uniforme
  • ✔ Muestras grandes (propiedades asintóticas)

🔹 ¿Qué cambia con robust?

ElementoCambia
Coeficientes (β)❌ No
Errores estándar✔ Sí
p-valores✔ Pueden cambiar
IC 95%✔ Cambian
R² / ajuste❌ No

👉 Es decir, no cambia la estimación, cambia la inferencia.


🔹 Interpretación de tus resultados (con robust)

  • Modelo global significativo (p < 0.001) y alto R² (0.87).
  • Asociaciones consistentes con la hipótesis:
    • ↑ glucosa con edad, IMC, presión, colesterol, tabaquismo, antecedentes
    • ↓ glucosa con actividad física
  • Sexo: efecto pequeño pero significativo (−2.4 mg/dL).

👉 Los errores estándar robustos son muy similares a los clásicos →
no hay evidencia de heterocedasticidad relevante y el modelo es estable.


🔹 Conclusión breve

Se usaron errores estándar robustos para asegurar inferencia válida ante posible heterocedasticidad. En este caso, los resultados no cambiaron sustancialmente, lo que indica que el modelo es robusto y las asociaciones observadas son consistentes.


🧠 Idea clave

robust no mejora el modelo, mejora la confianza en los resultados.”