Regresión logistica STATA

practica_modelos_regresion_completa Descarga

📄 Título del Estudio:

Factores asociados al infarto y a los niveles de glucosa en pacientes adultos de una población urbana

🎯 Objetivo del Estudio:

Evaluar los factores clínicos, conductuales y familiares que se asocian con:

El riesgo de infarto en adultos (modelo de regresión logística).
Los niveles de glucosa en sangre (modelo de regresión lineal).

💡 Hipótesis:

Para regresión logística:

Los adultos con mayor edad, presión arterial elevada, antecedentes familiares, tabaquismo y menor actividad física tienen un mayor riesgo de presentar un infarto.

Para regresión lineal:

Los niveles de glucosa en sangre aumentan con la edad, el IMC, la presión arterial, el colesterol, el tabaquismo y los antecedentes familiares; y disminuyen con la actividad física.

🔎 Variables por tipo de análisis:

📌 Regresión Logística

Variable Dependiente (VD):
infarto (0 = no, 1 = sí)
Variables Independientes (VI):
edad, sexo, imc, presion, colesterol, actividad_fisica, fumador, antecedentes_familiares

📌 Regresión Lineal

Variable Dependiente (VD):
glucosa (valor continuo en mg/dL)
Variables Independientes (VI):
edad, sexo, imc, presion, colesterol, actividad_fisica, fumador, antecedentes_familiares

📋 Diccionario de Variables

Variable	Tipo	Descripción
`edad`	Numérica	Edad del paciente en años (30–80)
`sexo`	Categórica	Sexo biológico (`M` = masculino, `F` = femenino)
`imc`	Numérica	Índice de Masa Corporal (kg/m²)
`presion`	Numérica	Presión arterial sistólica (mmHg)
`colesterol`	Numérica	Colesterol total (mg/dL)
`actividad_fisica`	Numérica	Días por semana con ≥30 min de actividad física (0–5)
`fumador`	Binaria	1 = fumador actual, 0 = no fumador
`antecedentes_familiares`	Binaria	1 = antecedentes familiares positivos, 0 = no
`glucosa`	Numérica	Nivel de glucosa en sangre (mg/dL)
`infarto`	Binaria	1 = paciente ha tenido un infarto, 0 = no ha tenido

🔍 ¿Qué es la Regresión Lineal y la Regresión Logística?

📈 Regresión Lineal

Definición:
Es un modelo estadístico que busca predecir el valor de una variable continua (por ejemplo, glucosa, presión arterial, peso) a partir de una o más variables independientes.
Ejemplo:
¿Cómo cambian los niveles de glucosa según la edad, el IMC y el colesterol?
Modelo matemático: Y=β0+β1X1+β2X2+⋯+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \varepsilonY=β0+β1X1+β2X2+⋯+ε Donde:
- YYY: variable dependiente continua
- β\betaβ: coeficientes estimados
- ε\varepsilonε: error aleatorio
Salida:
Coeficientes que indican cuánto se espera que cambie la variable resultado por cada unidad de cambio en los predictores.

📊 Regresión Logística

Definición:
Es un modelo estadístico que se utiliza cuando la variable dependiente es dicotómica (por ejemplo, tiene/no tiene enfermedad, vive/muere, sí/no).
Ejemplo:
¿Qué factores aumentan la probabilidad de tener un infarto?
Modelo matemático (forma logit): log⁡(p1−p)=β0+β1X1+β2X2+…\log\left(\frac{p}{1 – p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dotslog(1−pp)=β0+β1X1+β2X2+… Donde:
- ppp: probabilidad de que ocurra el evento
- Se utiliza la función logística para restringir el resultado entre 0 y 1.
Salida:
Odds Ratios (OR), que representan cuánto se incrementan o disminuyen las probabilidades del evento por cada unidad de cambio en la variable explicativa.

⚖️ Comparación entre Regresión Lineal y Logística

Característica	Regresión Lineal	Regresión Logística
Tipo de variable dependiente	Continua (números reales)	Dicotómica (0/1)
Ejemplo de variable dependiente	Glucosa, colesterol, presión	Infarto (sí/no), diabetes (sí/no), muerte
Modelo matemático	Relación directa Y=βXY = \beta XY=βX	Log-odds de una probabilidad
Función de enlace	Identidad	Logit (logaritmo de odds)
Método de estimación	Mínimos cuadrados	Máxima verosimilitud
Interpretación de coeficientes	Cambio esperado en Y	Cambio en la razón de odds (OR)
Supuestos principales	Normalidad, homocedasticidad, linealidad	Linealidad en el logit, independencia
Tipo de análisis	Predicción cuantitativa	Clasificación y estimación de probabilidades
Evaluación del modelo	R², errores estándar, F-test	Hosmer-Lemeshow, pseudo-R², curva ROC

🏥 Aplicaciones en Salud Pública y Medicina

Escenario clínico	Tipo de regresión recomendada
Predecir el nivel de glucosa en diabéticos	Lineal
Evaluar si fumar aumenta el riesgo de infarto	Logística
Estimar cuánto sube el colesterol por edad	Lineal
Saber si el IMC predice la presencia de HTA	Logística

🧠 Conclusión:

Usa regresión lineal cuando tu resultado es numérico continuo.
Usa regresión logística cuando tu resultado es un evento binario.

Ambas técnicas permiten controlar múltiples variables a la vez, evaluar asociaciones ajustadas y generar evidencia clínica o poblacional robusta.

🧭 PASO A PASO EN STATA: Regresión Logística

✅ 1. Importar la base de datos

stataCopiarEditarimport excel "C:\ruta\al\archivo\practica_modelos_regresion_completa.xlsx", firstrow clear

Reemplaza "C:\ruta\al\archivo\" por la ubicación real del archivo.

✅ 2. Explorar la variable dependiente

tab infarto

Verifica cuántos pacientes con y sin infarto tienes.

✅ 3. Describir las variables explicativas

summarize edad imc presion colesterol actividad_fisica
tab fumador
tab antecedentes_familiares
tab sexo

✅ 4. Crear variables dummy si lo deseas (opcional para sexo)

gen sexo_m = (sexo == "M")

✅ 5. Modelo de regresión logística

logit infarto edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

📊 Resumen del modelo

Número de observaciones: 300
Valor de chi-cuadrado (LR chi2(8)): 61.97 → indica que el modelo es significativamente mejor que uno sin predictores.
p-valor global: 0.000 → el modelo en su conjunto es estadísticamente significativo.
Pseudo R² = 0.2349 → el modelo explica el 23.5% de la variabilidad en la ocurrencia de infarto (aceptable para modelos clínicos).

🧾 Interpretación variable por variable

Variable	Coeficiente	p-valor	¿Significativo?	Interpretación clínica
edad	0.0455	0.000	✅ Sí	A mayor edad, aumenta el riesgo de infarto. Por cada año, los log-odds del infarto aumentan.
imc	0.1993	0.000	✅ Sí	Un mayor IMC se asocia significativamente con mayor riesgo de infarto.
presion	0.0252	0.000	✅ Sí	Cada mmHg adicional de presión sistólica aumenta el riesgo de infarto.
colesterol	0.0414	0.000	✅ Sí	El colesterol elevado también se asocia significativamente con mayor riesgo.
actividad_fisica	-0.2112	0.061	❌ No (marginal)	Mayor actividad física tiende a proteger contra el infarto, aunque no es estadísticamente significativa (p=0.061).
fumador	0.5726	0.141	❌ No	Ser fumador parece aumentar el riesgo, pero no es estadísticamente significativo.
antecedentes_familiares	1.1853	0.000	✅ Sí	Tener antecedentes familiares incrementa fuertemente el riesgo de infarto.
sexo_m (hombre)	0.5065	0.165	❌ No	Ser hombre podría aumentar el riesgo, pero el efecto no es significativo.
_cons (constante)	-17.33	0.000	—	Valor base del modelo cuando todas las variables son cero (no se interpreta clínicamente).

✅ Conclusiones clínicas

Factores de riesgo independientes significativos:
- Edad, IMC, presión arterial, colesterol y antecedentes familiares.
Actividad física muestra un efecto protector, aunque está en el límite de significancia (p=0.061).
Fumar y ser hombre no fueron estadísticamente significativos en este modelo multivariado (posible confusión con otras variables).

✅ 6. Interpretar los coeficientes

Cada coeficiente indica el efecto log-odds de la variable sobre la probabilidad de infarto.
Usa logistic si prefieres ver odds ratios directamente:

logistic infarto edad imc presion colesterol actividad_fisica fumador antecedentes_familiares sexo_m

🔍 Interpretación de los Odds Ratios (OR)

Variable	OR	p-valor	¿Significativo?	Interpretación clínica
edad	1.0466	0.000	✅ Sí	Por cada año adicional de edad, el riesgo de infarto aumenta un 4.7%.
imc	1.2205	0.000	✅ Sí	Cada unidad más de IMC se asocia con un 22% más de riesgo de infarto.
presion	1.0255	0.000	✅ Sí	Cada mmHg adicional de presión arterial sistólica aumenta el riesgo en 2.6%.
colesterol	1.0422	0.000	✅ Sí	Cada mg/dL adicional de colesterol aumenta el riesgo en 4.2%.
actividad_fisica	0.8091	0.061	❌ No (marginal)	Cada día adicional de ejercicio reduce el riesgo de infarto en un 19% aprox., aunque no es estadísticamente significativo (p ≈ 0.06).
fumador	1.7729	0.141	❌ No	Los fumadores tienen 1.77 veces más riesgo, pero no es significativo (IC muy amplio).
antecedentes_familiares	3.2362	0.000	✅ Sí	Tener antecedentes familiares triplica el riesgo de infarto (OR ≈ 3.2).
sexo_m (hombre)	1.6595	0.165	❌ No	Ser hombre se asocia con mayor riesgo, pero no es estadísticamente significativo.

✅ Conclusiones clínicas clave:

Variables con impacto fuerte y significativo:
- Edad, IMC, presión arterial, colesterol y antecedentes familiares están sólidamente asociadas al riesgo de infarto.
- Son factores modificables (IMC, presión, colesterol) o estratificadores de riesgo (edad, antecedentes).
Actividad física parece protectora (OR < 1), pero no alcanza significancia estadística (p = 0.061). Aun así, es clínicamente relevante.
Fumar y ser hombre no fueron significativos en este modelo multivariable, posiblemente por interacción o confusión con otros factores.

🧪 Nota técnica:

El OR de la constante (_cons = 0.0298) representa la probabilidad base de infarto cuando todas las variables son cero (no se interpreta clínicamente).
El pseudo R² indica que el modelo explica ~23.5% del riesgo de infarto, adecuado en estudios clínicos poblacionales.

✅ 7. Evaluar bondad de ajuste (Hosmer-Lemeshow)

Realiza la prueba de Hosmer-Lemeshow dividiendo los datos en 10 grupos de acuerdo con las probabilidades predichas del modelo (por eso group(10)), y compara:

Cuántos casos esperados de infarto hay en cada grupo, según el modelo,
Contra cuántos observados realmente ocurrieron.

estat gof, group(10) table

Un p-valor > 0.05 indica buen ajuste del modelo.

🧪 Resultado estadístico de la prueba

Hosmer-Lemeshow chi2(8) = 5.80
p = 0.6701

🧠 ¿Cómo se interpreta?

Resultado	Interpretación
p > 0.05	✅ No hay evidencia de mal ajuste → el modelo ajusta bien.
p < 0.05	❌ El modelo no predice adecuadamente los datos (mal ajuste).

➡ En este caso, p = 0.6701 significa que:

El modelo logístico ajusta correctamente a los datos.
No hay diferencia significativa entre los casos observados y esperados en los grupos de riesgo.

✅ 8. Predicción y curva ROC (opcional)

predict phat, pr roctab infarto phat
lroc

🧠 ¿Qué significa la AUC?

La AUC (Area Under the Curve) mide la capacidad del modelo para distinguir correctamente entre quienes tienen el evento (infarto = 1) y quienes no (infarto = 0).

AUC	Interpretación
0.5	Sin capacidad predictiva (igual a tirar una moneda)
0.6 – 0.7	Pobre
0.7 – 0.8	Aceptable
0.8 – 0.9	Buena
0.9 – 1.0	Excelente

🔍 En tu modelo:

AUC = 0.8374 → lo que indica que el modelo tiene una buena capacidad discriminativa.
El intervalo de confianza [0.775 – 0.899] sigue estando dentro del rango bueno, lo que indica estabilidad del modelo.

🩺 Conclusión clínica:

El modelo de regresión logística presenta una buena capacidad para discriminar entre pacientes con y sin infarto, con un AUC de 0.8374 (IC 95%: 0.775 – 0.899).
Esto respalda la utilidad clínica del modelo para clasificar correctamente a los pacientes según su riesgo.