Introducción

La hipertensión arterial (HTA) constituye uno de los principales factores de riesgo cardiovascular a nivel mundial y se asocia con incremento de eventos cardiovasculares, enfermedad renal crónica, insuficiencia cardíaca y mortalidad prematura. La reducción de la presión arterial sistólica (PAS) mediante tratamiento farmacológico disminuye significativamente el riesgo de complicaciones cardiovasculares mayores.

Los inhibidores de la enzima convertidora de angiotensina (IECA), como enalapril y captopril, son medicamentos ampliamente utilizados en el manejo de la HTA. Aunque ambos pertenecen al mismo grupo farmacológico, presentan diferencias farmacocinéticas y farmacodinámicas que podrían influir en la magnitud de reducción de la presión arterial, la adherencia terapéutica y la aparición de efectos adversos.

En estudios clínicos observacionales y experimentales, la respuesta antihipertensiva puede estar influenciada por múltiples variables confusoras e intervinientes, tales como edad, obesidad, diabetes mellitus, enfermedad renal crónica, adherencia terapéutica, ingesta de sodio, severidad basal de la hipertensión y uso previo de antihipertensivos. Por ello, el análisis multivariado permite estimar el efecto independiente del tratamiento ajustando simultáneamente por dichas variables.

La presente práctica tiene como finalidad aplicar modelos de regresión multivariada en Stata utilizando una base simulada clínicamente plausible para evaluar el efecto de enalapril versus captopril sobre la reducción de la presión arterial sistólica.

Objetivo general

Evaluar la asociación entre el uso de enalapril versus captopril y la reducción de la presión arterial sistólica mediante análisis multivariado.

Objetivos específicos

Comparar la reducción media de la presión arterial sistólica entre pacientes tratados con enalapril y captopril.
Evaluar la asociación ajustada entre tipo de tratamiento y control de presión arterial.
Identificar variables confusoras asociadas a menor respuesta antihipertensiva.
Explorar interacciones entre tratamiento y variables clínicas como obesidad o diabetes mellitus.
Construir modelos de regresión lineal y logística para estimar efectos ajustados.

Hipótesis

Hipótesis nula (H0)

No existen diferencias significativas en la reducción de presión arterial sistólica entre pacientes tratados con enalapril y aquellos tratados con captopril, luego de ajustar por variables confusoras.

Hipótesis alterna (H1)

Los pacientes tratados con enalapril presentan una mayor reducción de presión arterial sistólica comparados con aquellos tratados con captopril, luego de ajustar por variables confusoras.

Diccionario de variables

Variable	Tipo	Codificación	Rol
`id`	Numérica	Identificador único	Identificación
`tratamiento`	Binaria	1=Enalapril, 0=Captopril	Independiente principal
`tratamiento_txt`	String	Nombre del fármaco	Descriptiva
`edad`	Continua	Años	Confusora
`sexo`	Binaria	1=Masculino, 0=Femenino	Confusora
`sexo_txt`	String	Masculino/Femenino	Descriptiva
`imc`	Continua	kg/m²	Confusora
`obesidad`	Binaria	1=IMC ≥30	Confusora
`pas_baseline`	Continua	mmHg	Confusora
`pad_baseline`	Continua	mmHg	Confusora
`pas_final`	Continua	mmHg	Dependiente
`pad_final`	Continua	mmHg	Dependiente
`delta_pas`	Continua	PAS basal − PAS final	Dependiente principal
`control_pas`	Binaria	1=PAS <140 mmHg	Dependiente
`adherencia_pct`	Continua	% adherencia	Interviniente
`adherencia_alta`	Binaria	1=≥80%	Interviniente
`dosis_mg_dia`	Continua	mg/día	Confusora
`sodio_g_dia`	Continua	gramos/día	Confusora
`actividad_min_sem`	Continua	minutos/semana	Confusora
`tabaquismo`	Binaria	1=Sí	Confusora
`diabetes`	Binaria	1=Sí	Confusora
`erc`	Binaria	1=Enfermedad renal crónica	Confusora
`dislipidemia`	Binaria	1=Sí	Confusora
`duracion_hta`	Continua	años desde diagnóstico	Confusora
`antihip_prev`	Binaria	1=Uso previo antihipertensivo	Confusora
`riesgo_cv_alto`	Binaria	1=Alto riesgo cardiovascular	Confusora
`efecto_adv`	Binaria	1=Presentó evento adverso	Dependiente secundaria
`visitas_control`	Discreta	Número de visitas	Interviniente
`hospital`	Categórica	Hospital A/B/C	Efecto de cluster
`medico`	Categórica	M1–M6	Efecto de cluster
`severidad_hta`	Binaria	1=HTA severa	Confusora
`interaccion_tx_obesidad`	Binaria	1=Tratamiento × obesidad	Interacción

Paso 1. Verificación de variables y conversión de variables string

Objetivo

Identificar el tipo de variables presentes en la base de datos y convertir variables categóricas tipo string a formato numérico etiquetado para poder utilizarlas en análisis multivariado en Stata.

1. Abrir la base de datos

import excel "enalapril_captopril_multivariado_stata.xlsx", firstrow clear

2. Verificar estructura de variables

describe

Permite identificar:

Variables numéricas
Variables string
Tipo de almacenamiento
Etiquetas
Número de observaciones

3. Inspeccionar algunas observaciones

list in 1/10

4. Identificar variables string

			
describe, short
describe

Las variables string aparecerán como:

str8
str10
str15
etc.

En esta base:

hospital
medico
tratamiento_txt
sexo_txt

son variables string.

5. Convertir variables string categóricas a numéricas etiquetadas

Hospital

encode hospital, gen(hospital_id)

Médico

encode medico, gen(medico_id)

6. Verificar conversión

			
describe hospital*
describe medico*

7. Ver etiquetas creadas automáticamente

label list

9. Comprobar frecuencia de categorías

Hospital

tab hospital_id

Médico

tab medico_id

10. Verificar valores perdidos

misstable summarize

Interpretación esperada

Las variables categóricas ahora serán utilizables en:
- regresión lineal
- regresión logística
- modelos multinivel
- análisis de interacción

Ejemplo:

regress delta_pas i.hospital i.medico edad imc tratamiento

El prefijo i. indica a Stata que la variable es categórica.

Paso 2. Evaluación previa al modelo

Objetivo

Evaluar los supuestos iniciales antes de construir modelos multivariados:

distribución de variables continuas,
normalidad,
presencia de outliers,
asimetría,
curtosis,
variabilidad entre grupos.

Estas evaluaciones son importantes porque varios modelos paramétricos asumen:

distribución aproximadamente normal de residuos,
ausencia de valores extremos severos,
relación lineal entre variables.

Variable principal de interés

Trabajaremos principalmente con:

delta_pas

(Disminución de presión arterial sistólica)

1. Histograma con curva normal

Sintaxis

histogram delta_pas, normal

Objetivo

Evaluar visualmente:

simetría,
dispersión,
forma de distribución,
aproximación a normalidad.

Interpretación

Compatible con normalidad:

forma de campana,
distribución simétrica,
curva normal superpuesta similar al histograma.

Sugiere no normalidad:

cola derecha o izquierda marcada,
múltiples picos,
fuerte asimetría.

2. Q-Q plot (normalidad gráfica)

Sintaxis

qnorm delta_pas

Objetivo

Comparar cuantiles observados vs cuantiles teóricos normales.

Interpretación

Normalidad aproximada:

puntos cercanos a la línea diagonal.

No normalidad:

desviaciones importantes,
curvaturas,
colas alejadas.

3. Prueba de Shapiro-Wilk

Sintaxis

swilk delta_pas

Hipótesis

H0:

La variable sigue distribución normal.

H1:

La variable NO sigue distribución normal.

Interpretación

p valor	Interpretación
p > 0.05	Compatible con normalidad
p < 0.05	Evidencia contra normalidad

4. Asimetría y curtosis

Sintaxis

			
sktest delta_pas
summarize delta_pas, detail
Complementar con:
histogram delta_pas, normal
qnorm delta_pas
kdensity delta_pas
graph box delta_pas

		

Evalúa

skewness (asimetría),
kurtosis (curtosis),
prueba global de normalidad.

Interpretación

p valor	Interpretación
p > 0.05	Compatible con normalidad
p < 0.05	Evidencia contra normalidad

Asimetría

positiva → cola derecha,
negativa → cola izquierda.

Curtosis

leptocúrtica → colas pesadas,
platicúrtica → distribución achatada.

5. Detección de outliers mediante boxplot

Comparar por tratamiento

graph box delta_pas, over(tratamiento)

Crear etiquetas:
label define trat_lbl 0 "Captopril" 1 "Enalapril" label values tratamiento trat_lbl graph box delta_pas, over(tratamiento)

Interpretación

El boxplot permite visualizar:

mediana,
rango intercuartílico,
dispersión,
valores extremos.

Posibles hallazgos

Hallazgo	Interpretación
Mayor reducción en Enalapril	Posible efecto terapéutico
Muchos outliers	Revisar calidad de datos
Distribución muy asimétrica	Considerar transformación
Gran dispersión	Alta variabilidad clínica

Evaluación de otras variables continuas

Edad

			
histogram edad, normal
qnorm edad
swilk edad

IMC

			
histogram imc, normal
qnorm imc
swilk imc

PAS basal

			
histogram pas_baseline, normal
qnorm pas_baseline
swilk pas_baseline

Paso 3. Correlación y colinealidad

Objetivo

Evaluar:

asociación entre variables continuas,
posible multicolinealidad,
redundancia entre predictores,
estabilidad futura del modelo multivariado.

La multicolinealidad puede:

inflar errores estándar,
volver inestables los coeficientes,
alterar significancia estadística,
dificultar interpretación clínica.

1. Correlación de Pearson

Variables continuas principales

			
pwcorr delta_pas edad imc pas_baseline pad_baseline sodio_g_dia actividad_min_sem, sig

¿Qué evalúa?

Dirección de asociación.
Magnitud de correlación.
Significancia estadística.

Interpretación del coeficiente r

r	Interpretación
0.00–0.19	Muy débil
0.20–0.39	Débil
0.40–0.59	Moderada
0.60–0.79	Fuerte
≥0.80	Muy fuerte

2. Correlación no paramétrica (Spearman)

spearman delta_pas adherencia_pct dosis_mg_dia duracion_hta_anios

Útil si:

hay asimetría,
outliers,
relaciones monotónicas no lineales.

spearman delta_pas edad imc pas_baseline adherencia_pct

3. Construcción preliminar del modelo

Antes de evaluar colinealidad:

regress delta_pas i.tratamiento edad i.sexo imc pas_baseline i.diabete

¿Por qué NO meter todo?

Porque puedes introducir:

sobreajuste,
colinealidad,
mediadores,
variables post-basales.

¿Por que no incluir adherencia al modelo?
Por que es Mediador

Es decir:

tratamiento → adherencia → reducción PAS

Por ejemplo:

Enalapril puede generar mejor adherencia
mejor adherencia produce mayor reducción de PAS

Entonces, si ajustas por adherencia:

			
tratamiento → adherencia → delta_pas                 
                  ↓             
             ajustas aquí

puedes eliminar parte del efecto verdadero del tratamiento.

4. Evaluación de multicolinealidad

Variance Inflation Factor (VIF)

vif

estat vif

Interpretación de VIF

vif

VIF	Interpretación
1	Sin colinealidad
1–5	Aceptable
>5	Colinealidad moderada
>10	Colinealidad severa

Interpretación esperada

Variables evaluadas en el modelo

Variables	Resultado observado	Interpretación
tratamiento ↔ edad	VIF bajo	Sin colinealidad relevante
tratamiento ↔ diabetes	VIF bajo	Variables independientes
edad ↔ IMC	VIF bajo	Asociación mínima
IMC ↔ PAS basal	VIF bajo	Sin redundancia importante
PAS basal ↔ diabetes	VIF bajo	Correlación clínica leve, sin impacto en modelo
todas las variables	Mean VIF = 1.06	Modelo estable

5. Identificar redundancia conceptual

Aunque estadísticamente NO existe multicolinealidad significativa, sí deben considerarse algunas relaciones conceptuales entre variables.

Ejemplos clínicos potenciales

Variables	Relación conceptual
IMC ↔ obesidad	Obesidad deriva del IMC
PAS basal ↔ severidad HTA	Severidad definida por PAS
edad ↔ duración HTA	Relación temporal esperable
diabetes ↔ riesgo CV alto	Riesgo estructural compartido

Paso 4. Regresión lineal múltiple

Objetivo

Evaluar el efecto independiente de:

Enalapril vs Captopril

sobre:

reducción de presión arterial sistólica (delta_pas),

ajustando por:

edad,
sexo,
IMC,
PAS basal,
adherencia,
diabetes,
ERC,
sodio,
actividad física,
duración de HTA.

Diferencia entre regresión simple y múltiple

Característica	Simple	Múltiple
Nº predictores	1	≥2
Ajuste por confusión	No	Sí
Realismo clínico	Menor	Mayor
Riesgo de sesgo	Alto	Menor
Interpretación	Cruda	Ajustada

Variable dependiente

delta_pas

(Variable continua)

Modelo inicial

Modelo parsimonioso preliminar

			
regress delta_pas i.tratamiento edad i.sexo imc pas_baseline i.diabetes
regress delta_pas ib1.tratamiento edad i.sexo imc pas_baseline i.diabetes
regress delta_pas ib0.tratamiento edad i.sexo imc pas_baseline i.diabetes
ib significa indicador base

Sintaxis	Significado	Referencia
`i.tratamiento`	categórica automática	menor valor
`ib0.tratamiento`	base explícita	0
`ib1.tratamiento`	base explícita	1

¿Qué hace este modelo?

Estima el cambio promedio en:

reducción de PAS

asociado a cada predictor,
manteniendo constantes las demás variables.

Resultados obtenidos

Variable	β	p	IC95%	Interpretación
Enalapril	+7.23	<0.001	4.95 a 9.51	Mayor reducción de PAS
Edad	+0.038	0.483	-0.068 a 0.144	No significativo
Sexo masculino	+0.605	0.599	-1.66 a 2.87	No significativo
IMC	+0.125	0.337	-0.131 a 0.381	No significativo
PAS basal	-0.059	0.266	-0.163 a 0.045	No significativo
Diabetes	-4.59	<0.001	-7.14 a -2.04	Menor reducción de PAS

Enalapril produce una reducción promedio de PAS aproximadamente 7.23 mmHg mayor que Captopril, ajustando por edad, sexo, IMC, PAS basal y diabetes.

regress delta_pas ib1.tratamiento edad i.sexo imc pas_baseline i.diabetesCaptopril produce una reducción promedio de PAS aproximadamente 7.23 mmHg menor que Enalapril, ajustando por edad, sexo, IMC, PAS basal y diabetes.

Interpretación clínica principal

Tratamiento

β = +7.23 mmHgp < 0.001

Interpretación:

Los pacientes tratados con Enalapril presentaron una reducción promedio adicional de 7.23 mmHg respecto a Captopril,
luego de ajustar por edad, sexo, IMC, PAS basal y diabetes.

Importancia clínica

Una reducción de:

5–10 mmHg de PAS

puede asociarse con:

disminución de ACV,
reducción de eventos cardiovasculares,
menor progresión renal,
reducción de mortalidad cardiovascular.

Diabetes mellitus

β = -4.59 mmHgp < 0.001

Interpretación:

Los pacientes diabéticos tuvieron menor respuesta antihipertensiva.

Posibles mecanismos

rigidez arterial,
disfunción endotelial,
hiperactividad simpática,
nefropatía diabética,
mayor resistencia vascular.

Interpretación según tipo de variable

Tipo	Interpretación
Continua	Cambio por unidad
Binaria	Diferencia promedio entre grupos
Categórica	Comparación respecto referencia

Variables del modelo ampliado teórico

Variable	Tipo	Rol
tratamiento	Binaria	Principal exposición
edad	Continua	Confusora
sexo	Binaria	Confusora
imc	Continua	Confusora
pas_baseline	Continua	Severidad basal
adherencia_pct	Continua	Interviniente
sodio_g_dia	Continua	Factor dietético
actividad_min_sem	Continua	Estilo de vida
diabetes	Binaria	Comorbilidad
erc	Binaria	Comorbilidad
duracion_hta	Continua	Crónicaidad

Bondad de ajuste

Parámetro	Resultado
n	180
F global	10.09
p global	<0.001
R²	0.259
R² ajustado	0.234

Interpretación del R²

R² = 0.259

El modelo explica aproximadamente:

25.9% de la variabilidad de delta_pas.

Interpretación epidemiológica

En estudios clínicos:

R² moderados son frecuentes,
gran parte de la respuesta antihipertensiva depende de:
- genética,
- adherencia real,
- dieta,
- variabilidad biológica,
- factores no medidos.

Resultados importantes a revisar

1. Coeficientes β

Evalúan:

magnitud,
dirección del efecto.

2. p valor

p < 0.05

→ asociación estadísticamente significativa.

3. Intervalos de confianza

Stata los muestra automáticamente:

regress delta_pas i.tratamiento edad i.sexo imc pas_baseline i.diabetes

4. Prueba F global

Evalúa:

H0

Todos los coeficientes = 0.

Resultado:

Prob > F = 0.0000

Interpretación:

el modelo globalmente es significativo.

¿Por qué NO meter todas las variables?

Porque puedes introducir:

Problema	Consecuencia
Sobreajuste	Modelo inestable
Colinealidad	IC amplios
Mediadores	Sobreajuste causal
Variables post-basales	Sesgo
Redundancia	Menor interpretabilidad

Variables NO normales encontradas

Variable	Normalidad
adherencia_pct	No normal
dosis_mg_dia	No normal
duracion_hta	No normal

Importante conceptualmente

En regresión lineal:

NO es obligatorio que los predictores sean normales.

Lo importante es:

normalidad de residuos,
homocedasticidad,
linealidad.

Modelo ampliado recomendado

Versión ajustada robusta

			
regress delta_pas i.tratamiento edad i.sexo imc pas_baseline adherencia_pct sodio_g_dia actividad_min_sem i.diabetes i.erc duracion_hta, robust

¿Por qué usar robust?

Porque:

protege frente a heterocedasticidad,
produce errores estándar más confiables,
es estándar en epidemiología clínica moderna.

Los resultados robus mostrarán:

el uso de enalapril se asoció significativamente con mayor reducción de presión arterial sistólica,
mientras que la diabetes mellitus se asoció con menor respuesta antihipertensiva,
independientemente de variables demográficas y clínicas incluidas en el análisis.

Modelo con factor variables correctamente especificadas

			
regress delta_pas i.tratamiento i.sexo c.edad c.imc c.pas_baseline c.adherencia_pct c.sodio_g_dia c.actividad_min_sem i.diabetes i.erc c.duracion_hta, robust

Diferencia importante: `c.` vs `i.`

Prefijo	Significado	Tipo de variable
`c.`	Continuous	Continua
`i.`	Indicator	Categórica/binaria
`##`	Interacción completa	Interacción
`#`	Solo interacción	Interacción simple

Interpretación clínica esperada

Variable	Efecto esperado
Enalapril	Mayor reducción
PAS basal alta	Mayor descenso
Mejor adherencia	Mejor respuesta
Alto sodio	Menor respuesta
Diabetes/ERC	Menor control

Diagnóstico posterior del modelo

1. Multicolinealidad

vif

2. Residuos

predict resid, residuals

3. Normalidad de residuos

			
histogram resid, normal
qnorm resid
swilk resid

4. Homocedasticidad

			
rvfplot
estat hettest
p = 0.7913
No existe evidencia estadísticamente significativa de heterocedasticidad.
El modelo cumple adecuadamente el supuesto de: varianza constante de residuos.

		

Paso 5. Regresión logística multivariada

Objetivo

Evaluar factores asociados al:

control de presión arterial

mediante:

regresión logística multivariada,
estimación de Odds Ratios (OR) ajustados.

Variable dependiente

Control de PAS

tab control_pas

Codificación:

Valor	Interpretación
1	PAS controlada (<140 mmHg)
0	PAS no controlada

¿Por qué usar regresión logística?

Porque el desenlace es:

binario,
dicotómico,
sí/no.

La regresión logística permite:

estimar probabilidades,
calcular OR ajustados,
controlar confusión.

Modelo logístico inicial

Comando

			
logistic control_pas i.tratamiento i.sexo c.edad c.imc c.pas_baseline c.sodio_g_dia i.diabetes i.erc

Diferencia entre `logistic` y `logit`

Comando	Resultado
`logistic`	OR directamente
`logit`	coeficientes logit

Modelo ampliado

			
logistic control_pas i.tratamiento i.sexo c.edad c.imc c.pas_baseline c.adherencia_pct c.sodio_g_dia c.actividad_min_sem i.diabetes i.erc c.duracion_hta_anios

Interpretación de Odds Ratio (OR)

OR	Interpretación
OR = 1	Sin asociación
OR >1	Mayor odds del evento
OR <1	Menor odds del evento

Ejemplo de interpretación

Tratamiento

Variable	OR	IC95%	p
Enalapril	2.8	1.5–5.2	0.001

Interpretación:

Los pacientes tratados con enalapril presentan:

2.8 veces mayores odds

de lograr control de PAS comparados con captopril.

Variables continuas

Ejemplo

Variable	OR
sodio_g_dia	0.82

Interpretación:

Cada incremento de:

1 g/día de sodio

se asocia con:

18% menor odds de control de PAS.

Bondad de ajuste

Clasificación

estat classification

Permite evaluar:

sensibilidad,
especificidad,
porcentaje correctamente clasificado.

Hosmer-Lemeshow

estat gof

Hipótesis

H0:

Buen ajuste del modelo.

Interpretación

p valor	Interpretación
p >0.05	Buen ajuste
p <0.05	Mal ajuste

El resultado mostrara que No se encontró evidencia de mal ajuste del modelo p > 0.05

Curva ROC

Comando

lroc

Interpretación del AUC

AUC	Interpretación
0.5	Sin discriminación
0.6–0.7	Pobre
0.7–0.8	Aceptable
0.8–0.9	Excelente
>0.9	Sobresaliente

Probabilidades predichas

Generar probabilidades

predict p_control

Visualizar probabilidades

summarize p_control

Interacciones

Tratamiento × diabetes

logistic control_pas i.tratamiento##i.diabetes c.edad c.imc

Los pacientes tratados con enalapril tuvieron aproximadamente 2 veces más odds de lograr control de presión arterial comparados con captopril, aunque sin significancia estadística completa.
Los pacientes con diabetes mellitus tuvieron aproximadamente 4.5 veces menos odds de lograr control de presión arterial comparados con no diabéticos.
La interacción tratamiento × diabetes no fue significativa, sugiriendo que el efecto de enalapril fue relativamente similar en diabéticos y no diabéticos.
Por cada año adicional de edad, las odds de control de presión arterial disminuyeron aproximadamente 4.7%.
El IMC no mostró asociación significativa con el control de presión arterial en el modelo ajustado.

Paso 6. Regresión de Poisson / Riesgos relativos (RR)

Objetivo

Evaluar factores asociados al control de presión arterial sistólica mediante:

regresión de Poisson,
estimación de Riesgos Relativos (RR) ajustados.

Outcome	Modelo	Medida
continuo	lineal	β
binario	logística	OR
binario frecuente	Poisson robusta	RR
conteo	Poisson	IRR
conteo sobredisperso	binomial negativa	IRR
ordinal	ordinal	OR
nominal >2	multinomial	RRR
tiempo-evento	Cox	HR
longitudinal	GEE/mixtos	depende

Modelo de Poisson robusto

			
poisson control_pas i.tratamiento i.sexo c.edad c.imc c.pas_baseline c.adherencia_pct c.sodio_g_dia c.actividad_min_sem i.diabetes i.erc c.duracion_hta_anios, robust irr

¿Qué significa `irr`?

Incidence Rate Ratio

En desenlaces binarios:

se interpreta aproximadamente como Riesgo Relativo (RR).

Interpretación de RR

RR	Interpretación
RR = 1	Sin asociación
RR >1	Mayor probabilidad
RR <1	Menor probabilidad

Ejemplos de interpretación

RR = 1.5

1.5 veces más probabilidad

de lograr control de PAS.

RR = 0.70

30% menos probabilidad

de lograr control de PAS.

Bondad del modelo

Pseudo log likelihood

El modelo utiliza:

estimación robusta,
adecuada para datos binarios frecuentes.

Comparación con regresión logística

Modelo	Medida
Logistic	Odds Ratio (OR)
Poisson robusto	Riesgo Relativo (RR)

Ventaja clínica del RR

El RR es:

más intuitivo,
más interpretable clínicamente,
menos propenso a sobreestimar efectos cuando el evento es frecuente.

Posible interacción

Tratamiento × diabetes

poisson control_pas i.tratamiento##i.diabetes c.edad c.imc, robust irr

Interpretación clínica

Permite evaluar si:

el efecto de enalapril cambia según presencia de diabetes mellitus.

Interpretación esperada del modelo

RR >1:
- mayor probabilidad de control de PAS.
RR <1:
- menor probabilidad de control de PAS.
Variables significativas:
- asociaciones independientes ajustadas.

Paso 7. Regresión binomial negativa

Objetivo

Evaluar variables asociadas a un desenlace de conteo utilizando:

regresión binomial negativa,
especialmente cuando existe:
- sobredispersión,
- varianza mayor que la media.

¿Cuándo usar regresión binomial negativa?

Se utiliza cuando:

la variable dependiente es de conteo,
existen muchos valores dispersos,
Poisson no ajusta adecuadamente.

Variable dependiente de conteo

En esta base utilizaremos:

visitas_control

Número de visitas de control realizadas por el paciente.

Verificar distribución

summarize visitas_control, detailtab visitas_control

Evaluar media vs varianza

Concepto importante

Poisson asume:

$Var(Y)=E(Y)$ Var(Y)=E(Y)

Sobredispersión

Si:

$Var(Y)>E(Y)$ Var(Y)>E(Y)

→ existe sobredispersión.

En ese caso:

Poisson puede subestimar errores estándar,
binomial negativa suele ser mejor opción.

Modelo Poisson inicial

poisson visitas_control i.tratamiento i.diabetes c.edad c.imc

Modelo binomial negativo

nbreg visitas_control i.tratamiento i.diabetes c.edad c.imc

Mostrar IRR

nbreg visitas_control i.tratamiento i.diabetes c.edad c.imc, irr

¿Qué significa IRR?

Incidence Rate Ratio

Interpretación similar a RR para variables de conteo.

Interpretación de IRR

IRR	Interpretación
IRR = 1	Sin asociación
IRR >1	Más eventos
IRR <1	Menos eventos

Ejemplo clínico

IRR = 1.40

Interpretación:

Los pacientes tratados con enalapril tuvieron:

1.4 veces más visitas de control

comparados con captopril.

Ejemplo IRR <1

IRR = 0.70

Interpretación:

Los pacientes diabéticos tuvieron:

30% menos visitas

comparados con no diabéticos.

Evaluar sobredispersión

Comparar Poisson vs binomial negativa

estat ic

Interpretación

Menor:

AIC,
BIC

→ mejor ajuste.

Parámetro alfa

La binomial negativa estima:

alpha

Interpretación

Resultado	Interpretación
alpha ≈ 0	Poisson suficiente
alpha >0 significativo	Existe sobredispersión

Modelo ampliado

			
nbreg visitas_control i.tratamiento i.sexo c.edad c.imc c.pas_baseline c.adherencia_pct c.sodio_g_dia i.diabetes i.erc c.duracion_hta_anios, irr

Interacciones

Tratamiento × diabetes

nbreg visitas_control i.tratamiento##i.diabetes c.edad c.imc, irr

Diferencia entre modelos

Modelo	Outcome
Regresión lineal	Continua
Logistic	Binaria
Poisson	Conteo
Binomial negativa	Conteo con sobredispersión

Paso 8. Análisis de supervivencia

Objetivo

Evaluar el tiempo hasta la ocurrencia de un evento mediante:

curvas de Kaplan-Meier,
prueba de Log-rank,
regresión de Cox multivariada.

¿Qué analiza supervivencia?

No solo evalúa:

si ocurre un evento,

sino también:

cuándo ocurre.

Variables necesarias

Tiempo

duracion_hta_anios

(simulación de tiempo de seguimiento)

Evento

Usaremos:

control_pas

Interpretación:

Valor	Significado
1	Evento ocurrió
0	Censurado

1. Declarar datos de supervivencia

Comando

stset duracion_hta_anios, failure(control_pas==1)

Interpretación

Stata ahora reconoce:

variable tiempo,
variable evento,
censura.

2. Curva de Kaplan-Meier

Curva global

sts graph

Kaplan-Meier por tratamiento

sts graph, by(tratamiento)

Interpretación

La curva muestra:

probabilidad acumulada de permanecer sin evento a lo largo del tiempo.

Interpretación clínica

Separación de curvas:

sugiere diferencias entre tratamientos.

3. Prueba de Log-rank

Comando

sts test tratamiento

Hipótesis

H0:

No diferencias entre curvas.

H1:

Las curvas son diferentes.

Interpretación

p valor	Interpretación
p <0.05	Diferencia significativa
p >0.05	No diferencia

La prueba de Log-rank mostró diferencias estadísticamente significativas entre las curvas de supervivencia de:

enalapril,
captopril.

4. Modelo de Cox multivariado

Comando

stcox i.tratamiento i.sexo c.edad c.imc i.diabetes i.erc

El modelo de Cox fue globalmente significativo:

p = 0.0085

lo que indica que las variables incluidas se asocian significativamente con el tiempo hasta lograr control de presión arterial.

Interpretación del HR

HR	Interpretación
HR = 1	Sin asociación
HR >1	Mayor riesgo del evento
HR <1	Menor riesgo

Los pacientes tratados con enalapril tuvieron aproximadamente:

1.95 veces mayor probabilidad instantánea

de lograr control de presión arterial comparados con captopril.

HR = 1.95 ; p = 0.018

La diabetes mostró tendencia a menor probabilidad de control tensional:

HR = 0.54

aproximadamente:

46% menor probabilidad instantánea,
aunque sin significancia estadística completa.

Sexo, edad, IMC y enfermedad renal crónica no mostraron asociación significativa con el tiempo hasta el control de PAS en este modelo ajustado.

5. Verificar proporcionalidad de riesgos

Comando

estat phtest

Hipótesis

H0:

Se cumple proporcionalidad de riesgos.

Interpretación

p valor	Interpretación
p >0.05	Supuesto cumplido
p <0.05	Violación del supuesto

La prueba de proporcionalidad de riesgos no mostró evidencia de violación del supuesto de hazards proporcionales.

p = 0.8273

El supuesto fundamental del modelo de Cox se considera cumplido:

p > 0.05

Esto indica que los Hazard Ratios (HR) pueden interpretarse como relativamente constantes a lo largo del tiempo de seguimiento.

Por tanto, el modelo de Cox presenta adecuada validez metodológica para interpretar asociaciones temporales en esta cohorte simulada.

Curvas ajustadas

Supervivencia ajustada por tratamiento

stcurve, survival at1(tratamiento=0) at2(tratamiento=1)

Conceptos importantes

Concepto	Significado
Censura	Paciente sin evento durante seguimiento
Hazard	Riesgo instantáneo
Kaplan-Meier	Supervivencia no ajustada
Cox	Riesgo ajustado

Paso 9. Selección de variables

Objetivo

Identificar las variables más relevantes para construir un modelo multivariado:

parsimonioso,
estable,
clínicamente interpretable,
metodológicamente adecuado.

¿Por qué seleccionar variables?

Porque incluir demasiadas variables puede producir:

sobreajuste,
colinealidad,
pérdida de precisión,
modelos difíciles de interpretar.

Estrategias de selección

Método	Característica
Clínica	Basada en plausibilidad biológica
Estadística	Basada en p valor
Mixta	Clínica + estadística
Stepwise	Automatizada
Backward	Eliminación progresiva
Forward	Inclusión progresiva

Recomendación en epidemiología clínica

La selección debe priorizar:

plausibilidad clínica,
confusión,
evidencia previa,
no solo p valor.

1. Modelo completo inicial

			
logistic control_pas i.tratamiento i.sexo c.edad c.imc c.pas_baseline c.adherencia_pct c.sodio_g_dia c.actividad_min_sem i.diabetes i.erc c.duracion_hta_anios

2. Evaluar variables significativas

Interpretar:

p valor,
IC95%,
relevancia clínica,
estabilidad de coeficientes.

Las siguientes variables no mostraron asociación estadísticamente significativa con el control de PAS en el modelo ajustado:

sexo,
edad,
IMC,
adherencia terapéutica,
consumo de sodio,
actividad física,
enfermedad renal crónica,
duración de hipertensión arterial.

3. Selección backward (eliminación progresiva)

Comando

			
stepwise, pr(.20): logistic control_pas tratamiento sexo edad imc pas_baseline adherencia_pct sodio_g_dia actividad_min_sem diabetes erc duracion_hta_anios

¿Qué significa `pr(.20)`?

Variables permanecen si:

p < 0.20

¿Por qué usar 0.20 y no 0.05?

Porque:

variables confusoras importantes pueden no ser altamente significativas,
evita excluir variables clínicamente relevantes demasiado temprano.

El método backward eliminó progresivamente variables sin contribución significativa al modelo:
- edad,
- ERC,
- adherencia,
- IMC,
- actividad física,
- duración de HTA,
- sexo,
- consumo de sodio.

El modelo final retainedo incluyó:
- tratamiento,
- PAS basal,
- diabetes mellitus.

4. Comparar modelos

1. Modelo completo

			
logistic control_pas tratamiento sexo edad imc pas_baseline adherencia_pct sodio_g_dia actividad_min_sem diabetes erc duracion_hta_aniosestimates store completo

2. Modelo reducido

logistic control_pas tratamiento pas_baseline diabetesestimates store reducido

3. Comparación

lrtest completo reducido

Qué evalúa LR test

H0

El modelo reducido ajusta igual que el completo

Interpretación

Resultado	Interpretación
p >0.05	Modelo reducido suficiente
p <0.05	Modelo completo mejor

5. Selección clínica manual

Variables que usualmente deben mantenerse

Aunque no sean significativas:

edad,
sexo,
tratamiento,
diabetes,
variables principales de confusión.

Variables candidatas a excluir

Variable	Motivo
adherencia_pct	Posible mediador
actividad_min_sem	Débil asociación
variables redundantes	Colinealidad

Modelo final parsimonioso

Ejemplo:

logistic control_pas i.tratamiento c.edad c.pas_baseline i.diabetes

Evaluar estabilidad

Verificar cambios importantes

Si al retirar una variable:

el OR cambia >10–15%,
→ posible confusión.

Concepto importante

Variable significativa ≠ confusor

Una variable puede:

no ser significativa,
pero sí modificar el efecto principal.

Estrategia ideal en epidemiología clínica

Mantener:

variables clínicamente relevantes,
variables confusoras,
exposición principal,
aunque:
no tengan p <0.05.

Riesgos del stepwise

Puede:

sobreajustar,
producir modelos inestables,
seleccionar variables por azar,
variar según muestra.

Por ello:

debe interpretarse con criterio clínico.

Relacionado

Descubre más desde Medicina Cardiometabólica

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Introducción

Objetivo general

Objetivos específicos

Hipótesis

Hipótesis nula (H0)

Hipótesis alterna (H1)

Diccionario de variables

Paso 1. Verificación de variables y conversión de variables string

Objetivo

1. Abrir la base de datos

2. Verificar estructura de variables

3. Inspeccionar algunas observaciones

4. Identificar variables string

5. Convertir variables string categóricas a numéricas etiquetadas

Hospital

Médico

6. Verificar conversión

7. Ver etiquetas creadas automáticamente

9. Comprobar frecuencia de categorías

Hospital

Médico

10. Verificar valores perdidos

Interpretación esperada

Paso 2. Evaluación previa al modelo

Objetivo

Variable principal de interés

1. Histograma con curva normal

Sintaxis

Objetivo

Interpretación

Compatible con normalidad:

Sugiere no normalidad:

2. Q-Q plot (normalidad gráfica)

Sintaxis

Objetivo

Interpretación

Normalidad aproximada:

No normalidad:

3. Prueba de Shapiro-Wilk

Sintaxis

Hipótesis

H0:

H1:

Interpretación

4. Asimetría y curtosis

Sintaxis

Evalúa

Interpretación

Asimetría

Curtosis

5. Detección de outliers mediante boxplot

Comparar por tratamiento

Interpretación

Posibles hallazgos

Evaluación de otras variables continuas

Edad

IMC

PAS basal

Paso 3. Correlación y colinealidad

Paso 3. Correlación y colinealidad

Objetivo

1. Correlación de Pearson

Variables continuas principales

¿Qué evalúa?

Interpretación del coeficiente r

2. Correlación no paramétrica (Spearman)

3. Construcción preliminar del modelo

¿Por qué NO meter todo?

¿Por que no incluir adherencia al modelo? Por que es Mediador

4. Evaluación de multicolinealidad

Variance Inflation Factor (VIF)

Interpretación de VIF

Interpretación esperada

Variables evaluadas en el modelo

5. Identificar redundancia conceptual

Ejemplos clínicos potenciales

Paso 4. Regresión lineal múltiple

Objetivo

Diferencia entre regresión simple y múltiple

Variable dependiente

¿Por que no incluir adherencia al modelo?
Por que es Mediador

Diferencia importante: `c.` vs `i.`

Diferencia entre `logistic` y `logit`

¿Qué significa `irr`?