Interfaz de Stata, comandos básicos y carga de datos.


Stata es un software estadístico desarrollado por StataCorp desde 1985.
Se ha convertido en una herramienta clave para el análisis de datos en ciencias sociales, economía, bioestadística y epidemiología, por su capacidad de manejar grandes bases de datos, realizar análisis complejos y generar gráficos profesionales.

Aplicaciones en salud:

  • Análisis de encuestas de salud poblacional.
  • Estudios clínicos y epidemiológicos (cohortes, casos y controles, transversales).
  • Evaluación de tratamientos, pronósticos, diagnósticos.
  • Análisis de supervivencia y regresiones multivariadas.


🖥️ Interfaz de Usuario en Stata

🔹 1. History (columna izquierda)

  • Muestra todos los comandos que se han ejecutado durante la sesión.
  • Muy útil si quieres repetir o copiar comandos previos.

🔹 2. Command (barra azul inferior)

  • Aquí escribes los comandos directamente.
  • Una vez que presionas Enter, se ejecutan y los resultados aparecen arriba.

🔹 3. Results (área central)

  • Donde se muestra el resultado de cada comando.
  • Incluye estadísticas, mensajes de error, tablas, y más.

🔹 4. Variables (arriba a la derecha)

  • Lista las variables activas del dataset actual.
  • Puedes hacer clic en una variable para insertarla en tu comando.

🔹 5. Properties (abajo a la derecha)

  • Muestra propiedades de cada variable seleccionada:
    • Tipo (numérica, texto)
    • Etiqueta
    • Etiqueta de valores
    • Formato
    • Notas

📁 3. Tipos de archivos en Stata (5 min)

.dta → archivo de datos.

.do → archivo de comandos.

.log → archivo de salida (resultados).

.gph → gráficos guardados.

🧠Siempre trabaja con un .do file y guarda un .log para tener todo tu análisis documentado y reproducible.


🧪Explorando comandos básicos en Stata

📂 Paso 1: Cargar los datos desde Excel

Guarda tu archivo como datos_clase.xlsx en el Escritorio y luego escribe:

import excel "C:\Users\TuUsuario\Desktop\datos_clase.xlsx", firstrow clear

Asegúrate de reemplazar TuUsuario por el nombre real de tu computadora.


🔍 Paso 2: Examinar la estructura del archivo

describe
  • Muestra las variables, tipo de dato, número de observaciones.
browse
  • Visualiza los datos como en una hoja de cálculo.

📊 Paso 3: Resumen de variables

summarize
  • Estadísticas básicas de todas las variables.
summarize edad
  • Solo para edad.
summarize edad, detail
  • Estadísticas básicas de todas las variables.

Estadísticas básicas de todas las variables.

codebook sexo
  • Examina los valores de la variable sexo.

📃 Paso 4: Listar algunos datos

list edad sexo diabetes in 1/5
  • Muestra los primeros 5 registros.
list edad sexo
  • Solo muestra las columnas edad y sexo.
list edad sexo if edad >= 15
  • Muestra solo los casos donde la edad es 15 o más
list edad diabetes if sexo == 2
  • Muestra las edades y diabetes de quienes tienen sexo = 2
sort edad
list edad
  • Para ordenar en forma ascendente y luego listar:
gsort -edad
list edad

Para ordenar en forma descendente y luego listar:

sort sexo edad
list edad sexo
  • Primero ordena por sexo y luego por edad dentro de cada grupo.
sort edad
list edad sexo diabetes
  • Primero ordenas por edad, luego listas.

🔄 Paso 5: Convertir variables de texto a numérico

Si tienes variables categóricas en formato de texto y deseas convertirlas a numérico:

encode sexo, gen(sexo_num)
encode diabetes, gen(diabetes_num)

Esto genera nuevas variables numéricas a partir de texto, conservando las etiquetas


🧮 Paso 6: Crear una nueva variable

generate mayor_igual_15 = edad >= 15
  • Crea una variable nueva con valor 1 si la edad es 15 o más.

🧹 Paso 7: Reemplazar valores (opcional)

Supón que en tu base:

  • sexo = 1 es Hombre
  • sexo = 2 es Mujer

Puedes crear una variable nueva en texto:

generate sexo_txt = ""
replace sexo_txt = "Hombre" if sexo == 1
replace sexo_txt = "Mujer" if sexo == 2

🧹 Paso 8: Eliminar Variables o Observaciones

Eliminar una Variable:

Para eliminar una variable que ya no necesitas en tu dataset, utiliza el siguiente comando:

drop sexo_txt

Esto eliminará la variable sexo_txt del dataset activo.

Eliminar Múltiples Variables:

Si deseas eliminar varias variables al mismo tiempo, sepáralas con un espacio:

drop edad diabetes

Eliminar Observaciones Específicas:

Si deseas eliminar casos específicos basados en una condición, utiliza:

drop if edad < 15

Esto eliminará todas las observaciones donde la edad sea menor a 15.

Eliminar un Rango de Observaciones:

Por ejemplo, para eliminar los primeros 5 registros:

drop in 1/5

🖥️ Destring en Stata

El comando destring en Stata convierte variables de tipo cadena (string) a variables numéricas. Es útil cuando los datos numéricos están almacenados como texto.

destring nombre_variable, replace

Convierte la variable de texto a numérica, reemplazando los valores originales.


💡 Consejos:

  1. Precaución: Una vez que usas drop, no hay vuelta atrás. Asegúrate de guardar el archivo antes de eliminar datos importantes.
  2. Filtrar antes de Eliminar: Antes de usar drop, es útil usar el comando list para verificar que las observaciones que deseas eliminar son correctas: list edad sexo if edad < 15

✅ Paso 8: Guardar el archivo como .dta

save "pacientes.dta", replace

📌 El archivo se guardará en la carpeta de trabajo actual de Stata.
Puedes ver esa carpeta con:

pwd

Y puedes cambiarla con:

cd "C:\NuevaRuta\"

🎁 BONUS: Aprendiendo a Etiquetar tus Variables

Base de datos: pacientes.xlsx
Variables: edad, sexo, diabetes
(donde sexo: 1=Hombre, 2=Mujer y diabetes: 1=Sí, 2=No)

📂 1. Importar la base de datos desde Excel

import excel "C:\Users\TuUsuario\Desktop\pacientes.xlsx", firstrow clear

✅ Reemplaza la ruta con la correcta en tu PC.


🏷️ 2. Etiquetar los valores de sexo

label define sexo_lbl 1 "Hombre" 2 "Mujer"
label values sexo sexo_lbl

🏷️ 3. Etiquetar los valores de diabetes

label define diabetes_lbl 1 "Sí" 2 "No"
label values diabetes diabetes_lbl

🏷️ 4 Etiquetas variable edad:

Si el nombre de una variable no es claro o queremos un nombre más descriptivo, usamos:

rename edad edad_paciente
  • Cambia el nombre de la variable edad a edad_paciente.

Podemos agregar una etiqueta para describir el significado de una variable:

label variable edad "Edad del paciente en años"
  • Esto ayuda a documentar el propósito de cada variable dentro del dataset.

🔍 4. Verifica que las etiquetas se aplicaron

tabulate sexo
tabulate diabetes

tabulate edad

✅ Ahora verás «Hombre/Mujer» y «Sí/No» en lugar de 1/2.
✅ Para edad, obtendrás una tabla con el conteo de cada valor numérico de edad.


💾 5. Guardar la base con etiquetas

save "pacientes_etiquetado.dta", replace

BASE DE DATOS: