INTRODUCCIÓN A LA ESTADÍSTICA DESCRIPTIVA

La estadística descriptiva, como su nombre indica, describe y analiza una determinada población o muestra sin pretender sacar conclusiones de tipo general mediante la utilización de datos numéricos y gráficos, de manera que organiza de manera clara, para su fácil análisis, resumiendo datos, explorando las relaciones entre variables, y resultando preliminar a la inferencia. La estadística inferencial induce leyes de comportamiento de una población, a partir del estudio del análisis de una muestra, a través del cálculo de probabilidad y datos muestrales, efectuando estimaciones, decisiones, predicciones y generalizaciones sobre un conjunto de datos mayor. En resumen, la estadística descriptiva sirve para describir y resumir datos, mientras que la estadística inferencial utiliza muestras de datos para sacar conclusiones sobre poblaciones más grandes.

Para la presentación y organización comprensible de los datos de una variable se utilizan las tablas de frecuencia, donde se presentan en las columnas la frecuencia de las variables, y en las filas las categorías. Estas han de cumplir ciertos requisitos, que son:
  • Han de ser autoexplicativas.
  • Deben ser sencillas y fáciles de comprender.
  • Tienen que contar con un título, que ha de ser breve y claro.
  • Han de indicar lugar, fecha y fuente de información.
  • Deben incluir las unidades de medida en cada cabecera.
  • Tienen que indicar las frecuencias absolutas y relativas.
Para construir una tabla de frecuencia es necesario, cuando hablamos de datos tanto cuantitativos como cualitativos:
  • Identificar la cantidad de datos (n).
  • Establecer las categorías (Xi)
  • Determinar la frecuencia absoluta (fi), que es la cantidad de datos que pertenece a una categoría.
  • Determinar la frecuencia absoluta acumulada (Fi), que es el resultado de ir sumando de ir sumando las frecuencias absolutas. El valor de la suma de todas las frecuencias absolutas ha de ser igual a la cantidad de datos (n).
  • Determinar la frecuencia relativa (hi), fracción de datos que pertenece a una determinada categoría respecto al total. Se calcula mediante la división del valor de la frecuencia absoluta por el número de datos. La sumatoria de frecuencias relativas debe tener un valor igual a 1,00. Puede expresarse como porcentaje.
  • Determinar la frecuencia relativa acumulada (Hi), que es la sumatoria de las frecuencias relativas.
  • Determinar la frecuencia porcentual (%), que es multiplicar la frecuencia relativa por 100. La sumatoria ha de ser de un 100% (nos indica que hemos utilizado todos los datos de los que disponemos).
Ejemplo de una tabla de frecuencia con datos cualitativos del video recomendado

Ejemplo de una tabla de frecuencia con datos cuantitativos del vídeo recomendado

Para una mejor comprensión de la elaboración de tablas de frecuencia, recomiendo la visualización del siguiente vídeo:


De esta manera, en el caso de utilizar datos agrupados, es necesario definir los intervalos, sus extremos, la amplitud o distancia entre dichos extremos, y calcular la marca de clase de cada intervalo. Para ello, recomiendo la visualización del siguiente vídeo:


En el análisis descriptivo usamos los denominados indicadores, que se definen como la medida de la frecuencia de un determinado suceso en una población, tratándose de números relativos, resultado del cociente entre dos magnitudes, por lo que constan siempre de un numerador y un denominador. En el caso de frecuencia absoluta no es un indicador ya que no consta de un denominador que lo relacione con el tamaño de la muestra o población, y/o el periodo en el que se presentaron los eventos. Pueden ser de varios tipos, como proporción, tasa, razón odds, y son elaborados en el Instituto Nacional de Estadística (INE), el Instituto de Estadística de Andalucía (IEA) y el Centro de Investigaciones Sociológicas (CIS). Cuando hablamos de proporciones nos referimos a la medida resumen para variables cualitativas, que consiste en el cociente entre un subconjunto y el conjunto al que pertenece. Este adopta valores reales entre 0 y 1, y suele multiplicarse por 100. Cuando hablamos de tasas, hablamos de la comparación entre el número de veces que ocurre un evento y la población en la que puede ocurrir este en un tiempo determinado, por lo que expresa el riesgo de ocurrencia del evento, mediante una división. También adopta valores fraccionarios menores a 1 y se multiplica por 100. Las tasas y proporciones pueden asociarse a las incidencias, que son medidas de riesgo, en las que se se expresa el número de nuevos casos dentro de un suceso (en enfermería, dentro de enfermedad), en un periodo específico de tiempo, en una población con riesgo a presentar dicho suceso. Cuando hablamos de incidencia acumulada, hablamos del riesgo de que se produzca el suceso, por lo que mide la probabilidad de que el evento ocurra, y se trata de una proporción, por lo que adquiere valores de 0 a 1. Por su parte, la tasa de incidencia es la velocidad de aparición de nuevos casos con respecto al tamaño de la población, por lo que se mide en 1/unidades de tiempo, dependiendo estas unidades del investigador. Cuando hablamos de prevalencia de una enfermedad en nuestro caso, hablamos del cociente entre el número de casos de una enfermedad entre el número de individuos que constituye la muestra o población, mientras que la incidencia relaciona el número de nuevos casos entre el número de individuos de la muestra o población, ambos expresados en porcentaje. De esta forma, al aumentar la incidencia, aumenta la prevalencia de una enfermedad. Así, la prevalencia, durante la duración de la enfermedad, disminuiría con las muertes y curaciones de los individuos, mientras que aumentaría con el aumento de los nuevos casos o lo que es lo mismo, de la incidencia. Deducimos por tanto que la prevalencia es igual a la incidencia por la duración de la enfermedad. Cuando hablamos de razones o "ratios" nos referimos a una medida de resumen para variables cualitativas que consiste en la comparación de dos conjuntos a través de una división, y se diferencia de las proporciones en que no contiene el numerador en el denominador. Los odds o ventajas son los cocientes entre la proporción o probabilidad de ocurrencia de un evento y la probabilidad o proporción de no ocurrencia. En el último caso, los valores que adquiere pueden variar desde 0 hasta valores infinitos.

Podemos relacionar proporciones, ratios y odds mediante las conocidas como medidas de asociación. Estas pueden ser:
  • Razón de prevalencias: Realiza una ratio entre dos prevalencias. Se usa en estudios descriptivos de corte transversal.
  • Riesgo relativo o razón de riesgos: Ratio entre proporciones o tasas. Usado en estudios observacionales de seguimiento o estudios experimentales.  
  • Odds ratio: Ratio entre dos odds. Se emplea en estudios de casos y controles. 
¡Hasta aquí el resumen! Si tienes alguna duda no seas tímido y pregunta en comentarios. ¡Hasta la próxima!

Comentarios