CONCORDANCIA Y CORRELACIÓN

Actualmente, se define como regresión a la predicción de una medida basada en el conocimiento de otra. 

La correlación de Pearson parte de esta base, y se usa con variables cuantitativas, las cuales pueden ser cuantificadas. De esta forma, existen dos tipos de hipótesis: la de partida (con variables independientes) y alternativas (con variables relacionadas). Esta puede representarse mediante una tabla, donde las filas se corresponden con los datos de un individuo, y las columnas corresponden a los valores que toma una variable sobre los mismos; o bien mediante un diagrama de dispersión, con el objetivo de identificar si las variables se relacionan, qué tipo de relación hay y si es posible predecir el valor de una de ellas en función de la otra.

En los diagramas de dispersión se pueden dar diferentes situaciones:
  • Incorrelación: Para valores de x por encima de la media tenemos valores de y por encima y por debajo en proporciones similares.
  • Relación directa: Para valores de x mayores/menores que la media le corresponden valores mayores/menores de y también.
  • Relación inversa: Para valores de x mayores que la media le corresponden valores de y menores.



De esta forma, las variables cuantitativas pueden ser independientes entre sí (no existe relación entre ellas), o bien pueden darse dos tipos de dependencia: funcional, cuando los puntos se sitúan exactamente sobre una línea recta o curva; o escolástica, donde no están los puntos exactamente sobre el modelo.



Para la correlación se emplean los modelos de análisis de regresión, y más concretamente el de regresión lineal simple, que estudia la asociación lineal entre variables cuantitativas. Puede ser simple, cuando una sola variable independiente; o múltiple, cuando hay más de una variable.



Según el coeficiente de regresión:
  • b > 0: incremento de y cuando x aumenta en una unidad.
  • b < 0: incremento de y cuando x disminuye en una unidad.
En modelos lineales deterministas la variable independiente determina el valor de la dependiente. En los probabilísticos, para cada valor de la variable independiente existe una distribución de probabilidad de valores de la dependiente (entre 0 y 1).

Los coeficientes pueden ser de pruebas paramétricas (de Pearson), o de no paramétricas (Rho de Spearman). El de Pearson mide el grado de la relación de dependencia que existe entre las variables. El de Pearson, si la r > 0, es lineal directa, si r = 0, hay variables independientes o por otro lado puede no ser lineal. El rho de Spearman es una medida de asociación que requiere que ambas variables sean medidas por lo menos en una escala ordinal.





Para comprobar la normalidad de los datos, pueden usarse métodos de Kolmogorov-Smirnov y la prueba de Shapiro-Wilk.




De esta forma:


Para evaluar la bondad de ajuste en los modelos lo hacemos mediante el Coeficiente de Determinación (valor acotado entre 0 y 1). Si se aproxima a 1, mayor bondad de ajuste.


¡Hasta la próxima!

Comentarios