Aprendizaje supervisado

19/05/2022

En el campo del Machine Learning o Aprendizaje Automático, hay varios tipos de aprendizaje. Aunque hay varias posibles maneras de clasificarlos, la más conocida es la siguiente:

Algoritmos supervisados y algoritmos no supervisados. En los próximos párrafos veremos la diferencia entre ambos, y sus respectivos campos de aplicación en los negocios.

Aprendizaje supervisado

En el aprendizaje supervisado, la data que vamos a analizar contiene dos tipos de variables, clasificadas a su vez como variables independientes y variable(s) dependiente.

El caso más conocido, es la clásica regresión lineal múltiple. Por ejemplo, consideremos que tenemos la data de todas las viviendas vendidas en una determinada ciudad: superficie, número de habitaciones, de baños, antigüedad, zona, clasificación de la zona (seguridad, escuelas, etc.), y el precio de venta.

Podemos modelar el comportamiento del Precio de venta, que será en este caso nuestra variable Dependiente, en función de las otras variables (área, número de habitaciones, etc.) llamadas Independientes o explicativas.

La idea es que podamos crear un modelo (en este caso una ecuación lineal) que, para una nueva vivienda no incluida en nuestro conjunto de datos inicial, conociendo los valores de las variables independientes (área, zona, baños, etc.) podamos estimar su Precio.

Para lograrlo, el algoritmo ubica la mejor solución, minimizando la suma de los Errores (al cuadrado), siendo el error, la diferencia entre el valor real de la vivienda y el valor predicho por el modelo.

Esto lo podemos hacer porque conocemos el valor real de la vivienda. Es decir, podemos “Supervisar” si el modelo es bueno o no (con algunos indicadores que veremos en una publicación posterior). Cabe señalar que, en Aprendizaje Supervisado, se divide la data disponible en dos subconjuntos:

La data para entrenar el modelo (entre 70 y 80% del total, aproximadamente)
La data para validar, o “testear” el modelo, una vez elaborado.

Es decir, que vamos a aplicar el modelo (las ecuaciones, en este caso), no a la data con que fue entrenado el modelo, sino con la data reservada para validar.

Además de la Regresión Lineal, hay otros tipos de regresión en Machine Learning, que pueden ser más efectivos, cuando la relación entre las variables independientes y la(s) dependiente(s) no es necesariamente lineal, o es más compleja.

Entre ellos, podemos citar los siguientes:

Árboles de Regresión
Random Forest (Bosques Aleatorios)
Redes Neuronales
XGBoosting
…entre otros

Describiremos estos métodos en futuras publicaciones.

Por otro lado, cuando la variable que queremos predecir es categórica, es decir, es «una etiqueta», también se pueden utilizar algoritmos Supervisados, como, por ejemplo, la Regresión Logística.

Tomemos el caso de predecir la pérdida de un cliente, o «Churn» en inglés. Nuestra data se compone de las variables independientes de los clientes, como serían los demográficos (edad, sexo, educación, etc.), de comportamiento (número de llamadas, plan contratado, llamadas a servicio al cliente, etc.), y tenemos como variable dependiente (la que queremos entender y predecir), si el cliente nos abandonó o no. Esta sería la variable «Churn», que puede tomar las etiquetas, por ejemplo, 1, si es Churn (se fue a la competencia), o cero, si está con nosotros aún.

La regresión Logística nos generará un modelo que, para cada cliente, nos dará un valor entre 0 y 1, equivalente a la probabilidad de que este se vaya (sea Churn). Si el valor supera una barrera determinada, por ejemplo 50%, asignamos un valor 1 a la predicción de Churn para este cliente.

Podemos entonces comparar esta predicción con el valor real, ya que lo tenemos, y por lo tanto «Supervisar» qué tan bueno es el modelo.

También podemos hacer este tipo de Clasificación, con los algoritmos siguientes (algunos ya mencionados en el caso de regresión)