[MÚSICA] Bienvenidos al nuevo video de nuestro curso de Minería de datos. En este video, veremos un ejemplo completo de construcción de un árbol de decisión. La principal motivación de este video es dar un repaso al proceso completo de construcción de un árbol, de tal forma de fortalecer los conceptos más importantes involucrados en este proceso. Supongamos que tenemos la tabla de datos que aparece en la diapositiva. Vemos que tenemos tres variables y, al final, en el lado derecho una columna con la clase de cada elemento. La idea es construir un árbol de decisión que permita clasificar el panorama que debería disfrutar un joven dependiendo del clima, de si el joven vive o no con sus padres y de su situación económica. Los valores posibles para el panorama son, ir al cine o quedarse en la casa. Es importante mencionar que en este ejercicio no utilizaremos ningún tipo de poda para mantener el ejemplo lo más simple posible. Lo primero, entonces, para construir el árbol es encontrar la mejor variable, en particular, la que corresponderá al nodo raíz del árbol. Para ello, recordemos que tenemos que calcular la ganancia de información de cada una de las variables. En la diapositiva aparecen enunciadas las ecuaciones necesarias para calcular cada una de las ganancias de información. Les recomiendo fuertemente que pausen el video y vean con detención cada uno de los términos de las ecuaciones. En particular, en esta diapositiva aparece la forma de calcular la ganancia de información de las variables Clima y Vive con sus padres. Vemos ahora la ecuación para calcular la ganancia de información de la variable Situación económica. Notar que para las tres ganancias de información es necesario calcular la entropía inicial de la clase, en este caso, Panorama. Y luego, un promedio ponderado de la entropía de la clase una vez que vamos instanciando los valores posibles de la variable en cuestión. Comencemos, entonces, con el cálculo de la entropía de la clase. Marcamos con colores las filas que corresponden a distintos valores de la clase. Vemos que hay cinco casos para Cine y tres casos para Casa. Dado que en total son ocho casos, usaremos la proporción de cinco octavos y tres octavos para el cálculo de la entropía. Siguiendo los cálculos que aparecen en las ecuaciones, podemos apreciar que la entropía, usando las proporciones señaladas, es de 0.9544. Continuamos, entonces, con la ganancia de información para la variable Clima. Dado que necesitamos calcular la entropía de Panorama, cada vez que vamos instanciando la variable Clima marcamos con colores los posibles valores de esta variable, en este caso Calor, Viento y Lluvia. En otras palabras, vamos a calcular la entropía de Panorama tres veces; primero con las filas moradas, luego con las filas azules, y finalmente con las filas amarillas. Después de eso, sacamos el promedio ponderado de las tres y así estamos listos para obtener la ganancia de información de la variable Clima. Partimos, entonces, con la entropía de Panorama cuando Clima es igual Calor. Instanciamos la variable Clima a su valor Calor, lo que significa solo considerar las filas de los datos en que la variable vale Calor. Con esas filas calculamos la entropía de Panorama. En este caso, Panorama tiene dos filas, una con la clase Cine y una con la clase Casa. Esto implica que debemos usar las proporciones un medio y un medio para el cálculo de la entropía. Esto nos genera una entropía igual a 1. Ahora, calculamos la entropía de Panorama para los casos en que la variable Clima es igual a Viento. Nos quedan dos casos de tres para el valor Cine y un caso de tres para el valor Casa. Sacamos la entropía, entonces, con las proporciones dos tercios y un tercio. La tercera entropía que nos queda es la de Panorama cuando la variable Clima vale Lluvia. Seleccionamos esas filas entonces, en este caso las amarillas, y vemos que nos queda un caso que pertenece a la clase Casa y dos casos de la clase Cine. Sacamos la entropía, entonces, con esas proporciones y nos da 0.9183. Finalmente, para calcular la ganancia de información de la variable Clima, sacamos el promedio ponderado de las tres entropías que obtuvimos recién. En este caso, los ponderadores son dos octavos, tres octavos y tres octavos, que corresponden con el número de filas moradas, azules y amarillas respectivamente. La ganancia sería la entropía inicial que era 0.9544 menos el promedio ponderado, lo que nos da un total de 0.0015675. Los invito a realizar el mismo procedimiento con las variables Vive con sus padres y Situación económica. Las respectivas ganancias de información aparecen en pantalla. Comparando las tres ganancias de información, vemos que la variable Vive con sus padres es la que tiene una mayor ganancia de información, por lo tanto, es la elegida para ser el nodo raíz del árbol. [SONIDO] Procedemos a colocarla y a bajar por cada uno de los posibles valores que puede tomar esa variable. En este caso, Sí o No. Cuando la variable vale Sí, la tabla de datos es la que aparece al lado izquierdo. Cuando la variable vale No, nos queda una tabla de datos distinta; la podemos ver al lado derecho del árbol. Continuamos, entonces, con la construcción del mismo árbol. En esencia, haremos lo mismo que hicimos para encontrar el nodo raíz, solo que ahora como you bajamos por ese nodo en el árbol, trabajaremos solo con los datos que cumplen con que la variable Vive con los padres es Sí, es decir, la tabla que aparece en pantalla. Al igual que la iteración anterior, tenemos que calcular la ganancia de información de todas las variables candidatas, en este caso, las variables Clima y Situación económica. Al igual que antes, lo primero es calcular la entropía inicial de la clase. No olvidar que este valor será distinto al de la iteración anterior, you que ahora tenemos un número menor de filas en nuestra tabla de datos. Vemos que la clase tiene cuatro casos iguales a Cine y un caso igual a Casa. Calculando la entropía con esas proporciones nos da 0.7219. Para calcular la ganancia de información de la variable Clima, al igual que antes, tenemos que obtener la entropía de la clase para cada uno de los valores posibles de la variable. En este caso, los cálculos se hacen mucho más rápido, you que vemos que nos quedan muy pocas filas para hacer los cálculos. Por ejemplo, cuando tenemos solo una fila la entropía es 0, you que tenemos un dato perteneciente a una clase, significa que el 100% de los casos está en esa clase, es decir, el caso en que la entropía vale 0. Si tenemos dos filas, y en ambos casos la clase es distinta, significa que tenemos un 50% de los casos en una clase y 50% de los casos en la otra. Eso corresponde a la situación en que la entropía vale 1. Los invito a que calculen las tres entropías de la clase para cada uno de los valores de la variable de Clima. Confirmen que corresponden con los números que aparecen en pantalla. Finalmente, sacando el promedio ponderado de las tres entropías y realizando la resta como lo vemos en pantalla, obtenemos una ganancia de información de 0.3219 para la variable Clima cuando la variable Vive con sus padres es Sí. Calculemos ahora la ganancia de información para la variable Situación económica. Al igual que con Clima, tenemos que calcular la entropía de la clase para cada uno de los valores de la variable Situación económica. Por ejemplo, para el caso en que la situación económica es buena, tenemos dos filas marcadas con amarillo. Ahí vemos que ambas filas pertenecen a la clase Cine, por lo tanto, un 100% de los casos está en la misma clase, es decir, la entropía es 0. En el caso en que la variable Situación económica vale Mala, tenemos tres casos marcados en azul. De esos casos, dos pertenecen a Cine y uno a Casa, por lo tanto, la entropía se saca con las proporciones dos tercios y un tercio, resultando 0.9183. Aplicando, entonces, los valores encontrados para las dos entropías, obteniendo el promedio ponderado y realizando la resta, el resultado para la ganancia de información de la variable Situación económica es de 0.17. Dado que la ganancia de información del atributo Clima es mayor a la del atributo Situación económica, el nodo Clima será el siguiente elegido. Lo colocamos, entonces, en nuestro árbol y continuamos la construcción. Vemos que el nodo Clima tiene tres flechas saliendo desde él, una para cada valor de la variable. En cada caso se genera una tabla de datos distinta. Aquí lo más probable es que se cumpla alguno de los criterios de detención del algoritmo. Recordemos que esos criterios se cumplen cuando tenemos que todos los datos pertenecen a la misma clase o cuando todos los datos tenían los mismos valores en sus atributos. Si no se cumple ninguno de los criterios de detención. tenemos que volver a elegir un nodo. Afortunadamente solo nos queda una variable posible por lo tanto no nos quedaría de otra, que poner el nodo que correspondería a esa variable. En este caso Situación Económica. Veamos la primera flecha posible. Aquí vemos que no se está cumpliendo ninguno de los criterios de detención you que las clases son distintas y además los valores en sus atributos también lo son. Tenemos que elegir entonces el mejor nodo dado que sólo queda la variable Situación Económica esa será la variable elegida. Colocamos así la variable en nuestro árbol, podemos ver que naturalmente después de la variable Situación Económica sí se cumplen los criterios de detención you que nos queda solo una fila en cada brazo, por lo tanto ponemos la clase que corresponde a cada fila. Cuando la Situación Económica es mala, la clase que aparece es Casa y cuando la Situación Económica es buena, la clase que aparece es Cine. Vemos ahora que en el caso de que clima es Viento, se cumple uno de los criterios de detención you que todos los casos están en la clase Cine. Ponemos entonces una hoja con la clase Cine en ese caso. Algo similar ocurre en el caso en que clima vale Lluvia. Vemos que también se cumple uno de los criterios de detención, de hecho se cumplen los dos. ¿Por qué? Colocamos entonces una hoja con la clase Cine también en ese caso. Nos queda ver qué ocurre en la rama en que el nodo Vive con sus padres, vale no. La tabla de datos en esa situación se puede apreciar en la figura. Vemos que no se cumple ninguno de los criterios de detención, por lo tanto tenemos que elegir la mejor variable para ese caso. Eso significa que tenemos que calcular la ganancia de información para los atributos Clima y Situación Económica con la tabla de datos en pantalla. Nuevamente tenemos que calcular la entropía inicial de la Clase. Aquí hay dos filas en que la Clase vale Casa y una fila en que la Clase vale Cine, por lo tanto la entropía se calcula con las proporciones dos tercios y un tercio, el resultado 0.91. Procedemos a calcular la ganancia de información de la variable Clima. Eso requiere el cálculo de la entropía de la Clase para cada uno de los valores de la variable Clima. Aquí vemos que los valores que aparecen son Viento y Lluvia. En el caso de Viento, la entropía es 0 y en el caso de Viento, la entropía es 1. No olviden repasar por qué ocurre esta situación. Como you sabemos, sacamos el promedio ponderado, aplicamos la resta y nos da 0.2516. Hacemos lo mismo para la variable Situación Económica. Aquí las entropías de la Clase para cada valor de la variable Situación Económica son, 0 en el caso de que la Situación Económica es buena y 1 en el caso en que es mala. Sacando el promedio ponderado y aplicando la resta, obtenemos el resultado en pantalla. Vemos que la ganancia de información de la Situación Económica y el Clima nos da el mismo valor. Típicamente lo que se hace en este caso es elegir una de las variables en forma aleatoria. Supongamos que vamos a elegir entonces a la variable Situación Económica. Finalmente el árbol queda como aparece en la diapositiva. Los invito a chequear las hojas que agregamos y comprobar que son correctas. En este video, vimos un ejemplo completo de la construcción de un árbol de decisión. Vimos que recursivamente se van repitiendo los mismos pasos en cada etapa de la construcción del árbol. No olvidar que en este ejemplo en particular no utilizamos Poda, you que la finalidad era repasar el proceso de construcción desde 0.