[MÚSICA] Bienvenidos al nuevo video de nuestro curso de Minería de datos. En este video hablaremos sobre la forma en que representaremos objetos del mundo real en nuestras bases de datos. El objetivo principal de este video es entender cómo representamos objetos en el computador para permitir después la aplicación de algoritmos de clasificación automática. En general, cuando queremos desarrollar algoritmos automáticos que analizan datos, tenemos que ver cómo ingresar esos datos en un computador. Es necesarios entonces definir una forma estructurada para representar objetos del mundo real y así ser capaces de ingresarlos en un algoritmo computacional. Por ejemplo, ¿cómo puede un computador entender una imagen de un animal o resultados de exámenes médicos o un cliente que realiza compras? Supongamos que queremos construir una base de datos de los clientes que visitan nuestras tiendas. Una forma posible de presentar a los clientes en el computador, es un vector de valores que describen al cliente con variables propias y coherentes del contexto. Por ejemplo, total de la compra, profesión, ubicación de la tienda, género, etcétera. Además de la representación a través de un vector en contextos en que nos interesa realizar clasificación automática, también necesitaremos conocer la clase de nuestros clientes en el historial de compras. Típicamente la clase se agrega como una nueva columna, indicando el valor de la clase a la cual nuestro objeto pertenece. En este ejemplo, nuestro cliente pertenece a la clase preferencial. Notar que las clases posibles deben estar previamente definidas. El vector que representa entonces a nuestros datos, tendrá típicamente un identificador que corresponde a un valor único en la base de datos y en general no es parte del análisis propiamente tal. Una lista de atributos o también llamados variables, descriptores o features. Y finalmente un valor que corresponde a la clase a la cual pertenece el objeto. Notar que pueden haber casos de nuestra base de datos donde la clase del objeto no es conocida. Justamente para esos casos es que necesitaremos de la ayuda de algoritmos de clasificación automática para predecir el valor de la clase de esos objetos. En general, tenemos muchos objetos en nuestros datos. Típicamente los objetos corresponden a las filas de la base de datos. Por ejemplo, en el caso de los clientes, si tenemos 1200 clientes significa que tendríamos 1200 filas en nuestra base de datos. Otro ejemplo de representación de objetos son las imágenes. Lo que típicamente se hace es representar la imagen como un vector que contiene los pixeles de la imagen. Existen también formas de calcular variables sobre las imágenes. Por ejemplo histogramas de color o características de forma. Supongamos que queremos clasificar un dígito contenido en una imagen, podemos representar la imagen como un vector de pixeles, de tal forma que el clasificador sea capaz de reconocer a qué número corresponde la imagen. Recordemos el ejemplo de clasificación mencionado en el video anterior, sobre exámenes médicos de pacientes que pueden o no tener diabetes. Una forma natural de representar los exámenes en el computador es a través de un vector que contiene todos los descriptores del resultado del examen, además de las características del paciente. Una vez que podemos confirmar si el paciente tiene o no diabetes, tendremos una columna al final de cada fila indicando la clase del paciente. En este caso, diabetes positiva o negativa. En este video, vimos cómo representar distintos tipos de objetos dentro de una base de datos, de tal forma de poder usar esta representación como input para los algoritmos de clasificación automática. [AUDIO_ EN_ BLANCO]