Archivo mensual: febrero 2014

Diversión multivariada

Había mencionado, en una ocasión pasada, que estoy dando mis primeros pasos en análisis multivariado en un curso nivelatorio de maestría.
Sin embargo, al ser un curso de verano, ya se acabaron las lecciones y quiero poner a pruebas mis recién adquiridas habilidades.
Gracias a un profesor, me indicó que existe una manera (relativamente) fácil de conseguir los datos del Censo de población y vivienda de Costa Rica 2011. Esto se logra en Centro Centroamericano de Población, instituto de investigación adscrito a la UCR. Con sólo un registro con correo electrónico es suficiente para empezar a bajar los datos del censo mencionado y de otras bases de datos muy interesantes, y no sólo de Costa Rica, sino del resto de Centroamérica.
El censo es una gran oportunidad para usar las técnicas multivariantes con más de 578425 registros de información tan detallada de las viviendas como de las personas que las habitan, es imperativo utilizar estas técnicas para extraer información.
Uno de los primeros obstáculos es el cómo consultar a la base de datos, después de todo decirle “deme todo lo que tiene” no funciona muy bien con más de 500 mil registros que cuentan con más de 100 variables cada uno, y también el detalle de que la interfaz de solicitud no lo permite.
Esta interfaz está diseñada para sacar un conjunto de datos del censo total, así que privilegia operaciones con pequeño número de variables y entradas, algo en lo que no estoy interesado, ya que quiero ver cuando aguanta el procesador de la netbook. Por lo tanto, hay que ser pacientes y sacar variables de una en una.
Lo primero que hice fue definir los distritos del país (472 en total), como la unidad estadística que voy a usar para los análisis posteriores. Tienen la ventaja de ser localizables geográficamente y su codificación numérica permite seleccionarlos en unidades más grandes, como cantones, provincias y regiones.
Después viene una variable Zona, que cataloga las viviendas como Urbana y Rural. Quería usar esta variable para notar diferencias entre estas regiones, pero esta se usa con cada vivienda por separado, no por distrito, así que puede haber distritos con una proporción de viviendas rurales y otras urbanas.
Ahora bien, también hay que sumarle que algunos distritos tienen viviendas exclusivamente rurales o exclusivamente urbanas, lo que hace que haya muchos distritos con cero viviendas si se separan las bases de datos.
Luego procedí a bajar información sobre los tipos de vivienda en el país, la cual llaman variable V01_TIPO_VIVIENDA en el censo. Son 14 tipos de vivienda y a cada distrito se le cuenta el número de cada tipo de vivienda que haya y adjunta un total al final.
Con esta información empezaré el análisis.


¿Matemática pura por pasatiempo?

Como les he comentado antes, estoy estudiando estadística, y lo estoy disfrutando. Tanto lo estoy disfrutando, ¡que estoy empezando a estudiar matemática pura por pasatiempo!
El problema es que es un pasatiempo muy difícil.
Mis primeros intentos para estudiar matemática pura fueron en los ejercicios del primer capítulo de Calculus de Apostol y son ejercicios “raros”, para llamarlos de cierta manera.
El gran problema con la matemática pura es que uno no está acostumbrado a tener que justificar toda pequeña operación matemática: como probar que los números negativos existen, que un número multiplicado por cero es igual a cero o que multiplicar un número negativo por otro da un número positivo.
Pero ya recuperado de ese shock, diez años después, empiezo a apreciar más el porqué es necesario hacerlo. Un excelente libro que lo explica es How to Study for a Mathematics Degree de Lara Alcock.
Algunas ideas del porqué se estudia matemática por medio de pruebas, teoremas, inducciones y demás ya las había intuido pero la autora, con un doctorado en educación matemática, explica bien cuales cambios en los conceptos matemáticos hay que tener para comprender la matemática pura y el porqué es necesaria esas definiciones que parecen tan complicadas.
En especial me encantó una parte en que presenta la definición formal del límite y comenta que sintió la primera vez que la conoció:

…pensé que era genial, se ve como jeroglíficos y es la clase de cosa que fácilmente impresiona a personas que no estudian matemáticas. Pero me tomó mucho tiempo para entender como captura la noción de límite, y nunca he encontrado a algún estudiante que la encontrara fácil.

Los consejos de Alcock me ayudan a emprender con ganas el “pasatiempo”, y hay excelentes libros gratuitos de matemáticas disponibles con los que me apoyo, pero eso queda para otra entrada.


“Conectar” en matemáticas

En unos pensamientos pasados comenté la gran impresión que me daba descubrir como funcionaba la estadística, en ese caso el análisis de componentes principales.
Ayer tuve un momento similar. Estaba recordando como en la primera clase de análisis multivariado el profesor comentó que la integración de una curva de Gauss-Laplace se tiene que hacer por métodos numéricos. Entonces me pregunté ¿Por qué método en particular?
Después de una búsqueda, el sitio de StackExchange, sección matemática, dio la respuesta.
Lo interesante de la respuesta es que dice que se calcula al aproximar la ecuación exponencial de la curva con un polinomio de Taylor. Ese tema de matemática lo vi hace un año y ya se me había olvidado que para eso servía, pero lo que sí recuerdo es que el profesor no nos dijo que esa era la conexión y la causa por la cual está incluido en el curso de matemática para estadística.
Todo sería más fácil si en los cursos de matemática nos dijeran para que sirve, en nuestras carreras, los conocimientos que estamos adquiriendo. No pido ejemplos elaborados, me conformo con una mención rápida.