Diversión multivariada

Había mencionado, en una ocasión pasada, que estoy dando mis primeros pasos en análisis multivariado en un curso nivelatorio de maestría.
Sin embargo, al ser un curso de verano, ya se acabaron las lecciones y quiero poner a pruebas mis recién adquiridas habilidades.
Gracias a un profesor, me indicó que existe una manera (relativamente) fácil de conseguir los datos del Censo de población y vivienda de Costa Rica 2011. Esto se logra en Centro Centroamericano de Población, instituto de investigación adscrito a la UCR. Con sólo un registro con correo electrónico es suficiente para empezar a bajar los datos del censo mencionado y de otras bases de datos muy interesantes, y no sólo de Costa Rica, sino del resto de Centroamérica.
El censo es una gran oportunidad para usar las técnicas multivariantes con más de 578425 registros de información tan detallada de las viviendas como de las personas que las habitan, es imperativo utilizar estas técnicas para extraer información.
Uno de los primeros obstáculos es el cómo consultar a la base de datos, después de todo decirle “deme todo lo que tiene” no funciona muy bien con más de 500 mil registros que cuentan con más de 100 variables cada uno, y también el detalle de que la interfaz de solicitud no lo permite.
Esta interfaz está diseñada para sacar un conjunto de datos del censo total, así que privilegia operaciones con pequeño número de variables y entradas, algo en lo que no estoy interesado, ya que quiero ver cuando aguanta el procesador de la netbook. Por lo tanto, hay que ser pacientes y sacar variables de una en una.
Lo primero que hice fue definir los distritos del país (472 en total), como la unidad estadística que voy a usar para los análisis posteriores. Tienen la ventaja de ser localizables geográficamente y su codificación numérica permite seleccionarlos en unidades más grandes, como cantones, provincias y regiones.
Después viene una variable Zona, que cataloga las viviendas como Urbana y Rural. Quería usar esta variable para notar diferencias entre estas regiones, pero esta se usa con cada vivienda por separado, no por distrito, así que puede haber distritos con una proporción de viviendas rurales y otras urbanas.
Ahora bien, también hay que sumarle que algunos distritos tienen viviendas exclusivamente rurales o exclusivamente urbanas, lo que hace que haya muchos distritos con cero viviendas si se separan las bases de datos.
Luego procedí a bajar información sobre los tipos de vivienda en el país, la cual llaman variable V01_TIPO_VIVIENDA en el censo. Son 14 tipos de vivienda y a cada distrito se le cuenta el número de cada tipo de vivienda que haya y adjunta un total al final.
Con esta información empezaré el análisis.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: