Diversión multivariada

Había mencionado, en una ocasión pasada, que estoy dando mis primeros pasos en análisis multivariado en un curso nivelatorio de maestría.
Sin embargo, al ser un curso de verano, ya se acabaron las lecciones y quiero poner a pruebas mis recién adquiridas habilidades.
Gracias a un profesor, me indicó que existe una manera (relativamente) fácil de conseguir los datos del Censo de población y vivienda de Costa Rica 2011. Esto se logra en Centro Centroamericano de Población, instituto de investigación adscrito a la UCR. Con sólo un registro con correo electrónico es suficiente para empezar a bajar los datos del censo mencionado y de otras bases de datos muy interesantes, y no sólo de Costa Rica, sino del resto de Centroamérica.
El censo es una gran oportunidad para usar las técnicas multivariantes con más de 578425 registros de información tan detallada de las viviendas como de las personas que las habitan, es imperativo utilizar estas técnicas para extraer información.
Uno de los primeros obstáculos es el cómo consultar a la base de datos, después de todo decirle “deme todo lo que tiene” no funciona muy bien con más de 500 mil registros que cuentan con más de 100 variables cada uno, y también el detalle de que la interfaz de solicitud no lo permite.
Esta interfaz está diseñada para sacar un conjunto de datos del censo total, así que privilegia operaciones con pequeño número de variables y entradas, algo en lo que no estoy interesado, ya que quiero ver cuando aguanta el procesador de la netbook. Por lo tanto, hay que ser pacientes y sacar variables de una en una.
Lo primero que hice fue definir los distritos del país (472 en total), como la unidad estadística que voy a usar para los análisis posteriores. Tienen la ventaja de ser localizables geográficamente y su codificación numérica permite seleccionarlos en unidades más grandes, como cantones, provincias y regiones.
Después viene una variable Zona, que cataloga las viviendas como Urbana y Rural. Quería usar esta variable para notar diferencias entre estas regiones, pero esta se usa con cada vivienda por separado, no por distrito, así que puede haber distritos con una proporción de viviendas rurales y otras urbanas.
Ahora bien, también hay que sumarle que algunos distritos tienen viviendas exclusivamente rurales o exclusivamente urbanas, lo que hace que haya muchos distritos con cero viviendas si se separan las bases de datos.
Luego procedí a bajar información sobre los tipos de vivienda en el país, la cual llaman variable V01_TIPO_VIVIENDA en el censo. Son 14 tipos de vivienda y a cada distrito se le cuenta el número de cada tipo de vivienda que haya y adjunta un total al final.
Con esta información empezaré el análisis.


¿Matemática pura por pasatiempo?

Como les he comentado antes, estoy estudiando estadística, y lo estoy disfrutando. Tanto lo estoy disfrutando, ¡que estoy empezando a estudiar matemática pura por pasatiempo!
El problema es que es un pasatiempo muy difícil.
Mis primeros intentos para estudiar matemática pura fueron en los ejercicios del primer capítulo de Calculus de Apostol y son ejercicios “raros”, para llamarlos de cierta manera.
El gran problema con la matemática pura es que uno no está acostumbrado a tener que justificar toda pequeña operación matemática: como probar que los números negativos existen, que un número multiplicado por cero es igual a cero o que multiplicar un número negativo por otro da un número positivo.
Pero ya recuperado de ese shock, diez años después, empiezo a apreciar más el porqué es necesario hacerlo. Un excelente libro que lo explica es How to Study for a Mathematics Degree de Lara Alcock.
Algunas ideas del porqué se estudia matemática por medio de pruebas, teoremas, inducciones y demás ya las había intuido pero la autora, con un doctorado en educación matemática, explica bien cuales cambios en los conceptos matemáticos hay que tener para comprender la matemática pura y el porqué es necesaria esas definiciones que parecen tan complicadas.
En especial me encantó una parte en que presenta la definición formal del límite y comenta que sintió la primera vez que la conoció:

…pensé que era genial, se ve como jeroglíficos y es la clase de cosa que fácilmente impresiona a personas que no estudian matemáticas. Pero me tomó mucho tiempo para entender como captura la noción de límite, y nunca he encontrado a algún estudiante que la encontrara fácil.

Los consejos de Alcock me ayudan a emprender con ganas el “pasatiempo”, y hay excelentes libros gratuitos de matemáticas disponibles con los que me apoyo, pero eso queda para otra entrada.


“Conectar” en matemáticas

En unos pensamientos pasados comenté la gran impresión que me daba descubrir como funcionaba la estadística, en ese caso el análisis de componentes principales.
Ayer tuve un momento similar. Estaba recordando como en la primera clase de análisis multivariado el profesor comentó que la integración de una curva de Gauss-Laplace se tiene que hacer por métodos numéricos. Entonces me pregunté ¿Por qué método en particular?
Después de una búsqueda, el sitio de StackExchange, sección matemática, dio la respuesta.
Lo interesante de la respuesta es que dice que se calcula al aproximar la ecuación exponencial de la curva con un polinomio de Taylor. Ese tema de matemática lo vi hace un año y ya se me había olvidado que para eso servía, pero lo que sí recuerdo es que el profesor no nos dijo que esa era la conexión y la causa por la cual está incluido en el curso de matemática para estadística.
Todo sería más fácil si en los cursos de matemática nos dijeran para que sirve, en nuestras carreras, los conocimientos que estamos adquiriendo. No pido ejemplos elaborados, me conformo con una mención rápida.


¡Conspiremos juntos!

El periódico La Nación decidió hace tiempo que no va a publicar la última encuesta en intenciones de voto para la presidencia de la república.
A todas luces es una decisión estúpida. El Fusil de Chispas hace un buen recuento de porque es una horrible decisión, y mi comentario en esa misma entrada (el largo a nombre de Edin Villalobos) muestra unos pensamientos adicionales con respecto al tema.
Otra estupidez fue afirmar que la encuesta no estaba lista, algo que desmiente Unimer, por lo que voy a proporcionar mi propia teoría conspiratoria del porqué La Nación tomó esa decisión, ya que, como ellos mismos reconocen, me abrieron la puerta para hacerlo.
Mi teoría es que la última encuesta muestra al PAC con posibilidad de segunda ronda, y que La Nación, viendo que el electorado podría elegir al PAC por encima del PLN en la segunda ronda y no quieren “influir” de ese modo, porque les interesa que el PLN o el Libertario lleguen a segunda ronda, y el Libertario fracasaría en segunda ronda frente al PAC.
¿Por qué mi énfasis en el PAC? Primero porque apoyo al PAC: ¡pues sí, no soy un observador imparcial! Ni tampoco La Nación…
La segunda razón (ahora en serio), con excepción de la última elección del 2010, el PAC sube muchísimo su caudal electoral en los últimos días de la elección o en el mismo día de la elección, por lo que esto ya es previsible su ascenso, es casi una ley.
La tercera razón, es otra ley que el Libertario se desinfla al final, casi en la misma medida que el PAC gana votos, así que es difícil que haya ascendido.
La cuarta razón es que el FA se ha “robado” demasiados votos, y que esos votos del FA nunca se van a ir ni al PLN ni al Libertario, como lo dijo el Semanario Universidad, el FA es el pararrayos del descontento. Sin embargo, sus posiciones frente al matrimonio homosexual, al aborto y su socialismo implica que también tienen un segmento de votantes que nunca va a votar por ellos, los cuales seguramente se repartirían entre el PAC o Libertarios. Esto hace que el FA sea intocable en ambos sentidos: no les van a quitar votos pero también costará que los indecisos se atrevan a votar por ellos por esos temas tan tóxicos.
La quinta razón, es que el PLN es igual de intocable que el FA: los que siguen con el PLN después de la impopularidad de este gobierno definitivamente son demasiado fieles como para votar por alguien más, y el grito de guerra de este elección es no dejar que el PLN gane otra vez así que no va a ganar más votos que los que tiene.
Y la sexta y última razón es la información del Semanario Universidad de que Luis Guillermo Solís le ganaría a cualquiera en segunda ronda en especial porque es un hecho de que Solís es el menos rechazado de los candidatos, lo que refuerza el hecho de que los indecisos tenderán a irse con él en mayor proporción.
En resumen, el PLN y el FA tienen un caudal de votos intocable que nadie les va a quitar, el Libertario baja y el PAC asciende como en los procesos anteriores y además por ser el menos malo, Solís se mete a segunda ronda, asustando a La Nación sin necesidad de ver los resultados de la encuesta que pagaron.


Esos grandes momentos de descubrimiento

Hace algunos meses estaba leyendo un libro sobre docencia en la cual se enumeraban los deberes del educador, una lista casi infinita, y los deberes del estudiante cuando ocurre la educación en un aula.
Casi nunca se menciona nada sobre los deberes del estudiante y uno que me llamó la atención fue el deber que tiene el estudiante de tratar de enlazar sus conocimientos o experiencias anteriores con lo que el educador está enseñando en esos momentos.
¿Y saben qué? Funciona.
Resulta que anoche recibía una clase magistral de Análisis de Componentes Principales (ACP). Esa clase es una de las pocas en las cuales he llegado preparado: con un estudio previo de lo que voy a aprender y preparado con una serie de preguntas al profesor de lo que no entiendo bien, etc.
Mi preparación fue buena. Sabía todos los detalles matemáticos de como se realizaba esto (valores y vectores propios) en parte debido a que en un curso anterior quería saber para que servían esos detalles matemáticos que me enseñaban. Bueno,para no aburrirles con mi historia, resulta que en un momento el profesor dijo:

“Con esto se pueden hacer índices…”

No me quedó claro que quería decir con “índices” hasta que dio el ejemplo de estos índices y en ese momento logré un gran momento de descubrimiento.

Resulta que ese ejemplo lo hizo con varios datos en los cantones del país como porcentaje de analfabetismo, porcentaje de personas con nivel educativo bajo, porcentaje de población no asegurada, etc.
Un total de ocho variables, las cuales se relacionan mucho entre sí: ya que la población con analfabetismo, también tiene nivel educativo bajo y puede que tampoco esté asegurada.
¿Qué hace el ACP? en palabras simples, encontrar la suma de datos que es más importante para diferenciar los cantones: en el primer caso fueron el analfabetismo, viviendas sin electricidad, viviendas sin agua y viviendas sin agua potable y a eso lo llamaron “Índice de desarrollo social”

¡Y eso fue lo genial!

Porque en ese momento recordé las veces que se ha usado ese índice en noticias anteriores, para clasificar los cantones del país con mayores necesidades sin necesidad de nombrar todos los aspectos que lo conforman, facilitando el estudio de las necesidades sociales.
Justo como el profesor decía: facilita, simplifica… pero no me entró esa idea hasta que conectó ese ejemplo en mi cabeza, como debe hacerlo un estudiante conciente de su deber.
Ojalá tuviera de esos momentos más a menudo…


¡Bien! Sólo pasaron cuatro meses…

En setiembre pasado reinauguré el blog (por tercera vez), escribí un trío de buenas entradas y lo abandoné (por tercera vez).
¿Por qué este ritmo irregular? Es acaso que mi trabajo me lo impide…
[No, porque estoy estudiando.]
Es acaso que mi carga académica me lo impide…
[No, porque si acaso llevo dos cursos en la universidad]
Es acaso que mis ocupaciones familiares ocupan mi tiempo…
[Soy soltero, sin novia, y no tengo otras ocupaciones sociales.]
¡¿Qué es lo que obstaculiza escribir?!
[Jugar en el PlayStation...]
Sí, todo es culpa de Sony.


El mártir de los anti-OMG

Los organismos modificados genéticamente (OMG) o transgénicos no les agrada a casi nadie. Es un tema muy bueno de discutir, pero el discurso se ha contaminado con un fanatismo anti-OMG que ha polarizado la discusión. Sin lugar a dudas, el mártir de los anti-OMG ha sido el arroz dorado.
Para los que no quieran seguir el enlace anterior, el arroz dorado es un arroz OMG que acumula beta-caroteno (precursor de la vitamina A) en la parte comestible del grano de arroz. Fue creado para paliar deficiencias nutritivas de vitamina A en poblaciones pobres que se alimentan casi exclusivamente de arroz.
Las críticas en contra de los OMG son muy generales, y son repetidas en cada discurso en contra de ellos y cada anti-OMG los conoce. En Greenpeace de España podemos ver estos argumentos:

Los OMG (plantas, animales o microorganismos) amenazan nuestra salud, deterioran el medio ambiente y destruyen la agricultura familiar o sostenible, agravando el hambre en el mundo.

Algunos datos:

*Sólo diez multinacionales controlan casi el 70% del mercado mundial de semillas, lo que significa que los agricultores tienen poca capacidad de elección.

*Los cultivos transgénicos no alimentan al mundo. El 99% de agricultores y agricultoras no los cultivan y el 90% de la superficie agrícola mundial sigue libre de transgénicos.

*La industria anunciaba que en el año 2000 en el 50% de la superficie agraria europea se utilizarían cultivos transgénicos. Actualmente, solo en cerca del 0,1% de la superficie agrícola se utilizan transgénicos, lamentablemente la inmensa mayoría en España.

*Cerca del 20% de los gases de efecto invernadero (GEI) son producidos por la agricultura industrial debido al uso excesivo de fertilizantes de síntesis.

*El glifosato es el herbicida más utilizado en el mundo. Entre 1996 y 2011, su uso asociado a los cultivos transgénicos tolerantes al glifosato ha supuesto un incremento de 239.000 kg en el uso de herbicidas en EEUU.

*En los últimos inviernos, la mortalidad media de las colonias de abejas en Europa ha sido del 20% (con un amplio rango de entre el 1,8% y el 53% de unos países a otros)

*De los 52 mil millones de dólares anuales gastados en investigación agrícola, tan solo menos del 0,4% se dedica a investigar y evaluar iniciativas específicamente ecológicas

Greenpeace se opone a toda liberación de OMG al medio ambiente (liberación de animales o plantas). Los ensayos en campo o cultivos experimentales a cielo abierto, incluso a pequeña escala, presentan igualmente riesgos de contaminación genética, por lo que también deben prohibirse.

Greenpeace no se opone a la biotecnología siempre que se haga en ambientes confinados, controlados, sin interacción con el medio. A pesar del gran potencial que tiene la biología molecular para entender la naturaleza y desarrollar la investigación médica, esto no puede ser utilizado como justificación para convertir el medio ambiente en un gigantesco experimento con intereses comerciales.

Noten que esto viene de la sección titulada “Agricultura y transgénicos” pero en realidad la mayoría de estos argumentos no son en contra de los OMG, sino de la agricultura convencional.
Por ejemplo, el hecho de que solo un poco de compañías controlen la mayoría de las semillas cultivadas se debe a que investigar nuevas variedades de semilla es un proceso muy caro y toma mucho tiempo. A grandes rasgos se necesita bancos de semillas o germoplasma con alta variedad genética (los cuales hay pocos alrededor del mundo) luego identificar las características que se desean de la nueva variedad, resistencia a plagas, producción, calidad del producto y luego se prueba la estrategia de cruzas para conseguirlo. En palabras simples, las empresas controlan el mercado mundial de semillas porque invirtieron los recursos en ello.Noten que esto no depende para nada de la existencia de OMG, ya que el dominio lo consiguieron antes de su llegada.
La siguiente razón es bastante estúpida, se dice que los OMG no alimentan al mundo porque la mayoría del área agrícola no está sembrada con estos y los agricultores no las usan. O sea, es como decir en 1960 la revolución verde fue un fracaso, porque se inició 20 años antes y no se había extendido por el mundo a esa fecha. Toda tecnología tiene su tasa diferente de adopción, la revolución verde se extendió en gran manera por la mejora genética del arroz en Asia, que empezó a ocurrir en 1960. Ahora bien, esa declaración proveniente de una organización que ha hecho todo lo posible, con éxito, para bloquear la siembra y difusión de los OMG es sumamente hipócrita.
Con respecto a que no se han cumplido los anuncios de la industria sobre adopción en Europa es porque seguramente fueron palabras para los inversionistas, y hacer malas predicciones no es propia solo de la industria. El proyecto genoma humano fue uno de los proyectos que más ha prometido pero ha fallado en mostrar resultados aplicables a la salud humano. Sin embargo, los méritos científicos de los OMG y el proyecto genoma humano son innegables, su método de promoción, no muy bueno.
Luego, habla sobre la mortalidad de las colonias de abejas de la cual no se sabe la causa probable y es un fenómeno que se viene dando desde hace mucho tiempo y no pueden culparse a los OMG de ello, ni tampoco a los agroquímicos convencionales.
Luego, las últimas tres razones: gases efecto invernadero, el glifosato es el herbicida más usado en el mundo, y el poco porcentaje usado para agricultura ecológica se dan por el éxito que ha tenido la agricultura convencional. La investigación en agricultura con bajos gases efecto invernadero es difícil porque requiere la investigación en muchas tecnologías distintas para lograr la meta. Por decir algo, la siembra a mínima labranza es un tipo de siembra que gasta menos combustible debido a que la mínima labranza no requiere tantos pases de rastra o arados en un terreno, pero con esto no se contentaría a Greenpeace, ¿por qué? Porque el método usa mucho glifosato antes del pase de la maquinaria para matar el rastrojo que se encuentra en el terreno, y como sabemos por Greenpeace, el glifosato tiene la marca del demonio Monsanto. Por otra parte, dedicar recursos a la agricultura ecológica es un riesgo grande, ya que pocos agricultores adoptan una agricultura totalmente ecológica, sino partes de ella, de la misma manera que los agricultores no se entregan totalmente a los OMG, tampoco lo hacen con la ecológica.
Es por eso que estas razones que sostengo que el arroz dorado es el mártir de los anti-OMG: estos han declarado la guerra a los OMG y no les importa los daños colaterales en una buena idea como lo es este arroz.


Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.