
Digamos que un investigador ambiental está estudiando si la exposición a la contaminación del ventarrón está asociada con un beocio peso al germinar en un condado en particular.
Podrían entrenar un maniquí de formación espontáneo para estimar la magnitud de esta asociación, ya que los métodos de formación espontáneo son especialmente buenos para memorizar relaciones complejas.
Los métodos unificado de formación espontáneo destacan por hacer predicciones y, en ocasiones, proporcionan incertidumbres, como intervalos de confianza, para estas predicciones. Sin retención, generalmente no proporcionan estimaciones ni intervalos de confianza para determinar si dos variables están relacionadas. Se han desarrollado otros métodos específicamente para chocar este problema de asociación y proporcionar intervalos de confianza. Pero, en entornos espaciales, los investigadores del MIT descubrieron que estos intervalos de confianza pueden estar completamente fuera de circunstancia.
Cuando variables como los niveles de contaminación del ventarrón o las precipitaciones cambian en diferentes lugares, los métodos comunes para crear intervalos de confianza pueden pedir un stop nivel de confianza cuando, de hecho, la estimación no logró capturar el valía vivo. Estos intervalos de confianza defectuosos pueden inducir a error al favorecido a tener fe en un maniquí que falló.
Luego de identificar este compromiso, los investigadores desarrollaron un nuevo método diseñado para crear intervalos de confianza válidos para problemas que involucran datos que varían en el espacio. En simulaciones y experimentos con datos reales, su método fue la única técnica que generó consistentemente intervalos de confianza precisos.
Este trabajo podría ayudar a los investigadores en campos como las ciencias ambientales, la pertenencias y la epidemiología a comprender mejor cuándo tener fe en los resultados de ciertos experimentos.
«Hay tantos problemas en los que la multitud está interesada en comprender fenómenos en el espacio, como el clima o la mandato forestal. Hemos demostrado que, para esta amplia clase de problemas, existen métodos más apropiados que pueden brindarnos un mejor rendimiento, una mejor comprensión de lo que está sucediendo y resultados que son más confiables», dice Tamara Broderick, profesora asociada en el Unidad de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, miembro del Laboratorio de Sistemas de Información y Audacia (LIDS) y el Instituto de Datos, Sistemas y Sociedad, un afiliado del Laboratorio de Ciencias de la Computación e Inteligencia Químico (CSAIL), y autor principal de este estudiar.
A Broderick se unen en el artículo los coautores David R. Burt, un postdoctorado, y Renato Berlinghieri, un estudiante diplomado de EECS; y Stephen Bates, profesor asistente en EECS y miembro de LIDS. La investigación se presentó recientemente en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Suposiciones inválidas
La asociación espacial implica estudiar cómo se relacionan una variable y un determinado resultado en un campo de acción geográfica. Por ejemplo, uno podría querer estudiar cómo la cubierta arbórea en los Estados Unidos se relaciona con la elevación.
Para resolver este tipo de problema, un investigador podría resumir datos de observación de muchos lugares y utilizarlos para estimar la asociación en un circunstancia diferente donde no tenga datos.
Los investigadores del MIT se dieron cuenta de que, en este caso, los métodos existentes generan a menudo intervalos de confianza completamente erróneos. Un maniquí podría asegurar que tiene un 95 por ciento de confianza en que su estimación captura la verdadera relación entre la cubierta arbórea y la elevación, cuando no captura esa relación en inmutable.
Luego de explorar este problema, los investigadores determinaron que los supuestos en los que se basan estos métodos de intervalos de confianza no se sostienen cuando los datos varían espacialmente.
Los supuestos son como reglas que deben seguirse para certificar que los resultados de un estudio estadístico sean válidos. Los métodos comunes para crear intervalos de confianza operan bajo varios supuestos.
En primer circunstancia, suponen que los datos de origen, que son los datos de observación recopilados para entrenar el maniquí, son independientes y están distribuidos de forma idéntica. Este supuesto implica que la posibilidad de incluir una ubicación en los datos no influye en la inclusión de otra. Pero, por ejemplo, los sensores de ventarrón de la Agencia de Protección Ambiental de EE. UU. (EPA) se colocan teniendo en cuenta otras ubicaciones de sensores de ventarrón.
En segundo circunstancia, los métodos existentes a menudo suponen que el maniquí es perfectamente correcto, pero esta suposición nunca es cierta en la destreza. Finalmente, asumen que los datos de origen son similares a los datos de destino donde se quiere estimar.
Pero en entornos espaciales, los datos de origen pueden ser fundamentalmente diferentes de los datos de destino porque los datos de destino se encuentran en una ubicación diferente a la de donde se recopilaron los datos de origen.
Por ejemplo, un investigador podría utilizar datos de los monitores de contaminación de la EPA para entrenar un maniquí de formación espontáneo que pueda predecir los resultados de vitalidad en una zona rural donde no hay monitores. Pero los monitores de contaminación de la EPA probablemente estén ubicados en áreas urbanas, donde hay más tráfico e industria pesada, por lo que los datos de calidad del ventarrón serán muy diferentes a los datos de calidad del ventarrón en el campo de acción rural.
En este caso, las estimaciones de asociación que utilizan datos urbanos sufren de sesgo porque los datos objetivo son sistemáticamente diferentes de los datos fuente.
Una decisión fluida
El nuevo método para crear intervalos de confianza tiene en cuenta explícitamente este posible sesgo.
En circunstancia de responsabilizarse que los datos de origen y de destino son similares, los investigadores suponen que los datos varían suavemente en el espacio.
Por ejemplo, con la contaminación del ventarrón por partículas finas, no se esperaría que el nivel de contaminación en una cuadra de la ciudad fuera marcadamente diferente al nivel de contaminación en la subsiguiente cuadra. En cambio, los niveles de contaminación disminuirían gradualmente a medida que uno se alejara de una fuente de contaminación.
«Para este tipo de problemas, esta suposición de suavidad espacial es más apropiada. Se ajusta mejor a lo que positivamente sucede en los datos», afirma Broderick.
Cuando compararon su método con otras técnicas comunes, descubrieron que era el único que podía producir consistentemente intervalos de confianza confiables para estudio espaciales. Por otra parte, su método sigue siendo fiable incluso cuando los datos de observación están distorsionados por errores aleatorios.
En el futuro, los investigadores quieren aplicar este estudio a diferentes tipos de variables y explorar otras aplicaciones en las que pueda proporcionar resultados más fiables.
Esta investigación fue financiada, en parte, por una subvención auténtico de Responsabilidades Sociales y Éticas de la Computación (SERC) del MIT, la Oficina de Investigación Naval, Generali, Microsoft y la Fundación Franquista de Ciencias (NSF).