Marzo 11, 2006

La minería de datos no vale para luchar contra el terrorismo

Senso

Bruce Schneier escribe en Wired un artículo titulado "Porqué la Minería de Datos no acabará con el Terrorismo", en el que trata el problema que apareció en Estados Unidos a raiz de los atentados del 11 de Septiembre.

En su afán por prevenir futuros ataques terroristas, el gobierno estadounidense planteó seriamente la posibilidad de usar la minería de datos de forma masiva, recolectando toda la información posible sobre cada ciudadano, y pasando esa información por sistemas informáticos mastodónticos con el fin de extraer patrones que pudieran indicar la existencia de un complot terrorista.

La intención del gobierno de George W Bush fué tan firme, que en noviembre de 2002 puso en marcha un programa de minería masiva de datos llamado Total Information Awareness, que levantó tantas denuncias a nivel nacional, que el Congreso tuvo que clausurarlo diez meses después, en septiembre de 2003.

En la primera parte del artículo, Schneier relata los hechos y cómo ese apestado programa no sólo no desapareció, sino que cambió de nombre y pasó a depender del Departamento de Defensa, haciendo hincapié en la existencia, en mayo de 2004, de hasta 122 programas federales (PDF) de minería de datos en funcionamiento.

En la segunda parte del artículo, el autor se pone manos a la obra y explica porqué los sistemas de minería de datos, aunque son recursos válidos en estadística, no lo son para perseguir los complots terroristas. Esta segunda parte es la que he traducido al castellano y es la que a continuación os presento en un intento de mostrar cómo la ceguera hace que sean utilizadas herramientas útiles de forma completamente errónea y absurda.

El Data Mining no acabará con el Terrorismo.

[...] La Minería de Datos (Data Mining) es como buscar una aguja en un pajar. En los Estados Unidos hay 900 millones de tarjetas de crédito en circulación. De acuerdo con el documento del FTC "Identity Theft Survey Report" (Informe de la Inspección de Robo de Identidades) de septiembre de 2003, alrededor de un 1% de tarjetas (unos 10 millones) son robadas y usadas de forma fraudulenta cada año.

Sin embargo, cuando se trata del terrorismo, existen billones de conexiones entre personas y eventos -cosas a las que los sistemas de minería de datos tienen que prestar atención- y muy pocos complots. Esta escasez hace que sean inútiles hasta los sistemas más exactos de identificación.

Prestemos atención a algunas cifras. Seamos optimistas y supongamos que el sistema tiene un ratio de falsos positivos (cuando el sistema identifica un complot terrorista que realmente no lo es) de uno entre 100 (un 99 por ciento de aciertos). Supongamos que hay un billón de indicadores susceptibles de ser examinados: esto significa unos 10 eventos -correos electrónicos, llamadas telefónicas, compras, destinos en internet, etc.- por persona y día en Estados Unidos. Supongamos también que 10 de esas personas están implicadas en actividades terroristas.

Este sistema, aún siendo excesivamente exacto, generará mil millones de falsos positivos por cada complot real que sea descubierto. Cada día de cada año, la policía tendrá que investigar 27 millones de posibles complots para encontrar únicamente un complot terrorista real al mes. Si aumentamos la exactitud hasta un absurdo 99,9999 por ciento de aciertos, todavía se están produciendo 2.750 falsas alarmas al día -pero esto haría que aumentaran los falsos negativos (cuando el sistema obvia un complot verdadero) dejando sin descubrir alguno de esos 10 complots verdaderos-.

Esto no es nuevo. En estadística se llama "la falacia del ratio base" ("base rate fallacy") y también se aplica en otras situaciones. Por ejemplo, incluso las pruebas médicas más exactas son inútiles como herramientas de diagóstico si la incidencia de la enfermedad es escasa en relación con la población total. También los ataques terroristas son escasos, cualquier "sistema de pruebas" tendrá como resultado una cadena sin fin de falsas alarmas.

Esto es exactamente lo que observamos con el programa de escuchas de la NSA: el New York Times informaba que los equipos informáticos escupían miles de pistas al mes. Cada una de ellas resultó ser una falsa alarma.

Y el coste es enorme, no sólo por el número de agentes del FBI dando vueltas siguiendo pistas falsas en vez de estar haciendo cosas que realmente nos proporcionen más seguridad, sino también por la pérdida de libertades civiles. Las libertades fundamentales que hacen que nuestro pais sea la envidia en el mundo son algo valioso y no algo que debamos deshechar de forma ligera.

La minería de datos puede funcionar. Es válida para que Visa reduzca los costes de los fraudes en las tarjetas de crédito, igual que sirve para que Amazon me avise de libros que podría querer comprar o para que Google me muestre publicidad de productos que me puedan interesar. Pero esas son situaciones donde el coste de un falso positivo es bajo (una llamada telefónica de un operario de Visa o un anuncio sin interés para mí) en sistemas que son válidos incluso si tienen un alto número de falsos negativos.

Buscar complots terroristas no es un problema válido para usar la minería de datos. Es un problema del tipo aguja-en-un-pajar, y echar más paja en el montón no va a facilitar el problema. Sería mucho mejor poner personas a investigar posibles complots y a dirigir los equipos informáticos, que poner a los equipos informáticos a hacer el trabajo, dejándolos que decidan quiénes deben ser investigados.

escrito por Carpanta en Marzo 11, 2006 03:42 AM

comentarios

hola


tengo vaginitis

escrito por conchita en Septiembre 7, 2006 08:29 PM

Hola conchita. Tienes un problema (por lo menos).

escrito por Carpanta en Septiembre 9, 2006 07:21 PM
escribir un comentario









HTML permitido:
<a href=""> <i> <em>
<blockquote> <b> <strong>
<p> <br>

¿recordar tu info personal? (cookie)




Código Antispam: escribe el número