Por Adela P. Depetris
El impactante y provocador subtítulo de la nota(*) publicada hace tres años por ProPublica, rezaba: “Hay un software usado en todo el país que predice futuros criminales. Y está sesgado en contra de los negros”. La reconocida organización (dedicada al periodismo investigativo en EEUU y ganadora de varios premios Pulitzer) publicó además y en simultáneo su documento de investigación sobre el conflictivo software: “Cómo analizamos el algoritmo de reincidencias COMPAS” – (1)
Después de estudiar más de diez mil casos en Florida en los que el defendido fue sentenciado con la asistencia del software COMPAS, ProPublica demostró que existía un sesgo contra los defendidos afroamericanos. Sus conclusiones fueron dos: (a) era más probable que afroamericanos fueran incorrectamente juzgados como con mayor riesgo de reincidencia y (b) era más probable que defendidos blancos fueran incorrectamente evaluados como de bajo riesgo de reincidencia, con lo que inició un amplio debate.
El debate en cinco puntos:
1. COMPAS (acrónimo de Correctional Offender Management Profiling for Alternative Sanctions) es un software que asigna puntajes de riesgo de reincidencia criminal a partir de un cuestionario de más de 100 preguntas que debe completar toda persona arrestada en varios estados del país del norte. El software contiene un algoritmo que genera, basado en las respuestas, un puntaje entre 1 y 10. Guiados por él, los jueces toman decisiones sobre el futuro de imputados y convictos. La idea es que un algoritmo que utiliza gran cantidad de información sobre la persona arrestada puede ayudar a tomar decisiones menos subjetivas, menos afectadas por el posible error humano, sesgos, o racismo.
2. El software es propiedad de la empresa Northpointe (nombre de marca cambiado a Equivant recientemente ) (2) que, por razones de competencia comercial, no comparte el código fuente, por lo que no puede conocerse de qué manera(con qué formulas) el algoritmo calcula el puntaje a partir de las respuestas al cuestionario.
3. La Corte Suprema de Wisconsin (State vs Loomis)(3) estableció que, si es usado correctamente, la consideración del puntaje de riesgo de COMPAS al momento de la sentencia no viola los derechos de las personas a un debido proceso. Que no puede confiarse en COMPAS de forma excluyente. Y que en el futuro el uso del puntaje de riesgo debía acompañarse con un aviso explicando sus limitaciones. Por ejemplo que el puntaje está basado en estadísticas a través de la comparación de datos de las conductas de personas de grupos poblacionales similares al del defendido, pero no está basado en la persona particular en consideración y que el algoritmo detras del sistema asi como la forma en que otros factores son ponderados son datos mantenidos sin revelar (al defendido y a los jueces) debido a la naturaleza propietaria de la herramienta.
4. Volviendo al informe de análisis publicado por ProPública, NorthPointe en su respuesta de descargo a dicho informe, argumentó que los periodistas habían interpretado mal los datos, y que no existía tal sesgo en el algoritmo que perjudicaría a la minoría afroamericana.
5. Finalmente, ante la controversia, un grupo de investigadores de Stanford estudió la polémica y publicó su informe en el blog del WashingtonPost (4):
El problema no es explícitamente sesgo racial, ya que COMPAS no utiliza la raza como un factor en su puntaje de riesgo. El problema, de acuerdo con los investigadores, surge, en primer lugar, de las nociones contrapuestas de justicia/equidad elegidas por las partes en disputa.
- El modelo COMPAS trata de conseguir equidad logrando una misma tasa de aciertos para todos los defendidos al predecir quienes reincidirán y de hecho reinciden: esta tasa es del 60 % de aciertos en sus puntajes sea el defendido blanco o afroamericano -. Debido a esta igualdad en la tasa de aciertos al predecir reincidencia, es que Northpointe afirma que su algoritmo es justo y que ha diseñado el algoritmo para este objetivo (lo que se conoce como “paridad predictiva”).
- Por otro lado, y sin negar esos números, ProPublica aleja la mira de los reincidentes y ante el mismo conjunto de casos, considera en cambio el subconjunto de aquellos que habiéndose predicho que reincidirían finalmente no lo hicieron (falsos positivos(5)). Bajo este lente, los defendidos de color eran casi dos veces más proclives a ser clasificados equivocadamente durante el proceso como de riesgo “medio” o “alto” por COMPAS, -aún cuando eventualmente lograran su camino a la liberación. Este es el criterio de equidad que Propublica reclamaba como faltante, contrapuesto al de NorthPointe.
Según el informe citado es matemáticamente imposible para un modelo de puntajes de riesgo, satisfacer ambos criterios de equidad al mismo tiempo. Podemos verlo gráficamente como un dial. Girar el dial hacia un lado, erosiona la exactitud del otro lado. En tanto COMPAS calibre su algoritmo de acuerdo a su noción de equidad, la incongruencia notada por ProPublica ocurrirá inevitablemente.
Lo significativo es que en un algoritmo de justicia como el que se trata aquí, falsos negativos pueden afectar la vida de personas inocentes y deben ser chequeados de acuerdo a ese potencial impacto. “Los beneficios obtenidos cuando COMPAS acierta, ¿valen el precio que pagan los defendidos afroamericanos cuando COMPAS no acierta?”-se pregunta ProPublica. Dado el potencial de expansión del uso de COMPAS, (ya en febrero de 2019, software predictivo de esta especie comenzó a ser usado -por catorce fuerzas policiales (6))- en el Reino Unido ), el verdadero interrogante es: ¿quién debería responder esa pregunta?
Respecto al sesgo racial, también hay que considerar que un algoritmo podría no tener tal sesgo en sí mismo, pero estar indirectamente reflejando sesgos raciales preexistentes en el sistema judicial y en la sociedad. Por ejemplo, el cuestionario de COMPAS no contiene preguntas sobre raza, lo que en teoría significaría menos decisiones influenciadas por racismo, aunque sí contiene preguntas sobre arrestos anteriores o sobre la existencia de arrestos en la familia que son más factibles de ser respondidas positivamente por los grupos minoritarios que por blancos, dice Angwin abogada de ProPublica en el artículo para la BBC escrito por Simon Maybin(7).
Sabemos que el proceso de creación de un algoritmo se basa ampliamente en el mecanismo de machine learning. Se parte del diseño de una función matemática que intenta representar la relación entre distintas variables que influyen sobre un problema dado que se quiere modelizar. Para probar el acierto de la función y mejorarla, se debe contar con una cantidad enorme y fidedigna de datos históricos que también en un punto se utilizarán para corroborar su grado de acierto. De esta manera la creación de los algoritmos es completada con datos producidos, seleccionados y depurados por humanos, y si los datos a los que se puede acceder, están teñidos de sesgos históricos y estructurales, se trasladarán a la producción resultante. (8).
Todo en estas controversias y debates que se derivaron, indican que es la sociedad -incluso más allá de las cortes, abogados, técnicos, público informado- quien deberia ser ilustrada y estar en condiciones de decidir sobre qué deben priorizar los algoritmos en cada caso.