Ver sem olhar: pipeline de análise para conjuntos de dados de abuso sexual infantil
Laranjeira, Camila; Macedo, João; Avila, Sandra; Santos, Jefersson Alex Dos.
FAccT ’22: Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, pp. 2189-2205, 2022.
http://dx.doi.org/10.1145/3531146.3534636
Resumo
A partilha e visualização online de material de abuso sexual infantil (CSAM) estão a crescer rapidamente, de tal forma que os especialistas humanos já não conseguem lidar com a inspeção manual. No entanto, a classificação automática de CSAM é um campo de investigação desafiador, em grande parte devido à inacessibilidade dos dados alvo que são — e deveriam ser para sempre — privados e de posse exclusiva das agências responsáveis pela aplicação da lei. Para ajudar os pesquisadores a extrair insights de dados invisíveis e fornecer com segurança uma compreensão adicional das imagens CSAM, propomos um modelo de análise que vai além das estatísticas do conjunto de dados e respectivos rótulos. Ele se concentra na extração de sinais automáticos, fornecidos tanto por modelos de aprendizado de máquina pré-treinados, por exemplo, categorias de objetos e detecção de pornografia, quanto por métricas de imagem, como luminância e nitidez. São fornecidas apenas estatísticas agregadas de sinais esparsos para garantir o anonimato das crianças e adolescentes vitimados. O pipeline permite filtrar os dados aplicando limites a cada sinal especificado e fornece a distribuição de tais sinais dentro do subconjunto, correlações entre sinais, bem como uma avaliação de polarização. Demonstramos nossa proposta no conjunto de dados anotados de pornografia infantil baseado na região (RCPD), um dos poucos benchmarks de CSAM na literatura, composto por mais de 2.000 amostras entre imagens regulares e CSAM, produzidas em parceria com a Polícia Federal do Brasil. Embora ruidosos e limitados em vários sentidos, argumentamos que os sinais automáticos podem destacar aspectos importantes da distribuição global dos dados, o que é valioso para bases de dados que não podem ser divulgadas. Nosso objetivo é divulgar com segurança as características dos conjuntos de dados CSAM, incentivando pesquisadores a se juntarem à área e talvez outras instituições a fornecerem relatórios semelhantes sobre seus benchmarks.