Pular para o conteúdo

Estudo feito no DCC/UFMG automatiza identificação de pornografia infantil

Publicado em 20 de junho de 2022 – Conferência

De acordo com a Agência Brasil, a quantidade de imagens de abuso e exploração sexual infantil encontradas na internet cresceu 70% no primeiro quadrimestre de 2023, na comparação com 2022, sendo a maior alta desde 2020. Somente neste período, a organização não governamental SaferNet, que mantém convênio com o Ministério Público Federal, remeteu à Instituição 14.005 denúncias recebidas em sua central.

Ao mesmo tempo, o número de links únicos compartilhados, que dão acesso a imagens de abuso, também cresceu desde 2019, nos primeiros quatro meses do ano, quando se comparam os registros de um ano para o outro. Há apenas uma exceção quanto à tendência, a de 2022. De acordo com dados da SaferNet, dois anos após a sua criação, em 2006, atingiu 289.707 denúncias, marca recorde. Outro dado importante da organização e que indica a vulnerabilidade de crianças e adolescentes, é o aumento de 102,24% dessas práticas desde 2020, primeiro ano da pandemia de covid-19.

Preocupados com tal situação, pesquisadores do Departamento de Ciência da Computação (DCC) da UFMG e da UNICAMP vêm realizando pesquisas relativas ao tema e, em junho de 2022, publicaram na Conferência FAccTo – uma conferência de ciência da computação com foco interdisciplinar que reúne pesquisadores e profissionais interessados ​​em justiça, responsabilidade e transparência em sistemas sociotécnicos – o artigo “Seeing without Looking: Analysis Pipeline for Child Sexual Abuse Datasets”.

Conforme a pesquisa, como a partilha e visualização online de material de abuso sexual infantil (CSAM) estão a crescer rapidamente, de tal forma que os especialistas humanos já não conseguem lidar com a inspeção manual. No entanto, a classificação automática de CSAM é um campo de investigação desafiador, em grande parte devido à inacessibilidade dos dados alvo que são — e deveriam ser para sempre — privados e de posse exclusiva das agências responsáveis ​​pela aplicação da lei.

Assim, para ajudar os pesquisadores a extrair insights de dados não vistos e fornecer com segurança uma compreensão adicional das imagens CSAM, os autores propuseram um modelo de análise que vai além das estatísticas do conjunto de dados e respectivos rótulos. “Nosso estudo se concentra na extração de sinais automáticos, fornecidos tanto por modelos de aprendizado de máquina pré-treinados, por exemplo, categorias de objetos e detecção de pornografia, quanto por métricas de imagem, como luminância e nitidez. São fornecidas apenas estatísticas agregadas de sinais esparsos para garantir o anonimato das crianças e adolescentes vitimados. O pipeline permite filtrar os dados aplicando limites a cada sinal especificado e fornece a distribuição de tais sinais dentro do subconjunto, correlações entre sinais, bem como uma avaliação de polarização”, explicaram. 

Dessa forma, os pesquisadroes demonstraram a proposta no conjunto de dados anotados de pornografia infantil baseado na região (RCPD), um dos poucos benchmarks de CSAM na literatura, composto por mais de 2.000 amostras entre imagens regulares e CSAM, produzidas em parceria com a Polícia Federal do Brasil. “Embora ruidosos e limitados em vários sentidos, argumentamos que os sinais automáticos podem destacar aspectos importantes da distribuição global dos dados, o que é valioso para bases de dados que não podem ser divulgadas”, esclareceram.

O artigo é de autoria dos pesquisadores do DCC/UFMG, Camila Laranjeira da Silva, João Macedo e Jefersson dos Santos, além da cientista Sandra Avila, da UNICAMP.