Pesquisador desenvolve sistema para detecção de conteúdos ofensivos na Web


É inegável que a World Wide Web (Web), popularmente internet, é uma fonte de informações com grande quantidade e diversidade de conteúdo. Porém, ainda não existe uma forma de controle total do que é publicado, o que acaba possibilitando o surgimento de conteúdos ofensivos. A utilização indevida de imagens, por exemplo, ainda é um problema de difícil solução em razão da liberdade proporcionada pela internet e à dificuldade de detecção desses conteúdos. Mas não são poucos os esforços de pesquisadores para tentar minimizar a propagação do “lixo” virtual. Foi com essa expectativa que Ruan Josemberg Silva Belém desenvolveu sua pesquisa de mestrado para o Programa de Pós-Graduação em Informática da Universidade Federal do Amazonas (Ufam). A dissertação, intitulada “Detecção automática de conteúdo ofensivo na Web”, propõe duas abordagens com o objetivo de identificar esse tipo de “lixo” virtual e faz parte de uma linha de pesquisas mantida por uma equipe de pesquisadores da Ufam, entre eles o professor João Marcos Bastos Cavalcanti, orientador de Belém, e o professor Edleno Silva de Moura. “Existe uma grande quantidade de conteúdo ofensivo na internet, que pode estar em forma de texto, imagem, vídeo ou outros formatos multimídia, e tudo isso pode ser involuntariamente acessado por crianças ou indevidamente em instituições onde o acesso não é autorizado”, afirma o pesquisador.

Segundo ele, o problema agravou-se com a popularização de câmeras digitais e outros dispositivos que produzem imagens, como celulares, aliada à facilidade de publicação. Como grande parte do que é ofensivo vem neste formato, um classificador de imagens é um elemento importante na detecção de conteúdo na Web. “Às vezes, nem é preciso haver texto. A presença de apenas uma imagem de nudez, por exemplo, faz com que a página inteira seja considerada ofensiva”, observa Belém.

Exatamente por esta razão, uma das abordagens propostas na pesquisa é baseada apenas em imagens, na qual são analisadas as cores das figuras. “Normalmente, a detecção se dá a partir da combinação de um conjunto de características tais como forma, cor e textura. Nós optamos por utilizar apenas uma fonte de evidência, que são as cores, supondo que, quanto mais simples for o método, melhor será seu desempenho em relação ao tempo de execução”, explica o pesquisador.

Essa abordagem, chamada SNIF (Simple Nude Image Finder), é a combinação de um algoritmo – uma seqüência de passos determinada para realizar uma tarefa, que no caso é extrair características de cores das imagens – e uma técnica de aprendizagem de máquina, que, ao receber exemplos positivos e negativos do que se quer classificar, gera um modelo para definir se o conteúdo é ou não ofensivo. Ou seja, dessa combinação, cria-se um classificador capaz de determinar a categoria (ofensiva e não-ofensiva) de determinada imagem. O SNIF foi uma criação de Belém, apresentada no encontro LA-WEB 2005, em Buenos Aires, Argentina, do qual ele participou com o apoio da Fundação de Amparo à Pesquisa do Estado do Amazonas (Fapeam).

Embora considerada simples pelo pesquisador, essa abordagem demonstrou eficiência na detecção, sem que aumentasse a ocorrência de falsos positivos, aquelas imagens que são detectadas pela abordagem como ofensivas, mas que, na verdade, não o são. “É o caso, por exemplo, da imagem de um nadador, em que a quantidade da cor da pele detectada, devido à exposição do corpo, leva a abordagem a classificá-la como ‘ofensiva’, embora não seja. Entretanto, falsos positivos como esse não prejudicaram a eficiência da abordagem”, garante Belém.

Confiabilidade

A outra proposta é de uma abordagem baseada em evidências textuais associados a imagens, que também é resultado da combinação entre um algoritmo e uma técnica de aprendizagem de máquina. “Novamente, a busca ocorre por imagem e pelos termos que a descrevem, simultaneamente. Se uma imagem é visualmente ofensiva, o conjunto de evidências textuais relacionado a essa imagem é definido como um exemplo positivo, ou seja, ofensivo”, explica o pesquisador.

Essa forma de detecção se mostrou mais efetiva ainda, com resultados próximos de 99% de acerto, o que comprova um grau confiável de acertos da abordagem ao classificar imagens na internet brasileira. “Esse alto índice se dá porque as evidências textuais relacionadas a esse tipo de conteúdo são bastante específicas, geralmente são termos pornográficos”, acrescenta Belém, salientando que a combinação das duas abordagens também foi testada, porém não mostrou resultados satisfatórios. Para ele, é recomendável a utilização isolada de cada abordagem, dependendo da situação.

A pesquisa vai beneficiar usuários da Web que não têm interesse nesse tipo de conteúdo ofensivo, bem como facilitará o controle por parte de empresas, para que seus funcionários não armazenem ou acessem tais conteúdos em suas redes de computadores. Ambas as abordagens podem ser aplicadas por meio de um software, segundo Belém. Atualmente, ele é pesquisador do Genius Instituto de Tecnologia e professor do Centro Universitário Luterano de Manaus (Ceulm-Ulbra). Durante o mestrado além da bolsa da Fapeam também contou com a UOL Bolsa de Pesquisa 2005, que seleciona projetos de todo Brasil.

Sobre a dissertação

Instituição: Universidade Federal do Amazonas (Ufam), Programa de Pós-Graduação em Informática

Título: Detecção automática de conteúdo ofensivo na Web

Orientador: Prof. Dr. João Marcos Bastos Cavalcanti

Hemanuel Jhosé -Decon/Fapeam

Deixe um novo comentário

O seu endereço de email não será publicado Campos obrigatórios são marcados *

  • Dados Abertos Fapeam

    banner_lateral

  • tela-inicial-site

  • Especial Cop 30

    LATERAL DE SITE (1)

  • agenda_fapeam_2025_pop-up-1024x1024

  • pos_graduação_stricto_sensu_banner-lateral-site

  • banner-site--revista(1)

  • BANNER-SITE-PROTOCOLO-e1656689607339

  • Acesso à Informação

  • Sem título

  • banner-pesquisa-de-satisfacao (1)

  • falaBr-New