A Linguística pertinho da Estatística

Análise de frequência conceitual em corpus trilíngue

Este projeto uniu a Linguística com a Estatística. O Darlan Xavier Nascimento, que cursa  mestrado em Linguística na Universidade Federal de São Carlos, precisava de uma contagem de palavras para sua pesquisa. A Débora Mayumi Rissato e o Vinicius Rozemwinkel aceitaram o desafio e,  supervisionados pela professora Juliana Cobre, atenderam às expectativas.

Quem trabalha com Linguística pensa que pode passar bem longe da estatística, aliás são áreas bem distintas (Só que não!)  Por exemplo, quando uma pesquisa em linguística precisa analisar a frequência de “códigos” em textos em três línguas diferentes, as duas áreas precisam se unir (A união faz a força!). Era exatamente esta a situação do Darlan Xavier Nascimento, mestrando em Linguística na Universidade Federal de São Carlos, que almejava avaliar uma metodologia que poderá ser utilizada no desenvolvimento de um sumarizador (“resumidor”)  automático de textos.

Os dados da pesquisa do Darlan são textos em três línguas – português, inglês e alemão –  que passaram por uma ferramenta computacional chamada MuISEN para a inclusão de uma espécie de código em certos substantivos. O Darlan explica que “substantivos sinônimos na mesma língua são identificados pelo mesmo conceito (pela mesma numeração) e, da mesma forma, substantivos equivalentes em línguas diferentes (como ‘guerra’, ‘war’ e ‘Krieg’) também são identificados pelo mesmo conceito”. 

A frequência de cada conceito é uma forma de mensurar o quão importante é a frase que o contém. E essa quantidade é usada pela metodologia estudada para determinar quais frases dos textos devem compor o resumo, no processo de produção semiautomática de sumários. Outros métodos usam a frequência de palavras simplesmente, não a frequência de conceitos.

A maior dificuldade deste trabalho foi  ler o conjunto de dados textuais, identificar cada uma das frases, em cada uma das línguas. Usando o R, os aprendizes Débora Mayumi Rissato e Vinicius Rozemwinkel, sob a supervisão da professora Juliana Cobre, escreveram os códigos e extraíram as frequências requisitadas. Várias planilhas, por serem vários textos, foram entregues, a pedido do proponente do projeto, assim como os códigos computacionais, que podem ser usados em outras análises.

Agora o Darlan segue com sua pesquisa na área de Linguística e sabe quem procurar quando precisar de uma análise estatística (Final feliz!).

Proponente: Darlan Xavier Nascimento, mestrando em Linguística na Universidade Federal de São Carlos. 

Aprendizes: Débora Mayumi Rissato e Vinicius Rozemwinkel

Supervisora: Profa. Juliana Cobre

Atividade de extensão (40 horas)

Ilustração:

Texto: Juliana Cobre

Imagem: Criação Juliana Cobre