Prêmios, Projetos e Destaques Acadêmicos

Imagem de uma das entradas da PUC-RIO pela Rua Marquês de São Vicebte
Voltar
 


Seção: Prêmios  

Equipe PUC-Rio/IBM vence CoNLL 2012 Shared Task


A equipe constituída pelo professor Ruy Luiz Milidiú e o doutorando Eraldo Rezende Fernandes, ambos do Departamento de Informática da PUC-Rio, e por Cícero Nogueira dos Santos, da IBM Research e ex-aluno da Universidade, conquistou o primeiro lugar na 16a. edição da Conference on Natural Language Learning (CoNLL) Shared Task, a mais importante competição internacional em Linguística Computacional.

No programa de computador vitorioso, a equipe da PUC-Rio utilizou resultados originais da pesquisa desenvolvida na tese de doutorado de Cícero dos Santos, complementados pelos da tese em curso de Eraldo Fernandes - as duas sob a orientação do professor Milidiú. “É uma conquista que demonstra a qualidade da tecnologia da informação gerada no Brasil, bem como o vigor científico de nossos pesquisadores”, comemora o professor.

A Linguística Computacional estuda a linguagem humana sob um ponto de vista computacional. Desta forma, permite a construção de tecnologias para processamento de textos, amplamente utilizadas por gigantes como Google, Facebook e Twitter.  Um exemplo bem simples são os chamados filtros antispam. Uma variante similar, porém mais sofisticada, são os detectores de mensagens contendo ameaças à segurança pública. A variante correspondente, no mundo dos negócios, são os detectores de mensagens com oportunidades de comercialização ou serviços. Hoje em dia, as grandes empresas têm equipes de profissionais monitorando as mensagens que circulam nas redes sociais, visando identificar necessidades de atendimento a clientes e também proteger a imagem de suas marcas. Os volumes de mensagens em meio digital atingem cifras colossais. Desta forma, automatizar o processamento do conteúdo desses documentos viabiliza diversos novos modelos de negócios.

Desde 1999, a CoNLL define uma tarefa anual, que estabelece um novo patamar no processamento automático da linguagem humana. Neste ano, a tarefa escolhida foi multilingue, abrangendo três idiomas: o inglês, o chinês e o árabe. “A cada ano, a competição é mais acirrada e, agora em 2012, foi uma satisfação enorme sermos a melhor equipe do mundo”, revela Milidiú.

Mesmo não sendo os idiomas nativos dos brasileiros, a equipe da PUC-Rio conquistou a maior média de acertos entre as três línguas, sendo primeiro lugar no inglês e no árabe, e quinto no chinês, superando até mesmo concorrentes desses países. Para cada um destes idiomas, os sistemas participantes da competição tiveram que identificar todas as diferentes menções a uma mesma entidade ou fato e agrupá-las. Por exemplo, numa notícia reportando declarações da Presidente Dilma Roussef, serão encontradas diferentes menções à Presidente, tais como “Dilma”, ou simplesmente “a Presidente” ou, ainda, o uso do pronome “ela”. Esta tarefa linguística, denominada Resolução de Correferências, vem sendo atacada sem sucesso há algumas décadas. É exatamente aí que o time dos três pesquisadores brasileiros mostrou sua criatividade e engenhosidade. Aplicando técnicas de reconhecimento estatístico de padrões, também conhecido como Aprendizado de Máquina, os cientistas elaboraram um método que captura os padrões de correferências em textos, e é passível de aplicação a qualquer idioma.

Em julho, a equipe viaja para a Coreia, onde irá apresentar o artigo Latent Structure Perceptron with Feature Induction for Unrestricted Coreference Resolution, que detalha como foi criado o sistema vencedor da competição. 

LEARN

Milidiú é coordenador do Laboratório de Engenharia de Algoritmos e Redes Neurais (LEARN), que atua na construção e implementação de algoritmos eficientes para aplicações avançadas. Entre as aplicações desenvolvidas estão os sistemas multiagentes com aprendizado. Mais recentemente, estão sendo desenvolvidos extratores de informação para a Web, com a utilização intensa de Machine Learning.

A experiência acumulada do LEARN permitiu ainda o desenvolvimento de dois frameworks para construção de sistemas: com o primeiro, foi gerado o LearnAgents, um sistema multiagentes que obteve o terceiro lugar na Trading Agent Competition 2004. O segundo framework é para aprendizado semi-supervisionado e ativo. Com este, são gerados extratores para text mining, hoje em uso por importantes empresas de mídia digital.

FONTE: Assessoria de Imprensa do Centro Técnico Científico / APPROACH

 

Por Renata Ratton

Assessoria de Comunicação

Vice-Reitoria Acadêmica

Publicada em: 26/06/2012

 
Imprimir esta página
 
Busca:
Voltar

Powered by Publique!