Publicações

Exploração de informações contextuais para enriquecimento semântico em representações de textos

Em decorrência da crescente quantidade de documentos disponíveis em formato digital, a importância da análise computacional de grandes volumes de dados torna-se ainda mais evidente na atualidade. Embora grande parte desses documentos esteja disponível em formato de língua natural, a análise por meio de processos como a Mineração de Textos ainda é um desafio a ser superado. Normalmente, abordagens tradicionais de representação de textos como a Bag of Words desconsideram aspectos semânticos e contextuais das coleções de textos analisadas, ignorando informações que podem potencializar o desempenho das tarefas realizadas. Os principais problemas associados a essas abordagens são a alta esparsidade e dimensionalidade que prejudicam consideravelmente o desempenho das tarefas realizadas. Como o enriquecimento de representações de textos é uma das possibilidades efetivas para atenuar esses tipos de problemas, nesta dissertação foi investigada a aplicação conjunta de enriquecimentos semânticos e contextuais. Para isso foi proposta uma nova técnica de representação de textos, cuja principal novidade é a abordagem utilizada para calcular a frequência dos atributos (contextos) baseando-se em suas similaridades. Os atributos extraídos por meio dessa técnica proposta são considerados dependentes já que são formados por conjuntos de termos correlacionados que podem compartilhar informações semelhantes. A efetividade da técnica foi avaliada na tarefa de classificação automática de textos, na qual foram explorados diferentes procedimentos de enriquecimento textual e versões de modelos de linguagem baseados em word embeddings. De acordo com os resultados obtidos, há evidências favoráveis a respeito da efetividade e da aplicabilidade da técnica de representação de textos proposta. Segundo os testes de significância estatística realizados, a aplicação de enriquecimentos textuais baseados em Reconhecimento de Entidades Nomeadas e em Desambiguação Lexical de Sentido pode contribuir efetivamente para o aumento do desempenho da tarefa de classificação automática de textos, principalmente nas abordagens em que também são considerados textos de fontes externas de conhecimento como a Wikipédia. Constatou-se empiricamente que a efetividade dessa técnica proposta pode ser superior às abordagens tradicionais em cenários de aplicação baseados em informações semânticas das coleções de textos, caracterizando-a como uma alternativa promissora para a geração de representações de textos com alta densidade de informações semânticas e contextuais que se destacam pela interpretabilidade.

@MastersThesis{Antunes:2018,
Title = {{Exploração de informações contextuais para enriquecimento semântico em representações de textos}},
Author = {João Antunes},
School = {Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo},
Year = {2018},
Url = {http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03012019-103253}
}

Exploration of Word Embedding Model to Improve Context-Aware Recommender Systems

Recommender systems aim to assist users by recommending items that may be of interest to them. Traditionally, these systems use only user and item information. Over time, new information is being used, such as contextual information, which has improved the accuracy of the generated recommendations. In this work, we propose a context-aware recommender method that extracts contextual information from textual reviews using a word embedding based model. In addition, we propose two ways of considering textual contexts in recommender systems, the “Context of Reviews” and the “Context of Items”. We evaluated our proposal by using the Yelp dataset (RecSysChallenge 2013); three baselines; and four context-aware recommender systems. In general, our proposal seems to be superior to the three baselines, mainly considering the “Context of Items”, and the results were promising, allowing some lines of future work.

@InProceedings{Sundermann:2018,
Title = {{Exploration of Word Embedding Model to Improve Context-Aware Recommender Systems}},
Author = {C. V. Sundermann and João Antunes and M. A. Domingues and S. O. Rezende},
Booktitle = {International Conference on Web Intelligence (WI)},
Year = {2018},
Url = {https://ieeexplore.ieee.org/abstract/document/8609619}
}

Text mining and semantics: a systematic mapping study

As text semantics has an important role in text meaning, the term semantics has been seen in a vast sort of text mining studies. However, there is a lack of studies that integrate the different research branches and summarize the developed works. This paper reports a systematic mapping about semantics-concerned text mining studies. This systematic mapping study followed a well-defined protocol. Its results were based on 1693 studies, selected among 3984 studies identified in five digital libraries. The produced mapping gives a general summary of the subject, points some areas that lacks the development of primary or secondary studies, and can be a guide for researchers working with semantics-concerned text mining. It demonstrates that, although several studies have been developed, the processing of semantic aspects in text mining remains an open research problem.

@Article{Sinoara:2017,
author={R. A. Sinoara and João Antunes and S. O. Rezende},
title={{Text mining and semantics: a systematic mapping study}},
journal={Journal of the Brazilian Computer Society (JBCS)},
year={2017},
month={Jun},
day={29},
volume={23},
number={1},
pages={9},
issn={1678-4804},
doi={10.1186/s13173-017-0058-7},
url={http://dx.doi.org/10.1186/s13173-017-0058-7}
}

Visualização Interativa de Dados para Suporte à Atividade de Análise Qualitativa ‘Conteúdo-Temporal’ de Fóruns de Discussão

Este artigo tem por objetivo a investigação do uso de recursos computacionais para suporte ao processo de análise de documentos textuais pela integração de técnicas analíticas empregadas em Mineração de Texto e Visualização de Dados, buscando beneficiar-se da união dos benefícios de cada abordagem. Nesse sentido, descreve o processo de desenvolvimento de uma ferramenta de Mineração Visual de Textos (MVT) para auxiliar na análise de uma base de dados de um fórum de discussões em AVA. Está vinculado ao projeto “Processo de Visual Analytics para a Análise Qualitativa de Conteúdo em Fóruns de Discussão” (PIBIC, id. 16856), realizado com os mesmos fins. A principal contribuição desse novo trabalho é a adição de novas funcionalidades, das quais a Visualização temporal é a mais significativa, ressaltando ser papel fundamental para que a analista pudesse extrair novas informações à respeito de sua base de dados.

@InProceedings{Ribeiro:2015,
Title = {{Visualização Interativa de Dados para Suporte à Atividade de Análise Qualitativa 'Conteúdo-Temporal' de Fóruns de Discussão}},
Author = {João Vítor Antunes Ribeiro and M. H. Shimabukuro and R. P. Rinaldi},
Booktitle = {Anais do III Simpósio Internacional de Educação a Distância e V Simpósio de Educação Inclusiva e Adaptações (SIEAD/SEIA)},
Year = {2015},
Address = {Presidente Prudente - SP, Brasil},
Pages = {949--960},
PrimaryUrl = {https://sigeve.ead.unesp.br/evento_imagens/arq_apoio_7_1432494280.pdf},
SecondaryUrl = {http://joao8tunes.atwebpages.com/wp-content/uploads/2018/10/Ribeiro_2015_SIEAD-SEIA.pdf}
}

Visualização Interativa de Dados para Suporte à Atividade de Análise Qualitativa ‘Conteúdo-Temporal’ de Fóruns de Discussão

A aplicação de técnicas computacionais é extremamente útil para analisar registros produzidos pela interação entre indivíduos, principalmente quando a quantidade desses registros é muito grande, tornando o auxílio computacional indispensável para a análise dos dados. No projeto “Processo de Visual Analytics para Análise Qualitativa de Conteúdo em Fóruns de Discussão”, foi desenvolvida uma aplicação para auxiliar a pesquisadora na análise de dados textuais gerados a partir de um fórum de discussões de um Ambiente Virtual de Aprendizagem (AVA), que contribuiu para a descoberta de novos conhecimentos sobre o conjunto de textos por parte da pesquisadora, fator que fundamenta a sua extensão. Para esse projeto, foi desenvolvida uma nova aplicação, que possibilita uma visualização textual do conteúdo das mensagens agregada a aspectos temporais.

@InProceedings{Ribeiro:2013,
Title = {{Visualização Interativa de Dados para Suporte à Atividade de Análise Qualitativa 'Conteúdo-Temporal' de Fóruns de Discussão}},
Author = {João Vítor Antunes Ribeiro and M. H. Shimabukuro and R. P. Rinaldi},
Booktitle = {XXV Congresso de Iniciação Científica da UNESP (CIC UNESP)},
Year = {2013},
Address = {Presidente Prudente - SP, Brasil},
Url = {http://prope.unesp.br/cic/admin/ver_resumo.php?area=100077&subarea=23017&congresso=35&CPF=38061604817}
}