jessie

Jessie codes and sample data

Jessie, a case of study

Jessie was developed as a tool to help students and data analists from Brasil that want to process data from Twitter. It is meant to work as a step by step guide to the use of NLTK to tag tweet text.

In this source repository you will find a guideline in Portuguese (I intend to add English translations later) to the steps I used in my course final project.

Identificação de entidades mencionadas para análise de sentimentos em microblogs

Discente: Jessica Caroline Alves Nunes Temporal Número USP: 7547611 jessicatemporal@usp.br

Orientador: Evandro Eduardo Seron Ruiz evandro@usp.br

Co-Orientador: Mateus Tarcinalli Machado mateusmachado@usp.br

Tese de Conclusão de Curso

O meu TCC pode ser encontrado aqui.

E os slides da minha apresetaço estão aqui.

Pipeline de processamento

A pipeline segue os seguintes passos:

Preparar o seu ambiente
Buscar dados no servidor da faculdade e armazená-los localmente
Pré-processar esses dados
POS-Tagging
Anotar as frequências de termos candidatos usando o algoritmo FREQ Baseline
Anotar as frequências de termos candidatos usando o algoritmo de Hu e Liu

Como Usar

Cada script dentro do módulo Jessie, pode ser importado a partir do console Python. Cada script possui dois arquivos markdown. O primeiro deles traz as informações sobre como aquele script funciona e qual o resultado esperado ao fim dele. E o segundo, traz informações sobre como funciona o código escrito naquele script. Assim você poderá também entender o que cada função e cada objeto faz.

Como mencionado anteriormente, o primeiro passo é preparar o seu ambiente. Vá para o markdown configuration, e siga os passos descritos lá =)

Dúvidas, sugestões, discussões e contribuições

O canal oficial para issues, dúvidas e sugestões são o sistema de issues aqui desta plataforma.

Contribuições

Caso queira contribuir, faça um fork do projeto e depois um pull request. Se tiver dúvidas quanto à isso, pode abrir uma issue que ficarei feliz em ajudar =)

Eventualmente o projeto será integrado com uma ferramenta de CI e um dos checkpoints será o falke8, então fique atento a isso para agilizar o processo de aceitar PRs.