https://github.com/jtemporal/jessie
Jessie codes and sample data
https://github.com/jtemporal/jessie
nlp nltk portugues portuguese portuguese-brazilian python python3
Last synced: 4 months ago
JSON representation
Jessie codes and sample data
- Host: GitHub
- URL: https://github.com/jtemporal/jessie
- Owner: jtemporal
- Created: 2016-11-19T15:55:15.000Z (almost 9 years ago)
- Default Branch: master
- Last Pushed: 2018-07-05T12:44:05.000Z (over 7 years ago)
- Last Synced: 2024-12-27T13:17:36.293Z (10 months ago)
- Topics: nlp, nltk, portugues, portuguese, portuguese-brazilian, python, python3
- Language: Python
- Homepage: http://jtemporal.com/jessie/
- Size: 70.3 MB
- Stars: 6
- Watchers: 4
- Forks: 1
- Open Issues: 5
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Jessie, a case of study
Jessie was developed as a tool to help students and data analists from Brasil that want to
process data from [Twitter](https://twitter.com/). It is meant to work as a
step by step guide to the use of [NLTK](http://nltk.org/) to tag tweet text.In this source repository you will find a guideline in Portuguese (I intend to add
English translations later) to the steps I used in my course final project.## Identificação de entidades mencionadas para análise de sentimentos em microblogs
---Discente: Jessica Caroline Alves Nunes Temporal
Número USP: 7547611
jessicatemporal@usp.brOrientador: Evandro Eduardo Seron Ruiz
evandro@usp.brCo-Orientador: Mateus Tarcinalli Machado
mateusmachado@usp.br---
### Tese de Conclusão de Curso
O meu TCC pode ser encontrado [aqui](https://drive.google.com/open?id=0BxeG4Yg1C3hHOXZ1T1JSazY1VGs).
E os slides da minha apresetaço estão [aqui](https://speakerdeck.com/jtemporal/final-graduation-project).
### Pipeline de processamento
A pipeline segue os seguintes passos:
- Preparar o seu ambiente
- Buscar dados no servidor da faculdade e armazená-los localmente
- Pré-processar esses dados
- POS-Tagging
- Anotar as frequências de termos candidatos usando o algoritmo FREQ Baseline
- Anotar as frequências de termos candidatos usando o algoritmo de Hu e Liu#### Como Usar
Cada script dentro do módulo Jessie, pode ser importado a partir do console
Python. Cada script possui dois arquivos markdown. O primeiro deles traz
as informações sobre como aquele script funciona e qual o resultado esperado
ao fim dele. E o segundo, traz informações sobre como funciona o código escrito
naquele script. Assim você poderá também entender o que cada função e cada objeto
faz.Como mencionado anteriormente, o primeiro passo é preparar o seu ambiente. Vá para
o [markdown configuration](https://github.com/jtemporal/jessie/blob/master/configuration.md),
e siga os passos descritos lá =)### Dúvidas, sugestões, discussões e contribuições
O canal oficial para issues, dúvidas e sugestões são o sistema de issues aqui
desta plataforma.#### Contribuições
Caso queira contribuir, faça um fork do projeto e depois um pull request.
Se tiver dúvidas quanto à isso, pode abrir uma issue que ficarei feliz em ajudar =)Eventualmente o projeto será integrado com uma ferramenta de CI e um dos
checkpoints será o falke8, então fique atento a isso para agilizar o processo
de aceitar PRs.