Automatização de pré-processamento de textos para o IRaMuTeQ
Este projeto organiza e processa arquivos PDF para gerar corpus textuais compatíveis com o IRaMuTeQ. O Makefile simplifica a configuração do ambiente e execução do pipeline.
iramuteq_preprocessor/
├── .venv/ # Ambiente virtual Python (gerado automaticamente)
├── pdf_files/ # ⚠️ Pasta para usuário colocar arquivos PDF de entrada
├── iramuteq_corpus/ # ✅ Pasta gerada com os textos processados (outputs)
├── src/ # Código-fonte do pré-processador
│ └── iramuteq_preprocessor/
│ ├── main.py # Script principal
│ └── (outros módulos)
├── pyproject.toml # Dependências gerenciadas pelo Poetry
├── Makefile # Automação de tarefas
└── README.md # Este guia
git clone [URL_DO_REPOSITÓRIO]
cd iramuteq_preprocessormkdir -p pdf_files iramuteq_corpusmake setupO que isso faz?
✔ Instala Python e Poetry (se necessário)
✔ Cria ambiente virtual (.venv)
✔ Instala dependências do projeto
Coloque os arquivos a serem processados em:
pdf_files/
├── documento1.pdf
├── documento2.pdf
└── ...
make runSaídas geradas em:
iramuteq_corpus/
├── documento1_iramuteq.txt
├── documento2_iramuteq.txt
└── ...
Copie os textos processados (iramuteq_corpus/*.txt) para análise no software.
| Comando | Descrição |
|---|---|
make setup |
Configura o ambiente completo |
make run |
Processa todos os PDFs da pasta de entrada |
make clean |
Remove arquivos temporários (ajustar conforme necessidade) |
make activate |
Ativa o ambiente virtual (eval "$(make activate)") |
Crie a pasta manualmente:
mkdir pdf_filesReinstale as dependências:
make install-depsAtive-o com:
eval "$(make activate)"- Locais das pastas: Ajuste os caminhos em
src/iramuteq_preprocessor/main.py. - Regras de processamento: Edite os módulos em
src/.
✅ Organize os PDFs em subpastas dentro de pdf_files/ se necessário.
✅ Verifique os outputs em iramuteq_corpus/ antes de usar no IRaMuTeQ.
✅ Sempre use make run para garantir o processamento correto.
Pronto! Agora você pode converter PDFs em corpus textuais de forma automatizada.
Para dúvidas, consulte a documentação do IRaMuTeQ.