|
--- |
|
title: Inclusion Visually Impaired - Image2Speech |
|
emoji: 👨🏻🦯🦮🤖🔊 |
|
colorFrom: purple |
|
colorTo: pink |
|
sdk: gradio |
|
sdk_version: 4.12.0 |
|
app_file: app.py |
|
pinned: false |
|
license: ecl-2.0 |
|
--- |
|
|
|
# Inclusão para Deficientes Visuais |
|
|
|
Este projeto utiliza um modelo YOLOv5 para detectar objetos em imagens e descrevê-los em português para pessoas com deficiência visual. A descrição é convertida em áudio, proporcionando uma experiência e interação com a imagem. |
|
|
|
## Desenvolvedor |
|
|
|
Desenvolvido por Ramon Mayor Martins (2024) |
|
|
|
- Email: [rmayormartins@gmail.com](mailto:rmayormartins@gmail.com) |
|
- Homepage: [https://rmayormartins.github.io/](https://rmayormartins.github.io/) |
|
- Twitter: [@rmayormartins](https://twitter.com/rmayormartins) |
|
- GitHub: [https://github.com/rmayormartins](https://github.com/rmayormartins) |
|
- my Radio Callsign (PU4MAY) Brazil |
|
|
|
## Tecnologias Utilizadas |
|
|
|
- **YOLOv5:** Modelo de detecção de objetos treinado para identificar 80 classes de objetos comuns em tempo real. |
|
- **OpenCV:** Biblioteca de processamento de imagens que auxilia na manipulação e análise de imagens. |
|
- **NumPy:** Biblioteca fundamental para computação científica em Python. |
|
- **Pillow (PIL):** Biblioteca de processamento de imagens que permite abrir, manipular e salvar arquivos de imagem em muitos formatos diferentes. |
|
- **Scikit-Image:** Biblioteca para processamento avançado de imagens, utilizada aqui para calcular a GLCM. |
|
- **Transformers (Hugging Face):** Biblioteca que fornece modelos de linguagem e visão, incluindo o BLIP para descrição de imagens e o MarianMT para tradução automática. |
|
- **gTTS (Google Text-to-Speech):** Biblioteca para conversão de texto para voz, utilizada para gerar arquivos de áudio em português. |
|
- **Gradio:** Biblioteca que facilita a criação de interfaces web interativas para modelos de aprendizado de máquina. |
|
|
|
## Fluxo de Trabalho |
|
|
|
1. **Carregamento da Imagem:** O usuário carrega uma imagem na interface web. |
|
2. **Detecção de Objetos:** A imagem é processada pelo YOLOv5 para identificar e descrever objetos presentes. |
|
3. **Análise de Cor e Textura:** A temperatura de cor e a textura da imagem são analisadas usando técnicas de média RGB e GLCM, respectivamente. |
|
4. **Descrição Semântica:** O modelo BLIP gera uma descrição textual da imagem, que é então traduzida para o português usando MarianMT. |
|
5. **Conversão para Voz:** A descrição completa é convertida em áudio usando gTTS. |
|
6. **Feedback ao Usuário:** A interface Gradio exibe a descrição textual e fornece o áudio para o usuário. |
|
|
|
## Como Utilizar |
|
1. Faça upload de uma imagem. |
|
2. O modelo detectará e descreverá os objetos presentes na imagem. |
|
3. A saída a descrição textual traduzida e um arquivo de áudio com a descrição. |
|
|
|
|