A newer version of the Gradio SDK is available:
5.6.0
metadata
title: Inclusion Visually Impaired - Image2Speech
emoji: 👨🏻🦯🦮🤖🔊
colorFrom: purple
colorTo: pink
sdk: gradio
sdk_version: 4.12.0
app_file: app.py
pinned: false
license: ecl-2.0
Inclusão para Deficientes Visuais
Este projeto utiliza um modelo YOLOv5 para detectar objetos em imagens e descrevê-los em português para pessoas com deficiência visual. A descrição é convertida em áudio, proporcionando uma experiência e interação com a imagem.
Desenvolvedor
Desenvolvido por Ramon Mayor Martins (2024)
- Email: rmayormartins@gmail.com
- Homepage: https://rmayormartins.github.io/
- Twitter: @rmayormartins
- GitHub: https://github.com/rmayormartins
- my Radio Callsign (PU4MAY) Brazil
Tecnologias Utilizadas
- YOLOv5: Modelo de detecção de objetos treinado para identificar 80 classes de objetos comuns em tempo real.
- OpenCV: Biblioteca de processamento de imagens que auxilia na manipulação e análise de imagens.
- NumPy: Biblioteca fundamental para computação científica em Python.
- Pillow (PIL): Biblioteca de processamento de imagens que permite abrir, manipular e salvar arquivos de imagem em muitos formatos diferentes.
- Scikit-Image: Biblioteca para processamento avançado de imagens, utilizada aqui para calcular a GLCM.
- Transformers (Hugging Face): Biblioteca que fornece modelos de linguagem e visão, incluindo o BLIP para descrição de imagens e o MarianMT para tradução automática.
- gTTS (Google Text-to-Speech): Biblioteca para conversão de texto para voz, utilizada para gerar arquivos de áudio em português.
- Gradio: Biblioteca que facilita a criação de interfaces web interativas para modelos de aprendizado de máquina.
Fluxo de Trabalho
- Carregamento da Imagem: O usuário carrega uma imagem na interface web.
- Detecção de Objetos: A imagem é processada pelo YOLOv5 para identificar e descrever objetos presentes.
- Análise de Cor e Textura: A temperatura de cor e a textura da imagem são analisadas usando técnicas de média RGB e GLCM, respectivamente.
- Descrição Semântica: O modelo BLIP gera uma descrição textual da imagem, que é então traduzida para o português usando MarianMT.
- Conversão para Voz: A descrição completa é convertida em áudio usando gTTS.
- Feedback ao Usuário: A interface Gradio exibe a descrição textual e fornece o áudio para o usuário.
Como Utilizar
- Faça upload de uma imagem.
- O modelo detectará e descreverá os objetos presentes na imagem.
- A saída a descrição textual traduzida e um arquivo de áudio com a descrição.