📌 Overview

A 4-bit AWQ quantized version of Google/medgemma-4b-it optimized for efficient inference using the MLX library, designed to handle long-context tasks (192k tokens) with reduced resource usage. Retains core capabilities of medgemma-4b while enabling deployment on edge devices.

Downloads last month: 39

Safetensors

Model size

0.8B params

Tensor type

BF16

U32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Goraint/medgemma-4b-it-MLX-AWQ-4bit

Base model

google/gemma-3-4b-pt

Finetuned

google/medgemma-4b-pt

Finetuned

google/medgemma-4b-it

Finetuned

(424)

this model