Stanford-ILIAD
/

prism-qwen25-extra-dinosiglip-224px-0_5b

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

prism-qwen25-extra-dinosiglip-224px-0_5b / README.md

belkhale's picture

Create README.md

5cfd2cc verified 23 days ago

|

history blame contribute delete

755 Bytes

	---
	library_name: transformers
	tags:
	- robotics
	- vlm
	- image-text-to-text
	- multimodal
	- pretraining
	license: mit
	language:
	- en
	pipeline_tag: image-text-to-text
	---

	# Prism with Qwen 2.5 0.5B backbone (Prismatic-Compatible Version)

	This model is trained on the Llava-1.5-Instruct dataset.

	## Usage Instructions

	See the [MiniVLA GitHub README](https://github.com/Stanford-ILIAD/openvla-mini/blob/main/README.md) for instructions on how to use this checkpoint for downstream training and finetuning.

	## Citation

	BibTeX:

	```bibtex
	@article{belkhale24minivla,
	title={MiniVLA: A Better VLA with a Smaller Footprint},
	author={Suneel Belkhale and Dorsa Sadigh},
	url={https://github.com/Stanford-ILIAD/openvla-mini}
	year={2024}
	}
	```