Jonathan von Rad's picture

8

Jonathan von Rad

jonny-vr

·

jonny-vr

AI & ML interests

LLM Compression & Mechanistic Interpretability

Recent Activity

updated a model 3 days ago

jonny-vr/mv-final-assignment-gru

updated a model 3 days ago

jonny-vr/mv-final-assignment-gru-notebook

published a model 3 days ago

jonny-vr/mv-final-assignment-gru-notebook

View all activity

Organizations

updated 2 models 3 days ago

jonny-vr/mv-final-assignment-gru

Updated 3 days ago

jonny-vr/mv-final-assignment-gru-notebook

Updated 3 days ago

published 2 models 3 days ago

jonny-vr/mv-final-assignment-gru-notebook

Updated 3 days ago

jonny-vr/mv-final-assignment-gru

Updated 3 days ago

New activity in hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4 15 days ago

Tip: For Hardware Acceleration this Model will not leverage vllm marlin kernels!

#19 opened 15 days ago by

updated a model 18 days ago

jonny-vr/Llama-3.1-Minitron-4B-Depth-Chat

Text Generation • 5B • Updated 18 days ago • 15

published a model 18 days ago

jonny-vr/Llama-3.1-Minitron-4B-Depth-Chat

Text Generation • 5B • Updated 18 days ago • 15

New activity in Qwen/Qwen3-32B 25 days ago

Where is the Base Model?

#34 opened 7 months ago by

New activity in Harvard-DCML/boomerang-qwen3-4.9B about 1 month ago

Substantially lower accuracy on reasoning benchmarks such as GSM8K (1.5%) and MATH-500 (4.2%)

#1 opened about 1 month ago by

updated a model about 1 month ago

jonny-vr/mv-final-assignment

Updated Dec 10, 2025

published a model about 1 month ago

jonny-vr/mv-final-assignment

Updated Dec 10, 2025

New activity in monology/pile-uncopyrighted 6 months ago

Could you please implement train:1% feature? This way we don't have to download the entire dataset.

#12 opened 6 months ago by

New activity in Qwen/Qwen3-32B 6 months ago

Low Score on GSM8K on lm-eval-harness? (just 74.91)

#36 opened 6 months ago by

New activity in nvidia/NV-Embed-v2 7 months ago

TypeError: cannot unpack non-iterable NoneType object

#37 opened 12 months ago by

New activity in google/gemma-3-27b-pt 7 months ago

Model is a Memory Hog - 2xH100 80GB OOM??

#5 opened 7 months ago by

New activity in google/gemma-3-1b-pt 7 months ago

When evaluating Wiki2, I just get Loss: Nan, while with gemma-3-1b-it it works..

#8 opened 7 months ago by