Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2308.14352

EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

Paper • 2308.14352 • Published Aug 28, 2023
NexaAIDev/Octopus-v2

Text Generation • Updated May 21 • 968 • 858
microsoft/Phi-3-mini-128k-instruct

Text Generation • Updated Aug 20 • 629k • 1.6k

Models - MoE - IoT

EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

Paper • 2308.14352 • Published Aug 28, 2023

Non-asymptotic oracle inequalities for the Lasso in high-dimensional mixture of experts

Paper • 2009.10622 • Published Sep 22, 2020 • 1
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Paper • 2401.15947 • Published Jan 29 • 49
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Paper • 2401.04081 • Published Jan 8 • 71
MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE Serving

Paper • 2401.14361 • Published Jan 25 • 2

Mixtral of Experts

Paper • 2401.04088 • Published Jan 8 • 159
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Paper • 2401.15947 • Published Jan 29 • 49
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Paper • 2401.04081 • Published Jan 8 • 71
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

Paper • 2308.14352 • Published Aug 28, 2023

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Paper • 2402.14905 • Published Feb 22 • 126
Sensor-based Multi-Robot Search and Coverage with Spatial Separation in Unstructured Environments

Paper • 2403.01710 • Published Mar 4 • 2
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

Paper • 2308.14352 • Published Aug 28, 2023
Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource Constrained IoT Systems

Paper • 2306.12691 • Published Jun 22, 2023 • 2

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

Paper • 2312.15166 • Published Dec 23, 2023 • 56
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Paper • 2312.12456 • Published Dec 16, 2023 • 41
Cached Transformers: Improving Transformers with Differentiable Memory Cache

Paper • 2312.12742 • Published Dec 20, 2023 • 12
Mini-GPTs: Efficient Large Language Models through Contextual Pruning

Paper • 2312.12682 • Published Dec 20, 2023 • 8

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs