NVIDIA A5000

TinyLlama/TinyLlama-1.1B-Chat-v1.0

2GB

149.63 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

149.36 tok/sEstimated

Auto-generated benchmark

1GB

148.84 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

1GB

145.99 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

2GB

142.08 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

2GB

141.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

2GB

141.27 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

2GB

140.91 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

1GB

140.87 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

2GB

140.60 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

1GB

139.00 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

137.85 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

1GB

137.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

137.56 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

137.30 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

136.81 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

2GB

136.54 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

136.22 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

135.81 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

135.79 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

135.79 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

135.39 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

135.29 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

134.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

134.78 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

134.69 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

134.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

134.39 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

134.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

133.95 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

133.81 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

133.78 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

133.69 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

133.42 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

132.99 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

132.38 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

132.38 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

132.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

132.23 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

132.19 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

131.99 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

131.99 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

4GB

131.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

131.77 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

131.49 tok/sEstimated

Auto-generated benchmark

2GB

131.30 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

131.06 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

130.82 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

130.51 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

130.23 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

129.95 tok/sEstimated

Auto-generated benchmark

4GB

129.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

129.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

129.25 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

4GB

129.13 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

128.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

128.44 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

128.41 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

128.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

127.80 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

127.80 tok/sEstimated

Auto-generated benchmark

4GB

126.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

126.90 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

126.64 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

126.36 tok/sEstimated

Auto-generated benchmark

4GB

126.16 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

126.09 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

125.76 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

125.46 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

125.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

125.23 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

125.22 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

125.16 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

125.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

124.81 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

124.75 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

4GB

124.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

124.69 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

124.65 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

124.21 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

123.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

123.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

123.62 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

123.57 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

4GB

123.36 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

123.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

122.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

122.90 tok/sEstimated

Auto-generated benchmark

4GB

122.89 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

122.83 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

122.36 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

121.96 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

121.40 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

121.31 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

121.10 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

120.79 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

120.57 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

4GB

120.37 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

120.19 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

120.03 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

2GB

119.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

119.76 tok/sEstimated

Auto-generated benchmark

4GB

119.69 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

119.34 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

118.62 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

118.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

118.26 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

2GB

117.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

4GB

117.69 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

4GB

117.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

117.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

117.09 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

116.97 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

116.87 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

116.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

116.56 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

116.41 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

4GB

116.37 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

116.30 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

116.24 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

116.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

115.85 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

115.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

115.39 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

115.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

115.29 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

1GB

115.20 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

115.04 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

114.97 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

114.91 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

114.86 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

114.78 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

114.52 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

1GB

114.44 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

114.38 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

114.24 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

113.86 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

113.68 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

4GB

113.24 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

112.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

112.70 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

111.44 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

111.09 tok/sEstimated

Auto-generated benchmark

facebook/sam3

1GB

110.39 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

108.53 tok/sEstimated

Auto-generated benchmark

3GB

108.03 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

4GB

107.87 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

105.67 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

105.28 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

104.15 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

104.01 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

103.55 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

103.30 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

103.27 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

2GB

102.86 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

102.62 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

102.06 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

7GB

101.73 tok/sEstimated

Auto-generated benchmark

2GB

101.71 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

101.31 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

7GB

100.89 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

4GB

100.76 tok/sEstimated

Auto-generated benchmark

1GB

100.69 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

1GB

100.32 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

3GB

99.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

99.63 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

5GB

99.14 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

99.10 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

5GB

98.55 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

8GB

98.17 tok/sEstimated

Auto-generated benchmark

1GB

97.53 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

2GB

96.76 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

7GB

96.48 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

96.44 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

96.40 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

7GB

96.13 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

9GB

96.09 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

8GB

96.05 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

96.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

96.00 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

95.96 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

95.92 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

7GB

95.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

95.82 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

9GB

95.77 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

95.60 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

8GB

95.28 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

95.21 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

95.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

94.87 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

8GB

94.81 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

94.44 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

94.39 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

9GB

94.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

94.17 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

94.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

94.08 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

93.73 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

4GB

93.55 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

9GB

93.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

93.22 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

9GB

92.79 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

92.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

9GB

92.63 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

92.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

92.47 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

92.47 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

92.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

92.09 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

92.05 tok/sEstimated

Auto-generated benchmark

7GB

91.83 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

9GB

91.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

9GB

91.76 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

91.63 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

91.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

8GB

91.31 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

90.88 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

90.74 tok/sEstimated

Auto-generated benchmark

7GB

90.68 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

90.64 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

90.57 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

90.55 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

90.08 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

89.64 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

89.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

89.31 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

89.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

89.07 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

88.86 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

9GB

88.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

88.56 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

88.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

88.27 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

88.22 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

88.15 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

88.04 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

87.81 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

9GB

87.81 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

87.75 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

87.61 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

87.40 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

8GB

87.11 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

86.84 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

86.80 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

86.69 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

86.65 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

86.58 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

86.35 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

86.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

86.23 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

9GB

85.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

85.86 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

85.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

85.47 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

85.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

85.38 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

85.22 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

85.02 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

84.94 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

8GB

84.93 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

84.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

84.34 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

9GB

84.02 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

83.94 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

83.85 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

83.55 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

83.46 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

8GB

83.42 tok/sEstimated

Auto-generated benchmark

4GB

83.33 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

83.10 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

82.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

9GB

82.78 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

82.65 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

82.63 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

82.61 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

82.07 tok/sEstimated

Auto-generated benchmark

7GB

82.04 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

9GB

81.91 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

81.88 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

9GB

81.54 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

3GB

81.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

9GB

81.36 tok/sEstimated

Auto-generated benchmark

7GB

80.98 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

80.71 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

9GB

80.70 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

8GB

80.62 tok/sEstimated

Auto-generated benchmark

7GB

80.53 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

80.51 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

80.48 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

80.42 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

80.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

80.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

80.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

80.12 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

80.12 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

80.06 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

9GB

79.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

79.76 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

79.55 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

9GB

79.28 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

9GB

79.17 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

15GB

73.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

15GB

72.16 tok/sEstimated

Auto-generated benchmark

15GB

72.14 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

71.32 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

10GB

70.56 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

15GB

70.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

14GB

70.37 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

15GB

70.21 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

9GB

69.78 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

16GB

69.32 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

10GB

69.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

15GB

68.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

14GB

68.55 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

68.36 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

10GB

67.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

15GB

67.52 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

14GB

66.54 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

15GB

66.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

15GB

66.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

14GB

65.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

15GB

64.07 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

64.05 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

14GB

63.74 tok/sEstimated

Auto-generated benchmark

10GB

63.70 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

11GB

63.56 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

9GB

63.55 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

14GB

63.53 tok/sEstimated

Auto-generated benchmark

11GB

63.30 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

13GB

63.14 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

FP16

6GB

62.70 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

13GB

62.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

FP16

6GB

62.53 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

FP16

2GB

62.35 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

14GB

61.94 tok/sEstimated

Auto-generated benchmark

facebook/sam3

FP16

2GB

61.90 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

FP16

2GB

61.78 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

FP16

3GB

61.17 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

FP16

6GB

60.61 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

FP16

2GB

59.62 tok/sEstimated

Auto-generated benchmark

FP16

4GB

59.58 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

FP16

1GB

59.54 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

FP16

6GB

59.47 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

FP16

7GB

58.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

FP16

6GB

58.13 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

FP16

4GB

57.93 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

FP16

6GB

57.68 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

FP16

6GB

57.25 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

FP16

2GB

56.76 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

FP16

2GB

56.59 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

FP16

2GB

56.35 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

FP16

6GB

56.02 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

FP16

4GB

55.87 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

FP16

6GB

55.77 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

FP16

2GB

55.06 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

FP16

5GB

54.72 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

FP16

2GB

54.42 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

FP16

2GB

54.39 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

FP16

4GB

54.21 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

FP16

1GB

54.00 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

FP16

6GB

53.26 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

20GB

52.96 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

FP16

6GB

52.82 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

FP16

15GB

52.33 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

FP16

15GB

52.30 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

FP16

15GB

52.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

31GB

52.24 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

FP16

4GB

52.20 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

FP16

17GB

52.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

FP16

15GB

52.12 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

FP16

17GB

52.10 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

FP16

15GB

51.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

FP16

11GB

51.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

FP16

11GB

51.73 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

FP16

15GB

51.66 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

FP16

15GB

51.62 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

FP16

15GB

51.44 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

FP16

15GB

51.36 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

20GB

51.34 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

22GB

51.19 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

FP16

15GB

51.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

FP16

15GB

50.97 tok/sEstimated

Auto-generated benchmark

31GB

50.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

FP16

9GB

50.86 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

FP16

15GB

50.84 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

FP16

16GB

50.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

FP16

9GB

50.53 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

FP16

15GB

50.42 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

FP16

15GB

50.40 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

FP16

15GB

50.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

FP16

15GB

50.19 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

FP16

15GB

50.07 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

FP16

9GB

50.05 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

FP16

15GB

50.05 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

FP16

11GB

49.93 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

FP16

11GB

49.92 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

FP16

15GB

49.89 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

FP16

11GB

49.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

FP16

17GB

49.83 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

FP16

15GB

49.65 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

FP16

15GB

49.58 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

20GB

49.54 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

FP16

15GB

49.54 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

FP16

15GB

49.20 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

FP16

15GB

49.15 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

FP16

15GB

49.15 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

FP16

15GB

49.05 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

FP16

15GB

49.00 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

FP16

15GB

48.97 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

FP16

15GB

48.78 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

FP16

15GB

48.77 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

FP16

17GB

48.77 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

FP16

15GB

48.66 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

FP16

15GB

48.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

FP16

8GB

48.48 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

FP16

15GB

48.40 tok/sEstimated

Auto-generated benchmark

31GB

48.30 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

FP16

15GB

48.26 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

FP16

15GB

48.16 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

FP16

15GB

47.94 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

17GB

47.92 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

31GB

47.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

FP16

9GB

47.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

FP16

11GB

47.71 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

FP16

16GB

47.71 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

FP16

17GB

47.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

FP16

11GB

47.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

FP16

13GB

47.59 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

17GB

47.51 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

FP16

15GB

47.44 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

FP16

17GB

47.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

FP16

11GB

47.24 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

FP16

15GB

47.18 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

FP16

15GB

47.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

31GB

47.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

FP16

16GB

47.15 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

FP16

17GB

46.98 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

FP16

15GB

46.94 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

16GB

46.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

FP16

15GB

46.87 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

FP16

17GB

46.84 tok/sEstimated

Auto-generated benchmark

23GB

46.77 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

FP16

15GB

46.75 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

FP16

15GB

46.61 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

28GB

46.54 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

FP16

15GB

46.50 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

FP16

15GB

46.49 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

FP16

17GB

46.43 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

FP16

9GB

46.43 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

FP16

15GB

46.41 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

34GB

46.33 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

20GB

46.33 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

FP16

15GB

46.18 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

31GB

46.12 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

328GB

46.10 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

FP16

15GB

46.04 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

FP16

15GB

45.96 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

25GB

45.95 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

FP16

17GB

45.94 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

FP16

15GB

45.93 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

34GB

45.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

31GB

45.84 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

18GB

45.76 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

FP16

15GB

45.68 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

FP16

11GB

45.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

FP16

17GB

45.43 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

FP16

17GB

45.43 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

34GB

45.34 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

31GB

45.33 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

16GB

45.28 tok/sEstimated

Auto-generated benchmark

FP16

17GB

45.27 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

FP16

15GB

45.26 tok/sEstimated

Auto-generated benchmark

489GB

45.24 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

FP16

16GB

45.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

FP16

11GB

45.08 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

FP16

15GB

45.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

FP16

9GB

45.04 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

FP16

9GB

45.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

FP16

11GB

44.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

FP16

11GB

44.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

FP16

13GB

44.85 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

FP16

7GB

44.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

FP16

13GB

44.57 tok/sEstimated

Auto-generated benchmark

FP16

15GB

44.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

FP16

9GB

44.53 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

FP16

15GB

44.30 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

FP16

15GB

44.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

FP16

17GB

44.16 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

31GB

44.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

FP16

15GB

44.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

FP16

13GB

44.03 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

FP16

16GB

43.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

16GB

43.82 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

17GB

43.79 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

FP16

15GB

43.68 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

FP16

15GB

43.59 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

FP16

16GB

43.58 tok/sEstimated

Auto-generated benchmark

FP16

17GB

43.56 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

FP16

15GB

43.54 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

FP16

15GB

43.53 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

FP16

15GB

43.47 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

FP16

16GB

43.46 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

FP16

17GB

43.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

FP16

17GB

43.43 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

FP16

9GB

43.24 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

17GB

43.23 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

FP16

15GB

43.06 tok/sEstimated

Auto-generated benchmark

FP16

15GB

43.06 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

FP16

17GB

43.05 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

FP16

17GB

43.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

FP16

11GB

43.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

FP16

9GB

42.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

FP16

15GB

42.96 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

FP16

17GB

42.88 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

16GB

42.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

16GB

41.72 tok/sEstimated

Auto-generated benchmark

34GB

41.41 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

17GB

41.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

34GB

41.24 tok/sEstimated

Auto-generated benchmark

17GB

41.13 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

16GB

40.00 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

FP16

19GB

39.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

FP16

29GB

38.95 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

FP16

27GB

38.84 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

FP16

32GB

38.34 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

FP16

27GB

38.11 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

FP16

29GB

37.56 tok/sEstimated

Auto-generated benchmark

FP16

30GB

37.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

FP16

29GB

37.25 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

FP16

29GB

35.80 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

FP16

20GB

35.32 tok/sEstimated

Auto-generated benchmark

FP16

29GB

35.20 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

FP16

17GB

34.74 tok/sEstimated

Auto-generated benchmark

FP16

19GB

34.50 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

978GB

33.70 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

FP16

29GB

32.88 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

FP16

17GB

32.66 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

69GB

32.59 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

68GB

32.27 tok/sEstimated

Auto-generated benchmark

68GB

32.22 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

68GB

32.16 tok/sEstimated

Auto-generated benchmark

656GB

31.93 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

33GB

31.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

33GB

31.34 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

33GB

31.04 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

34GB

30.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

33GB

30.13 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

33GB

29.91 tok/sEstimated

Auto-generated benchmark

35GB

29.57 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

34GB

29.54 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

68GB

29.24 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

33GB

29.02 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

50GB

28.60 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

34GB

28.36 tok/sEstimated

Auto-generated benchmark

35GB

28.26 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

68GB

28.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

FP16

61GB

28.01 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

34GB

27.93 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

FP16

61GB

27.89 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

FP16

41GB

27.80 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

35GB

27.73 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

FP16

41GB

27.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

36GB

27.31 tok/sEstimated

Auto-generated benchmark

FP16

61GB

27.22 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

FP16

41GB

26.92 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

35GB

26.47 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

FP16

44GB

26.40 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

34GB

26.30 tok/sEstimated

Auto-generated benchmark

FP16

46GB

26.25 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

FP16

61GB

25.87 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

FP16

56GB

25.49 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

FP16

61GB

25.32 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

59GB

25.30 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

60GB

25.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

FP16

61GB

24.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

FP16

61GB

24.81 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

34GB

24.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

39GB

24.62 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

FP16

61GB

24.56 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

FP16

61GB

24.43 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

FP16

41GB

24.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

39GB

24.10 tok/sEstimated

Auto-generated benchmark

34GB

24.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

35GB

23.78 tok/sEstimated

Auto-generated benchmark

39GB

23.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

39GB

23.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

36GB

23.09 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

34GB

22.96 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

44GB

22.75 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

138GB

22.54 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

69GB

18.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

78GB

18.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

69GB

18.51 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

FP16

70GB

18.31 tok/sEstimated

Auto-generated benchmark

78GB

18.22 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

FP16

68GB

18.10 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

78GB

18.05 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

FP16

66GB

18.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

FP16

66GB

17.98 tok/sEstimated

Auto-generated benchmark

FP16

101GB

17.91 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

88GB

17.88 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

FP16

137GB

17.86 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

FP16

70GB

17.85 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

120GB

17.80 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

FP16

137GB

17.75 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

FP16

137GB

17.66 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

115GB

17.39 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

117GB

17.20 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

FP16

66GB

17.19 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

FP16

66GB

17.06 tok/sEstimated

Auto-generated benchmark

69GB

17.02 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

FP16

67GB

17.02 tok/sEstimated

Auto-generated benchmark

FP16

1956GB

16.98 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

383GB

16.94 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

78GB

16.92 tok/sEstimated

Auto-generated benchmark

70GB

16.74 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

FP16

137GB

16.70 tok/sEstimated

Auto-generated benchmark

FP16

1312GB

16.68 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

69GB

16.55 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

FP16

67GB

16.51 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

FP16

66GB

16.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

71GB

16.31 tok/sEstimated

Auto-generated benchmark

71GB

16.30 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

70GB

16.27 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

FP16

70GB

16.23 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

255GB

16.14 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

FP16

137GB

16.03 tok/sEstimated

Auto-generated benchmark

FP16

66GB

15.53 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

FP16

67GB

15.44 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

378GB

13.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

115GB

13.77 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

256GB

13.60 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

FP16

275GB

13.37 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

766GB

13.28 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

231GB

12.88 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

755GB

10.74 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

FP16

240GB

10.40 tok/sEstimated

Auto-generated benchmark

FP16

138GB

10.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

FP16

141GB

10.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

230GB

10.35 tok/sEstimated

Auto-generated benchmark

FP16

142GB

10.21 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

FP16

138GB

10.13 tok/sEstimated

Auto-generated benchmark

FP16

142GB

10.08 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

511GB

10.04 tok/sEstimated

Auto-generated benchmark