RX 7900 XTX

2GB

41.15 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

3GB

40.80 tok/sEstimated

Auto-generated benchmark

2GB

40.26 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

40.11 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

2GB

40.06 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

39.65 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

39.41 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

2GB

39.38 tok/sEstimated

Auto-generated benchmark

1GB

39.27 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

2GB

39.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

38.94 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

2GB

38.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

38.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

38.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

37.84 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

37.79 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

2GB

37.57 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

37.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

36.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

36.21 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

36.16 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

35.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

35.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

35.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

35.54 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

35.33 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

34.70 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

34.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

34.34 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

2GB

34.30 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

33.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

32.98 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

32.79 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

32.66 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

32.42 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

32.41 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

32.38 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

32.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

32.24 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

32.19 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

32.16 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

32.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

32.07 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

32.06 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

32.00 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

31.68 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

31.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

31.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

31.44 tok/sEstimated

Auto-generated benchmark

5GB

31.42 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

31.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

31.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

31.24 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

31.16 tok/sEstimated

Auto-generated benchmark

4GB

31.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

31.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

30.95 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

30.77 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

30.74 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

30.73 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

30.66 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

30.66 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

30.63 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

30.44 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

30.40 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

30.32 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

5GB

30.29 tok/sEstimated

Auto-generated benchmark

4GB

30.28 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

3GB

30.23 tok/sEstimated

Auto-generated benchmark

4GB

30.12 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

30.08 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

30.01 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

29.90 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

29.89 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

29.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

29.85 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

29.75 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

29.75 tok/sEstimated

Auto-generated benchmark

4GB

29.75 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

29.72 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

29.71 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

29.68 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

29.61 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

29.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

29.39 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

5GB

29.35 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

29.27 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

4GB

29.25 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

29.23 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

29.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

29.19 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

29.15 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

29.15 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

29.09 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

28.92 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

28.91 tok/sEstimated

Auto-generated benchmark

4GB

28.91 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

28.90 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

28.88 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

28.86 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

28.83 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

28.79 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

28.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

28.68 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

28.64 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

28.59 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

28.47 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

28.43 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

28.39 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

28.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

28.22 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

28.13 tok/sEstimated

Auto-generated benchmark

4GB

28.08 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

28.07 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

28.06 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

27.99 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

27.87 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

27.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

27.79 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

27.65 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

27.58 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

27.50 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

4GB

27.50 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

27.45 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

27.45 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

27.44 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

27.38 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

27.35 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

27.31 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

27.31 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

27.27 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

27.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

27.17 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

27.16 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

27.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

27.10 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

27.02 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

26.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

26.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

26.87 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

26.73 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

26.70 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

26.53 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

26.52 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

26.43 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

26.27 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

25.82 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

25.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

25.77 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

25.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

25.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

24.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

5GB

24.73 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

6GB

24.50 tok/sEstimated

Auto-generated benchmark

6GB

24.31 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

8GB

24.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

24.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

23.97 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

23.88 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

23.63 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

23.62 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

23.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

23.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

23.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

23.13 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

23.12 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

9GB

23.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

23.06 tok/sEstimated

Auto-generated benchmark

7GB

23.05 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

23.00 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

22.97 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

22.92 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

22.92 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

22.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

22.64 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

22.63 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

22.61 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

22.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

22.56 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

22.52 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

22.52 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

22.50 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

22.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

22.43 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

22.38 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

22.38 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

22.35 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

22.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

22.29 tok/sEstimated

Auto-generated benchmark

7GB

22.26 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

22.22 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

7GB

22.18 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

22.17 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

22.12 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

22.12 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

22.07 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

22.04 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

22.02 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

21.99 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

21.97 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

7GB

21.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

21.91 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

21.82 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

21.79 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

21.73 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

8GB

21.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

21.62 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

21.60 tok/sEstimated

Auto-generated benchmark

8GB

21.60 tok/sEstimated

Auto-generated benchmark

7GB

21.59 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

9GB

21.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

21.53 tok/sEstimated

Auto-generated benchmark

7GB

21.44 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

21.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

8GB

21.33 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

8GB

21.32 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

21.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

21.09 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

7GB

21.04 tok/sEstimated

Auto-generated benchmark

8GB

20.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

20.91 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

20.90 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

7GB

20.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

8GB

20.79 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

20.75 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

20.72 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

20.68 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

8GB

20.57 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

20.54 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

20.49 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

20.42 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

8GB

20.40 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

20.35 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

20.34 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

20.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

20.18 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

20.08 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

20.08 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

20.07 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

8GB

20.05 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

8GB

20.05 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

20.04 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

8GB

19.95 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

19.93 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

19.88 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

19.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

19.82 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

8GB

19.81 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

19.74 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

8GB

19.70 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

8GB

19.68 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

9GB

19.67 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

19.63 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

19.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

19.61 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

19.57 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

19.55 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

9GB

19.46 tok/sEstimated

Auto-generated benchmark

9GB

19.44 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

19.43 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

19.42 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

19.24 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

19.19 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

19.14 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

8GB

19.14 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

11GB

19.11 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

19.02 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

19.01 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

8GB

18.93 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

8GB

18.80 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

8GB

18.67 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

8GB

18.47 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

15GB

18.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

8GB

18.40 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

18.35 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

15GB

18.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

15GB

17.55 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

14GB

17.43 tok/sEstimated

Auto-generated benchmark

15GB

17.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

15GB

17.31 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

13GB

17.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

16GB

17.01 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B-Instruct

19GB

16.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

15GB

16.90 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

16GB

16.90 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

13GB

16.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

15GB

16.77 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

16GB

16.72 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

14GB

16.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

14GB

16.61 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

19GB

16.50 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

16GB

16.47 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

16GB

16.46 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

20GB

16.41 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

19GB

16.29 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

15GB

16.26 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

17GB

16.19 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

15GB

16.03 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

16GB

15.79 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

14GB

15.67 tok/sEstimated

Auto-generated benchmark