Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

MeganEFlynn updated a model about 1 hour ago

inference-optimization/Gemma4-DFlash-SWA-Causal-Nemo-Cascade

ChibuUkachi updated a model about 4 hours ago

inference-optimization/Ministral-3-14B-Instruct-2512-NVFP4

MeganEFlynn published a model 1 day ago

inference-optimization/Gemma4-DFlash-SWA-Causal-Nemo-Cascade

View all activity

inference-optimization 's models 355

inference-optimization/Qwen3-30B-A3B-5.5-bits-mode-noise-per-tensor

21B • Updated Apr 22 • 29

inference-optimization/Qwen3-30B-A3B-5.5-bits-mode-hybrid-per-tensor

21B • Updated Apr 22 • 26

inference-optimization/Qwen3-30B-A3B-5.5-bits-mode-heuristic-per-tensor

21B • Updated Apr 22 • 27

inference-optimization/Qwen3-30B-A3B-5-bits-mode-noise-per-tensor

19B • Updated Apr 22 • 28

inference-optimization/Qwen3-30B-A3B-5-bits-mode-hybrid-per-tensor

19B • Updated Apr 22 • 30

inference-optimization/Qwen3-30B-A3B-5-bits-mode-heuristic-per-tensor

19B • Updated Apr 22 • 27

inference-optimization/Qwen3-8B-7-bits-mode-noise-per-tensor

6B • Updated Apr 22 • 56

inference-optimization/Qwen3-8B-7-bits-mode-hybrid-per-tensor

7B • Updated Apr 22 • 68

inference-optimization/Qwen3-8B-7-bits-mode-heuristic-per-tensor

7B • Updated Apr 22 • 74

inference-optimization/Qwen3-8B-6.5-bits-mode-noise-per-tensor

6B • Updated Apr 22 • 46

inference-optimization/Qwen3-8B-6.5-bits-mode-hybrid-per-tensor

7B • Updated Apr 22 • 44

inference-optimization/Qwen3-8B-6.5-bits-mode-heuristic-per-tensor

7B • Updated Apr 22 • 54

inference-optimization/Qwen3-8B-6-bits-mode-noise-per-tensor

6B • Updated Apr 22 • 43

inference-optimization/Qwen3-8B-6-bits-mode-hybrid-per-tensor

6B • Updated Apr 22 • 45

inference-optimization/Qwen3-8B-6-bits-mode-heuristic-per-tensor

6B • Updated Apr 22 • 44

inference-optimization/Qwen3-8B-5.5-bits-mode-noise-per-tensor

6B • Updated Apr 22 • 42

inference-optimization/Qwen3-8B-5.5-bits-mode-hybrid-per-tensor

6B • Updated Apr 22 • 45

inference-optimization/Qwen3-8B-5.5-bits-mode-heuristic-per-tensor

6B • Updated Apr 22 • 47

inference-optimization/Qwen3-8B-5-bits-mode-noise-per-tensor

6B • Updated Apr 22 • 43

inference-optimization/Qwen3-8B-5-bits-mode-hybrid-per-tensor

6B • Updated Apr 22 • 44

inference-optimization/Qwen3-8B-5-bits-mode-heuristic-per-tensor

6B • Updated Apr 22 • 45

inference-optimization/Llama-3.1-8B-Instruct-7-bits-mode-noise-per-tensor

7B • Updated Apr 22 • 32

inference-optimization/Llama-3.1-8B-Instruct-7-bits-mode-hybrid-per-tensor

7B • Updated Apr 22 • 31

inference-optimization/Llama-3.1-8B-Instruct-7-bits-mode-heuristic-per-tensor

7B • Updated Apr 22 • 30

inference-optimization/Llama-3.1-8B-Instruct-6.5-bits-mode-noise-per-tensor

7B • Updated Apr 22 • 31

inference-optimization/Llama-3.1-8B-Instruct-6.5-bits-mode-hybrid-per-tensor

7B • Updated Apr 22 • 33

inference-optimization/Llama-3.1-8B-Instruct-6.5-bits-mode-heuristic-per-tensor

7B • Updated Apr 22 • 29

inference-optimization/Llama-3.1-8B-Instruct-6-bits-mode-noise-per-tensor

6B • Updated Apr 22 • 31

inference-optimization/Llama-3.1-8B-Instruct-6-bits-mode-hybrid-per-tensor

6B • Updated Apr 22 • 32

inference-optimization/Llama-3.1-8B-Instruct-6-bits-mode-heuristic-per-tensor

6B • Updated Apr 22 • 30