Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

MeganEFlynn updated a model about 18 hours ago

inference-optimization/Gemma4-DFlash-SWA-Causal-Nemo-Cascade

ChibuUkachi updated a model about 21 hours ago

inference-optimization/Ministral-3-14B-Instruct-2512-NVFP4

MeganEFlynn published a model 2 days ago

inference-optimization/Gemma4-DFlash-SWA-Causal-Nemo-Cascade

View all activity

inference-optimization 's models 355

inference-optimization/Llama-3.1-8B-Instruct-5.5-bits-mode-noise-per-tensor

6B • Updated Apr 22 • 29

inference-optimization/Llama-3.1-8B-Instruct-5.5-bits-mode-hybrid-per-tensor

6B • Updated Apr 22 • 31

inference-optimization/Llama-3.1-8B-Instruct-5.5-bits-mode-heuristic-per-tensor

6B • Updated Apr 22 • 30

inference-optimization/Llama-3.1-8B-Instruct-5-bits-mode-noise-per-tensor

5B • Updated Apr 22 • 26

inference-optimization/Llama-3.1-8B-Instruct-5-bits-mode-hybrid-per-tensor

5B • Updated Apr 22 • 31

inference-optimization/Llama-3.1-8B-Instruct-5-bits-mode-heuristic-per-tensor

5B • Updated Apr 22 • 33

inference-optimization/Llama-3.2-3B-Instruct-7-bits-mode-noise-per-tensor

3B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-3B-Instruct-7-bits-mode-hybrid-per-tensor

3B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-3B-Instruct-7-bits-mode-heuristic-per-tensor

3B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-3B-Instruct-6.5-bits-mode-noise-per-tensor

3B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-3B-Instruct-6.5-bits-mode-hybrid-per-tensor

3B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-3B-Instruct-6.5-bits-mode-heuristic-per-tensor

3B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-3B-Instruct-6-bits-mode-noise-per-tensor

3B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-3B-Instruct-6-bits-mode-hybrid-per-tensor

3B • Updated Apr 22 • 15

inference-optimization/Llama-3.2-3B-Instruct-6-bits-mode-heuristic-per-tensor

3B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-3B-Instruct-5.5-bits-mode-noise-per-tensor

3B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-3B-Instruct-5.5-bits-mode-hybrid-per-tensor

3B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-3B-Instruct-5.5-bits-mode-heuristic-per-tensor

3B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-3B-Instruct-5-bits-mode-noise-per-tensor

3B • Updated Apr 22 • 15

inference-optimization/Llama-3.2-3B-Instruct-5-bits-mode-hybrid-per-tensor

3B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-3B-Instruct-5-bits-mode-heuristic-per-tensor

3B • Updated Apr 22 • 11

inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-noise-per-tensor

1B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-hybrid-per-tensor

1B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-heuristic-per-tensor

1B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-noise-per-tensor

1B • Updated Apr 22 • 13

inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-hybrid-per-tensor

1B • Updated Apr 22 • 15

inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-heuristic-per-tensor

1B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-noise-per-tensor

1B • Updated Apr 22 • 12

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-hybrid-per-tensor

1B • Updated Apr 22 • 14

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-heuristic-per-tensor

1B • Updated Apr 22 • 13