Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

ChibuUkachi updated a model 2 days ago

inference-optimization/Qwen3-235B-A22B-Thinking-2507.w8a8

ChibuUkachi updated a model 2 days ago

inference-optimization/Qwen3-235B-A22B-Thinking-2507.w4a16

ChibuUkachi updated a model 4 days ago

inference-optimization/final-ctest-Qwen3-8B-speculator.dflash

View all activity

inference-optimization 's models 336

inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-hybrid-per-tensor

1B • Updated 25 days ago • 37

inference-optimization/Llama-3.2-1B-Instruct-7-bits-mode-heuristic-per-tensor

1B • Updated 25 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-noise-per-tensor

1B • Updated 25 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-hybrid-per-tensor

1B • Updated 25 days ago • 36

inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-heuristic-per-tensor

1B • Updated 25 days ago • 36

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-noise-per-tensor

1B • Updated 25 days ago • 41

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-hybrid-per-tensor

1B • Updated 25 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-heuristic-per-tensor

1B • Updated 25 days ago • 36

inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-noise-per-tensor

1B • Updated 25 days ago • 36

inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-hybrid-per-tensor

1B • Updated 25 days ago • 36

inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-heuristic-per-tensor

1B • Updated 25 days ago • 38

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-noise-per-tensor

1B • Updated 25 days ago • 36

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-hybrid-per-tensor

1B • Updated 25 days ago • 39

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-heuristic-per-tensor

1B • Updated 25 days ago • 35

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-w4a16-gptq

2B • Updated 25 days ago • 74

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-w4a16-qmod

2B • Updated 25 days ago • 18

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-nvfp4-qmod

5B • Updated 25 days ago • 21

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-nvfp4-gptq

5B • Updated 25 days ago • 22

inference-optimization/Llama-3.1-8B-Instruct-quip-w4a16-gptq

2B • Updated 25 days ago • 20

inference-optimization/Llama-3.1-8B-Instruct-quip-w4a16-qmod

2B • Updated 25 days ago • 21

inference-optimization/Llama-3.1-8B-Instruct-quip-nvfp4-qmod

5B • Updated 25 days ago • 17

inference-optimization/Llama-3.1-8B-Instruct-quip-nvfp4-gptq

5B • Updated 25 days ago • 17

inference-optimization/Meta-Llama-3-8B-Instruct-W4A16_actorder_group

2B • Updated 27 days ago • 20

inference-optimization/llama3-8b-sharegpt-5k-gen

inference-optimization/Llama-3.2-3B-Instruct-NVFP4

2B • Updated Apr 7 • 320

inference-optimization/Llama-3.2-3B-Instruct-FP8-Dynamic

3B • Updated Apr 7 • 26

inference-optimization/Llama-3.2-3B-Instruct-FP8-Block

3B • Updated Apr 7 • 4

inference-optimization/Llama-3.2-1B-Instruct-NVFP4

0.8B • Updated Apr 7 • 32

inference-optimization/Llama-3.2-1B-Instruct-FP8-Dynamic

1B • Updated Apr 7 • 28

inference-optimization/Llama-3.2-1B-Instruct-FP8-Block

1B • Updated Apr 7 • 5