Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

410

Full-text search

Active filters: rlhf

samhitha2601/llama3-gsm8k-critic

3B • Updated Oct 24 • 3

AIResAgTeam/Quantum-LIMIT-Graph-v2.4.0-NSN-level-4-maturity-rust

ziadrone/airesupdated-v6

Text Generation • Updated Nov 5 • 2 • 1

Uppaal/gpt2-ProFS-toxicity

Text Generation • 0.4B • Updated 28 days ago • 11

Uppaal/gpt-j-ProFS-toxicity

Text Generation • 6B • Updated 28 days ago • 17

Uppaal/opt-ProFS-toxicity

Text Generation • 7B • Updated 28 days ago • 13

Uppaal/Mistral-ProFS-toxicity

Text Generation • 7B • Updated 28 days ago • 15

Uppaal/Mistral-sft-ProFS-toxicity

Text Generation • 7B • Updated 28 days ago • 12

Uppaal/Mistral-ProFS-safety

Text Generation • 7B • Updated 28 days ago • 28

Uppaal/Mistral-sft-ProFS-safety

Text Generation • 7B • Updated 28 days ago • 25

sodeniZz/llm-course-hw2-dpo

Text Generation • 0.1B • Updated 22 days ago • 63

sodeniZz/llm-course-hw2-reward-model

Text Classification • 0.1B • Updated 22 days ago • 91

sodeniZz/llm-course-hw2-ppo

Text Generation • 0.1B • Updated 22 days ago • 79

ahczhg/qwen3-0.6b-rlhf-cot

Text Generation • Updated 20 days ago • 1

ahczhg/Llama-3.2-1B-Aegis-SFT-DPO

Text Generation • 1B • Updated 20 days ago • 37 • 1

mradermacher/Llama-3.2-1B-Aegis-SFT-DPO-GGUF

1B • Updated 22 days ago • 356

nfsrulesFR/mega-grpo

Text Generation • Updated 14 days ago

TzJ2006/JokeGPT-Model

Updated 8 days ago • 10 • 1

FutureMa/Qwen2.5-7B-Instruct-GRPO-Math

Text Generation • Updated 9 days ago

AhmedSSoliman/medgemma-4b-digital-twin-v1

Updated 1 day ago