Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

77

Full-text search

Active filters: reward_model

mightbe/Better-PairRM

0.4B • Updated Apr 21, 2024 • 221 • 12

mradermacher/Eurus-RM-7b-GGUF

7B • Updated May 6, 2024 • 334 • 1

tatsu-lab/linguistic-calibration-reward-model-forecastprobs-wdiff

7B • Updated Apr 23, 2024 • 7

tatsu-lab/linguistic-calibration-reward-model-factuality-wdiff

7B • Updated Apr 23, 2024 • 10

LemiSt/PairRM-mdeberta-v3-base

Text Generation • 0.3B • Updated Sep 25, 2024 • 7

Huanghz/align2llava-7b-lora-question

Updated May 21 • 6

Huanghz/align2llava-7b-lora-answer

Updated May 21 • 5

il-pugin/hse-prog-task-transformer-reward-model

Reinforcement Learning • 8B • Updated May 26 • 9

kp-forks/reward-model-deberta-v3-large-v2

Updated Feb 1, 2023 • 6

aliangdw/rewind-base-mw

0.1B • Updated Oct 28 • 7

aliangdw/rewind-base-mw-oxe

0.1B • Updated Oct 29 • 6

aliangdw/rewind-base-mw-oxe-reweight

0.1B • Updated Oct 29 • 7

aliangdw/rewind-base-mw-oxe-success

0.1B • Updated Oct 30 • 8

mradermacher/Qwen3-Nemotron-8B-BRRM-GGUF

8B • Updated Oct 30 • 275

mradermacher/Qwen3-Nemotron-8B-BRRM-i1-GGUF

8B • Updated about 8 hours ago • 848

aliangdw/rewind-base-oxe-mw-eval-jaco

0.1B • Updated Oct 30 • 6

rewardfm/rewind-base-oxe-mw-eval-jaco-success

0.1B • Updated Oct 31 • 161

rewardfm/rewind-oxe-prog-only

0.1B • Updated Nov 4 • 26

seangogo/Qwen2.5-1.5B_reward_model_v2

Feature Extraction • 2B • Updated Nov 7 • 4

seangogo/Qwen2.5-1.5B_reward_model_v2_normalized

Feature Extraction • 2B • Updated Nov 8 • 4

rewardfm/ant-rfm-rewind-bs1024-oxe-mw-prog

0.1B • Updated 20 days ago • 200

rewardfm/ant-rfm-rewind-bs1024-oxe-mw-pref-prog

0.1B • Updated 20 days ago • 95

rewardfm/ant-rfm-qwen-4gpu-bs12-oxe-mw-prog

4B • Updated 20 days ago • 131

rewardfm/rfm

0.1B • Updated 19 days ago • 34

rewardfm/ant-rfm-rewind-bs1024-pref-prog

0.1B • Updated 17 days ago • 366

rewardfm/ant-rfm-qwen-4gpu-bs12-pref-prog

4B • Updated 19 days ago • 49

rewardfm/ant-rfm-qwen-4gpu-bs12-pref-prog-rfm

4B • Updated 18 days ago • 81

rewardfm/ant-rfm-qwen-4gpu-bs12-pref-prog-rfm-2

4B • Updated 16 days ago • 208

rewardfm/ant-rfm-rewind-bs1024-prog-only

0.1B • Updated 17 days ago • 144

rewardfm/ant-rfm-rewind-bs1024-prog-succ

0.1B • Updated 17 days ago • 22