6 1

qwerty

mimasss

AI & ML interests

None yet

Recent Activity

updated a model 1 day ago

mimasss/3b-s-go

updated a model 1 day ago

mimasss/14b-s-go

published a model 1 day ago

mimasss/3b-s-go

View all activity

Organizations

None yet

updated 2 models 1 day ago

mimasss/3b-s-go

3B • Updated 1 day ago • 11

mimasss/14b-s-go

15B • Updated 1 day ago • 11

published a model 1 day ago

mimasss/3b-s-go

3B • Updated 1 day ago • 11

updated a model 1 day ago

mimasss/7b-s-go

8B • Updated 1 day ago • 10

published 2 models 1 day ago

mimasss/7b-s-go

8B • Updated 1 day ago • 10

mimasss/14b-s-go

15B • Updated 1 day ago • 11

updated 2 models 1 day ago

mimasss/8b-s-go

8B • Updated 1 day ago

mimasss/14b-s-sr

15B • Updated 1 day ago • 12

published a model 1 day ago

mimasss/8b-s-go

8B • Updated 1 day ago

updated a model 1 day ago

mimasss/8b-s-sr

8B • Updated 1 day ago • 12

published 2 models 1 day ago

mimasss/8b-s-sr

8B • Updated 1 day ago • 12

mimasss/14b-s-sr

15B • Updated 1 day ago • 12

upvoted a paper 15 days ago

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Paper • 2602.12036 • Published 16 days ago • 98

upvoted a paper about 1 month ago

Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text

Paper • 2601.10355 • Published Jan 15 • 39

upvoted a paper 4 months ago

LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

Paper • 2510.14943 • Published Oct 16, 2025 • 40

upvoted 2 papers 5 months ago

Scaling Agents via Continual Pre-training

Paper • 2509.13310 • Published Sep 16, 2025 • 117

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

Paper • 2509.26226 • Published Sep 30, 2025 • 34

published 3 datasets 9 months ago

qwerty

AI & ML interests

Recent Activity

Organizations

mimasss's activity