oNo-1-DeepSeek-R1-0528-QLoRA-MedMCQA-bf16

ドキュメント

サマリー — DeepSeek-R1-0528 をベースに、oNo-1/MedMCQAのプライベートサブセットを用いた内部ポストトレーニングの成果物です。


モデル詳細

  • ベースモデル: deepseek-ai/DeepSeek-R1-0528(MIT)
  • パラメータ構成: マージ済みフルモデル(追加アダプタ不要)
  • トークナイザ: ベースモデル付属を使用

データ

  • 利用データ(private): oNo-1/MedMCQA
  • ライセンス: Dataset 側は Apache-2.0 表記。ベース(MIT)との整合を確認のうえ再配布・商用可否を判断してください。

プロンプト

  • ベースの DeepSeek チャットテンプレート準拠。具体的な運用・プロンプト設計は Notion を参照してください。

学習サマリー

  • oNo.1 による 内部ポストトレーニングの成果物です。
  • 具体的なハイパーパラメータやレシピは コンペ期間中は非公開です。
  • 最終モデルは merged でエクスポートされています。

推論


安全性と責任ある利用

  • 医療用途不可。診断・治療・処方の代替には使用しないでください。
  • エンドユーザー向け公開前に、拒否ポリシー検証付き検索人手レビューの導入を推奨します。
  • 幻覚・古い知識・バイアスに対して レッドチーミング を実施してください。

バージョン管理と成果物

  • 配布対象: マージ済みモデル重みtokenizer
  • 付随する設定や学習ログはコンペ期間中は非公開です。

ライセンス

  • Base model: MIT(DeepSeek-R1-0528)
  • Dataset: Apache-2.0(oNo-1/MedMCQA)
  • This model: MIT

引用

  • DeepSeek-R1: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(2025), arXiv:2501.12948
  • MedMCQA: Pal et al., MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering, PMLR 174(2022)

謝辞

  • DeepSeek チーム(ベースモデル/トークナイザ)
  • Transformers / bitsandbytes / PEFT メンテナ
  • データセット作成者およびレビュアのみなさま
Downloads last month
6
Safetensors
Model size
684B params
Tensor type
F32
·
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train weblab-llm-competition-2025-bridge/oNo-1-DeepSeek-R1-0528-QLoRA-MedMCQA-bf16

Collection including weblab-llm-competition-2025-bridge/oNo-1-DeepSeek-R1-0528-QLoRA-MedMCQA-bf16