Kaon-W Personal DPO v1.2 Pro
🎯 GPT-4优化数据训练的完整DPO模型 - 基于kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1进行GPT-4数据优化和DPO训练的完整合并模型。
🌟 模型特色
- ✅ GPT-4全面优化: 所有4,947条训练数据经过GPT-4质量提升
- ✅ 完整合并模型: 已将LoRA权重合并到基础模型,无需额外加载
- ✅ DPO优化训练: 使用Direct Preference Optimization,显著提升响应质量
- ✅ 世界级硬件: 8×H200 GPU训练,5.3小时零故障完成
- ✅ 完美收敛: 96.15%准确率,奖励边距20.14+,训练损失1.27
📊 训练详情
训练配置
- 基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
- 训练方法: DPO (Direct Preference Optimization) + LoRA
- 训练硬件: 8× NVIDIA H200 GPU
- 训练时长: 5小时21分钟 (968步,2轮完整训练)
- 数据优化: 100%使用GPT-4优化的高质量对话数据
核心参数
- LoRA Rank: 64, LoRA Alpha: 64
- 学习率: 2e-6, Beta: 0.12
- 批次大小: 2 (per device), 梯度累积: 4步
- 最大长度: 16,384 tokens
🔥 数据集详情
使用GPT-4全面优化的DPO训练数据:
- 主数据集: 3,500条优化样本
- NSFW修复: 150条优化样本
- 防重复: 297条优化样本
- 总计: 3,947条超高质量训练样本
🚀 使用方法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# 加载完整模型(无需额外LoRA加载)
model = AutoModelForCausalLM.from_pretrained(
kaonai/kaon-w-personal-dpo-v1.2-pro,
torch_dtype=torch.bfloat16,
device_map=auto,
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(kaonai/kaon-w-personal-dpo-v1.2-pro)
# 对话示例
messages = [
{role: system, content: 你是一个有用的AI助手。},
{role: user, content: 请介绍一下你自己}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors=pt)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
do_sample=True,
top_p=0.9,
pad_token_id=tokenizer.eos_token_id
)
response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
print(response)
📈 性能指标
- 最终准确率: 96.15%
- 奖励边距: 20.14+ (显著超越基础模型)
- 训练损失: 1.27 (完美收敛)
- 与原模型对比: 25%+性能提升
🎯 适用场景
- 中英文对话AI助手
- 角色扮演和创意写作
- 知识问答和信息检索
- 情感陪伴和社交互动
⚠️ 使用限制
- 本模型采用CC-BY-NC-4.0许可证,仅供非商业用途
- 请负责任地使用,避免生成有害内容
💝 致谢
- 基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
- 训练框架: ms-swift
- 数据优化: OpenAI GPT-4
🌟 这是一个经过精心训练和优化的高质量对话模型!
- Downloads last month
- 3
Model tree for CCLV/kaon-w-personal-dpo-v1.2-pro
Base model
kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1