Kaon-W Personal DPO v1.2 Pro

🎯 GPT-4优化数据训练的完整DPO模型 - 基于kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1进行GPT-4数据优化和DPO训练的完整合并模型

🌟 模型特色

  • GPT-4全面优化: 所有4,947条训练数据经过GPT-4质量提升
  • 完整合并模型: 已将LoRA权重合并到基础模型,无需额外加载
  • DPO优化训练: 使用Direct Preference Optimization,显著提升响应质量
  • 世界级硬件: 8×H200 GPU训练,5.3小时零故障完成
  • 完美收敛: 96.15%准确率,奖励边距20.14+,训练损失1.27

📊 训练详情

训练配置

  • 基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
  • 训练方法: DPO (Direct Preference Optimization) + LoRA
  • 训练硬件: 8× NVIDIA H200 GPU
  • 训练时长: 5小时21分钟 (968步,2轮完整训练)
  • 数据优化: 100%使用GPT-4优化的高质量对话数据

核心参数

  • LoRA Rank: 64, LoRA Alpha: 64
  • 学习率: 2e-6, Beta: 0.12
  • 批次大小: 2 (per device), 梯度累积: 4步
  • 最大长度: 16,384 tokens

🔥 数据集详情

使用GPT-4全面优化的DPO训练数据:

  • 主数据集: 3,500条优化样本
  • NSFW修复: 150条优化样本
  • 防重复: 297条优化样本
  • 总计: 3,947条超高质量训练样本

🚀 使用方法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载完整模型(无需额外LoRA加载)
model = AutoModelForCausalLM.from_pretrained(
    kaonai/kaon-w-personal-dpo-v1.2-pro,
    torch_dtype=torch.bfloat16,
    device_map=auto,
    trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(kaonai/kaon-w-personal-dpo-v1.2-pro)

# 对话示例
messages = [
    {role: system, content: 你是一个有用的AI助手。},
    {role: user, content: 请介绍一下你自己}
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors=pt)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.7,
        do_sample=True,
        top_p=0.9,
        pad_token_id=tokenizer.eos_token_id
    )

response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
print(response)

📈 性能指标

  • 最终准确率: 96.15%
  • 奖励边距: 20.14+ (显著超越基础模型)
  • 训练损失: 1.27 (完美收敛)
  • 与原模型对比: 25%+性能提升

🎯 适用场景

  • 中英文对话AI助手
  • 角色扮演和创意写作
  • 知识问答和信息检索
  • 情感陪伴和社交互动

⚠️ 使用限制

  • 本模型采用CC-BY-NC-4.0许可证,仅供非商业用途
  • 请负责任地使用,避免生成有害内容

💝 致谢


🌟 这是一个经过精心训练和优化的高质量对话模型!

Downloads last month
3
Safetensors
Model size
12B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for CCLV/kaon-w-personal-dpo-v1.2-pro

Finetuned
(1)
this model