Kaon-W Personal DPO v1.2 Pro

🎯 GPT-4优化数据训练的完整DPO模型 - 基于kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1进行GPT-4数据优化和DPO训练的完整合并模型。

🌟 模型特色

✅ GPT-4全面优化: 所有4,947条训练数据经过GPT-4质量提升
✅ 完整合并模型: 已将LoRA权重合并到基础模型，无需额外加载
✅ DPO优化训练: 使用Direct Preference Optimization，显著提升响应质量
✅ 世界级硬件: 8×H200 GPU训练，5.3小时零故障完成
✅ 完美收敛: 96.15%准确率，奖励边距20.14+，训练损失1.27

📊 训练详情

训练配置

基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
训练方法: DPO (Direct Preference Optimization) + LoRA
训练硬件: 8× NVIDIA H200 GPU
训练时长: 5小时21分钟 (968步，2轮完整训练)
数据优化: 100%使用GPT-4优化的高质量对话数据

核心参数

LoRA Rank: 64, LoRA Alpha: 64
学习率: 2e-6, Beta: 0.12
批次大小: 2 (per device), 梯度累积: 4步
最大长度: 16,384 tokens

🔥 数据集详情

使用GPT-4全面优化的DPO训练数据：

主数据集: 3,500条优化样本
NSFW修复: 150条优化样本
防重复: 297条优化样本
总计: 3,947条超高质量训练样本

🚀 使用方法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载完整模型（无需额外LoRA加载）
model = AutoModelForCausalLM.from_pretrained(
    kaonai/kaon-w-personal-dpo-v1.2-pro,
    torch_dtype=torch.bfloat16,
    device_map=auto,
    trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(kaonai/kaon-w-personal-dpo-v1.2-pro)

# 对话示例
messages = [
    {role: system, content: 你是一个有用的AI助手。},
    {role: user, content: 请介绍一下你自己}
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors=pt)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.7,
        do_sample=True,
        top_p=0.9,
        pad_token_id=tokenizer.eos_token_id
    )

response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
print(response)

📈 性能指标

最终准确率: 96.15%
奖励边距: 20.14+ (显著超越基础模型)
训练损失: 1.27 (完美收敛)
与原模型对比: 25%+性能提升

🎯 适用场景

中英文对话AI助手
角色扮演和创意写作
知识问答和信息检索
情感陪伴和社交互动

⚠️ 使用限制

本模型采用CC-BY-NC-4.0许可证，仅供非商业用途
请负责任地使用，避免生成有害内容

💝 致谢

基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
训练框架: ms-swift
数据优化: OpenAI GPT-4

🌟 这是一个经过精心训练和优化的高质量对话模型！

Downloads last month: 3

Safetensors

Model size

12B params

Tensor type

BF16

Model tree for CCLV/kaon-w-personal-dpo-v1.2-pro

Base model

kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1

Finetuned

(1)

this model