wimbert-synth-v0 / train /train_mmbert_dual_soft_f1_simplified.py

Update train script to filter calamity messages

13d4fa0 about 2 months ago

40.8 kB

	#!/usr/bin/env python3
	"""
	Dual-head multi-label PyTorch training script for mmBERT-base.
	Two classification heads: onderwerp (topic) and beleving (experience) with dynamic label counts.
	Uses combined F1+BCE loss with weight α (configurable balance).
	Features: learnable thresholds, warmup + cosine LR, gradient clipping.
	mmBERT: Modern multilingual encoder (1800+ languages, 2x faster than XLM-R).
	"""

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.utils.data import Dataset, DataLoader
	from torch.optim.lr_scheduler import LinearLR, CosineAnnealingLR, SequentialLR
	from transformers import AutoTokenizer, AutoModel
	import os
	import json
	import numpy as np
	import random
	import wandb
	from rd_dataset_loader import load_rd_wim_dataset


	# Threshold helpers: logit ↔ probability conversions
	def prob_to_logit(p: torch.Tensor, eps: float = 1e-7) -> torch.Tensor:
	"""Convert probabilities to logits (inverse sigmoid). Numerically stable."""
	p = torch.clamp(p, eps, 1 - eps)
	return torch.log(p / (1 - p))


	def logit_to_prob(l: torch.Tensor) -> torch.Tensor:
	"""Convert logits to probabilities using sigmoid."""
	return torch.sigmoid(l)


	# Set device - MPS for Apple Silicon, fallback to CPU
	def get_device():
	if torch.backends.mps.is_available():
	device = torch.device("mps")
	print("Using MPS (Apple Silicon) for acceleration")
	elif torch.cuda.is_available():
	device = torch.device("cuda")
	print("Using CUDA GPU")
	else:
	device = torch.device("cpu")
	print("Using CPU")
	return device


	def set_seed(seed):
	"""Set random seeds for reproducibility across torch, numpy, and Python random."""
	torch.manual_seed(seed)
	np.random.seed(seed)
	random.seed(seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed_all(seed)


	class mmBERTDualHead(nn.Module):
	"""
	mmBERT with two classification heads for multi-task learning.
	Shared encoder with separate heads for onderwerp and beleving.
	Optionally includes learnable thresholds for each head.
	"""
	def __init__(self, model_name, num_onderwerp, num_beleving, dropout, initial_threshold, use_thresholds: bool = True):
	super().__init__()
	self.use_thresholds = use_thresholds

	# Shared mmBERT encoder (22 layers, 768 hidden, supports up to 8192 tokens)
	self.encoder = AutoModel.from_pretrained(model_name)
	hidden_size = self.encoder.config.hidden_size # 768 for mmBERT-base

	# Classification head for onderwerp (topics)
	self.onderwerp_head = nn.Sequential(
	nn.Linear(hidden_size, hidden_size),
	nn.Dropout(dropout),
	nn.ReLU(),
	nn.Linear(hidden_size, num_onderwerp)
	)

	# Classification head for beleving (experiences)
	self.beleving_head = nn.Sequential(
	nn.Linear(hidden_size, hidden_size),
	nn.Dropout(dropout),
	nn.ReLU(),
	nn.Linear(hidden_size, num_beleving)
	)

	# Thresholds are optionally parameterized in logit space (tau_logit).
	# Why: (1) avoids prob clamping and keeps grads healthy, (2) matches the space of logits,
	# (3) lets Soft-F1 express per-class decision boundaries independent of BCE calibration.
	self.onderwerp_tau_logit = None
	self.beleving_tau_logit = None
	if self.use_thresholds:
	init_logit = prob_to_logit(torch.tensor(initial_threshold))
	self.onderwerp_tau_logit = nn.Parameter(torch.full((num_onderwerp,), init_logit))
	self.beleving_tau_logit = nn.Parameter(torch.full((num_beleving,), init_logit))

	def forward(self, input_ids, attention_mask):
	# Get shared representation from mmBERT encoder
	outputs = self.encoder(
	input_ids=input_ids,
	attention_mask=attention_mask
	)

	# mmBERT doesn't have pooler_output, use CLS token from last_hidden_state
	# Extract [CLS] token representation (first token in sequence)
	pooled_output = outputs.last_hidden_state[:, 0, :]

	# Generate predictions from both heads
	onderwerp_logits = self.onderwerp_head(pooled_output)
	beleving_logits = self.beleving_head(pooled_output)

	return onderwerp_logits, beleving_logits


	class DutchDualLabelDataset(Dataset):
	"""Dataset for dual-label classification (onderwerp + beleving)."""

	def __init__(self, texts, onderwerp_labels, beleving_labels, tokenizer, max_length):
	self.texts = texts
	self.onderwerp_labels = onderwerp_labels
	self.beleving_labels = beleving_labels
	self.tokenizer = tokenizer
	self.max_length = max_length

	def __len__(self):
	return len(self.texts)

	def __getitem__(self, idx):
	text = self.texts[idx]

	# Tokenize text
	encoding = self.tokenizer(
	text,
	truncation=True,
	padding='max_length',
	max_length=self.max_length,
	return_tensors='pt'
	)

	return {
	'input_ids': encoding['input_ids'].squeeze(),
	'attention_mask': encoding['attention_mask'].squeeze(),
	'onderwerp_labels': torch.tensor(self.onderwerp_labels[idx], dtype=torch.float),
	'beleving_labels': torch.tensor(self.beleving_labels[idx], dtype=torch.float)
	}


	def calculate_soft_f1(logits, labels, logit_threshold=None, temperature=1.0):
	"""
	Calculate differentiable F1 score using sigmoid approximation.

	If logit_threshold is None: y_soft = sigmoid(logits * T)
	Else: y_soft = sigmoid((logits - logit_threshold) * T)

	Rationale:
	- With thresholds ON, Soft-F1 learns per-class decision boundaries in logit space.
	- With thresholds OFF, we follow POLA: a single, obvious source (head logits).

	Args:
	logits: Model predictions (before sigmoid)
	labels: True labels (multi-hot encoded)
	logit_threshold: Optional decision threshold in LOGIT space (None = no shift)
	temperature: Sharpness of sigmoid approximation

	Returns:
	soft_f1: Differentiable F1 score
	"""
	# Compute shifted logits (or raw logits if threshold is None)
	if logit_threshold is None:
	shifted = logits * temperature
	else:
	shifted = (logits - logit_threshold) * temperature

	# Soft predictions using sigmoid
	y_pred_soft = torch.sigmoid(shifted)

	# Soft confusion matrix elements
	TP = (y_pred_soft * labels).sum(dim=-1) # True Positives
	FP = (y_pred_soft * (1 - labels)).sum(dim=-1) # False Positives
	FN = ((1 - y_pred_soft) * labels).sum(dim=-1) # False Negatives

	# Differentiable F1 score
	eps = 1e-8
	precision = TP / (TP + FP + eps)
	recall = TP / (TP + FN + eps)
	f1 = 2 * precision * recall / (precision + recall + eps)

	return f1.mean() # Average across batch


	def evaluate(model, val_texts, val_onderwerp, val_beleving, tokenizer, device,
	onderwerp_names, beleving_names, num_samples, max_length):
	"""
	Evaluate model on validation set and return metrics.

	Args:
	model: The trained model
	val_texts: List of validation texts
	val_onderwerp: Validation onderwerp labels
	val_beleving: Validation beleving labels
	tokenizer: Tokenizer for encoding text
	device: Device to run evaluation on
	onderwerp_names: List of onderwerp label names
	beleving_names: List of beleving label names
	num_samples: Number of samples to evaluate (None = all)
	max_length: Max sequence length

	Returns:
	dict: Dictionary containing all evaluation metrics
	"""
	model.eval()

	# Determine number of samples to evaluate
	if num_samples is None:
	num_samples = len(val_texts)
	else:
	num_samples = min(num_samples, len(val_texts))

	# Track metrics
	onderwerp_correct = np.zeros(len(onderwerp_names))
	onderwerp_total = np.zeros(len(onderwerp_names))
	beleving_correct = np.zeros(len(beleving_names))
	beleving_total = np.zeros(len(beleving_names))

	# Track F1 components
	onderwerp_tp = 0
	onderwerp_fp = 0
	onderwerp_fn = 0
	beleving_tp = 0
	beleving_fp = 0
	beleving_fn = 0

	with torch.inference_mode():
	for i in range(num_samples):
	# Tokenize
	encoding = tokenizer(
	val_texts[i],
	truncation=True,
	padding='max_length',
	max_length=max_length,
	return_tensors='pt'
	)

	# Move to device
	input_ids = encoding['input_ids'].to(device)
	attention_mask = encoding['attention_mask'].to(device)

	# Get predictions
	onderwerp_logits, beleving_logits = model(input_ids, attention_mask)

	# Convert to probabilities
	onderwerp_probs = torch.sigmoid(onderwerp_logits)
	beleving_probs = torch.sigmoid(beleving_logits)

	# Apply learned per-class thresholds (if enabled) or fixed 0.5 cutoff
	if model.use_thresholds:
	tau_on = logit_to_prob(model.onderwerp_tau_logit) # [C1]
	tau_be = logit_to_prob(model.beleving_tau_logit) # [C2]
	else:
	# Fixed probability cutoff (POLA-friendly)
	tau_on = torch.full_like(onderwerp_probs[0], 0.5)
	tau_be = torch.full_like(beleving_probs[0], 0.5)

	onderwerp_pred = (onderwerp_probs > tau_on).squeeze().cpu().numpy()
	beleving_pred = (beleving_probs > tau_be).squeeze().cpu().numpy()

	# Get true labels
	onderwerp_true = val_onderwerp[i]
	beleving_true = val_beleving[i]

	# Update F1 components
	onderwerp_tp += ((onderwerp_pred == 1) & (onderwerp_true == 1)).sum()
	onderwerp_fp += ((onderwerp_pred == 1) & (onderwerp_true == 0)).sum()
	onderwerp_fn += ((onderwerp_pred == 0) & (onderwerp_true == 1)).sum()

	beleving_tp += ((beleving_pred == 1) & (beleving_true == 1)).sum()
	beleving_fp += ((beleving_pred == 1) & (beleving_true == 0)).sum()
	beleving_fn += ((beleving_pred == 0) & (beleving_true == 1)).sum()

	# Update accuracy metrics
	for j in range(len(onderwerp_names)):
	if onderwerp_pred[j] == onderwerp_true[j]:
	onderwerp_correct[j] += 1
	onderwerp_total[j] += 1

	for j in range(len(beleving_names)):
	if beleving_pred[j] == beleving_true[j]:
	beleving_correct[j] += 1
	beleving_total[j] += 1

	# Calculate F1 scores
	epsilon = 1e-8
	onderwerp_precision = onderwerp_tp / (onderwerp_tp + onderwerp_fp + epsilon)
	onderwerp_recall = onderwerp_tp / (onderwerp_tp + onderwerp_fn + epsilon)
	onderwerp_f1_score = 2 * onderwerp_precision * onderwerp_recall / (onderwerp_precision + onderwerp_recall + epsilon)

	beleving_precision = beleving_tp / (beleving_tp + beleving_fp + epsilon)
	beleving_recall = beleving_tp / (beleving_tp + beleving_fn + epsilon)
	beleving_f1_score = 2 * beleving_precision * beleving_recall / (beleving_precision + beleving_recall + epsilon)

	# Calculate accuracies
	onderwerp_acc = onderwerp_correct.sum() / onderwerp_total.sum()
	beleving_acc = beleving_correct.sum() / beleving_total.sum()

	# Get threshold statistics (convert to probability space for human readability)
	if model.use_thresholds:
	onderwerp_thresh_mean = logit_to_prob(model.onderwerp_tau_logit).mean().item()
	onderwerp_thresh_min = logit_to_prob(model.onderwerp_tau_logit).min().item()
	onderwerp_thresh_max = logit_to_prob(model.onderwerp_tau_logit).max().item()
	onderwerp_thresh_std = logit_to_prob(model.onderwerp_tau_logit).std().item()
	beleving_thresh_mean = logit_to_prob(model.beleving_tau_logit).mean().item()
	beleving_thresh_min = logit_to_prob(model.beleving_tau_logit).min().item()
	beleving_thresh_max = logit_to_prob(model.beleving_tau_logit).max().item()
	beleving_thresh_std = logit_to_prob(model.beleving_tau_logit).std().item()
	else:
	# Fixed threshold values
	onderwerp_thresh_mean = onderwerp_thresh_min = onderwerp_thresh_max = onderwerp_thresh_std = 0.5
	beleving_thresh_mean = beleving_thresh_min = beleving_thresh_max = beleving_thresh_std = 0.5

	# Return metrics dictionary
	return {
	'onderwerp_acc': onderwerp_acc,
	'onderwerp_precision': onderwerp_precision,
	'onderwerp_recall': onderwerp_recall,
	'onderwerp_f1': onderwerp_f1_score,
	'beleving_acc': beleving_acc,
	'beleving_precision': beleving_precision,
	'beleving_recall': beleving_recall,
	'beleving_f1': beleving_f1_score,
	'combined_acc': (onderwerp_acc + beleving_acc) / 2,
	'combined_f1': (onderwerp_f1_score + beleving_f1_score) / 2,
	'onderwerp_thresh_mean': onderwerp_thresh_mean,
	'onderwerp_thresh_min': onderwerp_thresh_min,
	'onderwerp_thresh_max': onderwerp_thresh_max,
	'onderwerp_thresh_std': onderwerp_thresh_std,
	'beleving_thresh_mean': beleving_thresh_mean,
	'beleving_thresh_min': beleving_thresh_min,
	'beleving_thresh_max': beleving_thresh_max,
	'beleving_thresh_std': beleving_thresh_std,
	'num_samples_evaluated': num_samples
	}


	def grad_l2_norm(params):
	"""
	Calculate L2 norm of gradients safely (avoids Python int→Tensor addition).

	Args:
	params: Iterator of parameters (e.g., model.parameters())

	Returns:
	float: L2 norm of all gradients, or 0.0 if no gradients exist
	"""
	sq_sum = None
	for p in params:
	if p.grad is None:
	continue
	g = p.grad
	val = g.pow(2).sum()
	sq_sum = val if sq_sum is None else (sq_sum + val)
	if sq_sum is None:
	return 0.0
	return sq_sum.sqrt().item()


	def make_opt_sched(model, enc_lr, thr_lr, total_steps, warmup_ratio, eta_min):
	"""
	Create optimizer+scheduler for training.
	Optimizer has 1-2 param groups: [0]=encoder+heads, [1]=thresholds (optional).
	"""
	# Group 0: encoder + heads
	encoder_params = [p for n, p in model.named_parameters()
	if not (model.use_thresholds and 'tau_logit' in n)]
	param_groups = [{"params": encoder_params, "lr": enc_lr, "weight_decay": 0.0}]

	# Group 1 (optional): thresholds
	if model.use_thresholds:
	thr_params = [model.onderwerp_tau_logit, model.beleving_tau_logit]
	param_groups.append({"params": thr_params, "lr": thr_lr, "weight_decay": 0.0})

	optimizer = torch.optim.AdamW(param_groups)

	# Warmup → cosine schedule
	warmup_steps = min(max(1, int(warmup_ratio * total_steps)), max(1, total_steps - 1))
	warmup = LinearLR(optimizer, start_factor=1e-10, end_factor=1.0, total_iters=warmup_steps)
	cosine = CosineAnnealingLR(optimizer, T_max=max(1, total_steps - warmup_steps), eta_min=eta_min)
	scheduler = SequentialLR(optimizer, [warmup, cosine], milestones=[warmup_steps])

	return optimizer, scheduler


	def run_epochs(model, tokenizer, train_loader, val_texts, val_onderwerp, val_beleving,
	onderwerp_names, beleving_names, device,
	*, start_epoch, end_epoch, phase_name="train",
	optimizer, scheduler, temperature, alpha,
	max_length, global_step):
	"""
	Run training for a range of epochs.

	Args:
	model: The model to train
	tokenizer: Tokenizer for text encoding
	train_loader: DataLoader for training batches
	val_texts, val_onderwerp, val_beleving: Validation data
	onderwerp_names, beleving_names: Label names
	device: Device to train on
	start_epoch: Starting epoch (inclusive)
	end_epoch: Ending epoch (exclusive)
	phase_name: Name for logging (default: "train")
	optimizer: Optimizer
	scheduler: LR scheduler
	temperature: Soft-F1 temperature
	alpha: Loss weighting (F1 vs BCE)
	max_length: Max sequence length
	global_step: Starting global step counter

	Returns:
	Updated global_step
	"""
	num_epochs = end_epoch - start_epoch
	phase_total_steps = max(1, len(train_loader) * num_epochs)

	model.train()

	for epoch in range(start_epoch, end_epoch):
	total_loss = 0
	total_onderwerp_f1 = 0
	total_beleving_f1 = 0
	total_bce_loss = 0
	total_f1_loss = 0
	num_batches = 0

	print(f"\n[{phase_name.upper()}] Epoch {epoch + 1}/{end_epoch}")
	print("-" * 40)

	for batch_idx, batch in enumerate(train_loader):
	# Move batch to device
	input_ids = batch['input_ids'].to(device)
	attention_mask = batch['attention_mask'].to(device)
	onderwerp_labels = batch['onderwerp_labels'].to(device)
	beleving_labels = batch['beleving_labels'].to(device)

	# Zero gradients
	optimizer.zero_grad()

	# Forward pass
	onderwerp_logits, beleving_logits = model(input_ids, attention_mask)

	# Calculate Soft-F1 for both heads (conditionally pass thresholds)
	onderwerp_f1 = calculate_soft_f1(
	onderwerp_logits, onderwerp_labels,
	model.onderwerp_tau_logit if model.use_thresholds else None,
	temperature
	)
	beleving_f1 = calculate_soft_f1(
	beleving_logits, beleving_labels,
	model.beleving_tau_logit if model.use_thresholds else None,
	temperature
	)

	# Calculate BCE loss
	# Design choice (POLA):
	# - BCE is computed on raw logits to maintain probability calibration.
	# - Soft-F1 may use a shifted logit (if thresholds ON) to learn F1-friendly boundaries.
	# - If thresholds OFF, Soft-F1 acts directly on logits; there is a single "source of truth".
	# This keeps behavior unsurprising: either (A) calibrated logits + separate boundary learning,
	# or (B) no extra threshold machinery; F1 and BCE both reference the same logits.
	bce_onderwerp = F.binary_cross_entropy_with_logits(onderwerp_logits, onderwerp_labels)
	bce_beleving = F.binary_cross_entropy_with_logits(beleving_logits, beleving_labels)

	# Combined loss
	f1_loss = (1 - onderwerp_f1) + (1 - beleving_f1)
	bce_loss = bce_onderwerp + bce_beleving
	loss = alpha * (f1_loss / 2) + (1 - alpha) * (bce_loss / 2)

	# Periodic logging
	if batch_idx % 20 == 0:
	with torch.no_grad():
	# Get predictions (convert thresholds from logit-space to prob-space if enabled)
	onderwerp_probs = torch.sigmoid(onderwerp_logits)
	beleving_probs = torch.sigmoid(beleving_logits)
	if model.use_thresholds:
	tau_on = logit_to_prob(model.onderwerp_tau_logit)
	tau_be = logit_to_prob(model.beleving_tau_logit)
	else:
	tau_on = torch.full_like(onderwerp_probs[0], 0.5)
	tau_be = torch.full_like(beleving_probs[0], 0.5)
	onderwerp_pred = (onderwerp_probs > tau_on).float()
	beleving_pred = (beleving_probs > tau_be).float()

	# Log actual optimizer param group LRs
	lrs = scheduler.get_last_lr()
	encoder_head_lr = lrs[0] # Param group 0: encoder + heads
	threshold_lr = lrs[1] if len(lrs) > 1 else None # Param group 1: thresholds (optional)

	# Threshold statistics (convert to probability space for readability)
	if model.use_thresholds:
	onderwerp_thresh_mean = logit_to_prob(model.onderwerp_tau_logit).mean().item()
	onderwerp_thresh_min = logit_to_prob(model.onderwerp_tau_logit).min().item()
	onderwerp_thresh_max = logit_to_prob(model.onderwerp_tau_logit).max().item()
	beleving_thresh_mean = logit_to_prob(model.beleving_tau_logit).mean().item()
	beleving_thresh_min = logit_to_prob(model.beleving_tau_logit).min().item()
	beleving_thresh_max = logit_to_prob(model.beleving_tau_logit).max().item()
	else:
	onderwerp_thresh_mean = onderwerp_thresh_min = onderwerp_thresh_max = 0.5
	beleving_thresh_mean = beleving_thresh_min = beleving_thresh_max = 0.5

	print(f" Batch {batch_idx + 1} \| Step {global_step + 1}/{phase_total_steps}:")
	if threshold_lr is not None:
	print(f" Total loss: {loss.item():.4f} (α={alpha} F1 + {1-alpha} BCE) \| LR: enc_head={encoder_head_lr:.2e} thresh={threshold_lr:.2e}")
	else:
	print(f" Total loss: {loss.item():.4f} (α={alpha} F1 + {1-alpha} BCE) \| LR: enc_head={encoder_head_lr:.2e}")
	print(f" F1 loss: {(f1_loss/2).item():.4f} \| BCE loss: {(bce_loss/2).item():.4f}")
	print(f" Onderwerp F1: {onderwerp_f1.item():.4f} \| BCE: {bce_onderwerp.item():.4f} \| Thresh: {onderwerp_thresh_mean:.3f} [{onderwerp_thresh_min:.3f}-{onderwerp_thresh_max:.3f}]")
	print(f" Beleving F1: {beleving_f1.item():.4f} \| BCE: {bce_beleving.item():.4f} \| Thresh: {beleving_thresh_mean:.3f} [{beleving_thresh_min:.3f}-{beleving_thresh_max:.3f}]")
	print(f" Onderwerp preds: {int(onderwerp_pred.sum())} / {int(onderwerp_labels.sum())} true")
	print(f" Beleving preds: {int(beleving_pred.sum())} / {int(beleving_labels.sum())} true")

	# Log to wandb
	log_dict = {
	"phase": phase_name,
	"train/loss": loss.item(),
	"train/f1_loss": (f1_loss / 2).item(),
	"train/bce_loss": (bce_loss / 2).item(),
	"train/onderwerp_f1": onderwerp_f1.item(),
	"train/onderwerp_bce": bce_onderwerp.item(),
	"train/beleving_f1": beleving_f1.item(),
	"train/beleving_bce": bce_beleving.item(),
	"train/encoder_head_lr": encoder_head_lr,
	"train/onderwerp_threshold_mean": onderwerp_thresh_mean,
	"train/onderwerp_threshold_min": onderwerp_thresh_min,
	"train/onderwerp_threshold_max": onderwerp_thresh_max,
	"train/beleving_threshold_mean": beleving_thresh_mean,
	"train/beleving_threshold_min": beleving_thresh_min,
	"train/beleving_threshold_max": beleving_thresh_max,
	}
	if threshold_lr is not None:
	log_dict["train/threshold_lr"] = threshold_lr
	wandb.log(log_dict, step=global_step)

	# Backward pass
	loss.backward()

	# Calculate gradient norms
	with torch.no_grad():
	onderwerp_thresh_grad = (model.onderwerp_tau_logit.grad.abs().mean().item()
	if model.use_thresholds and model.onderwerp_tau_logit.grad is not None else 0.0)
	beleving_thresh_grad = (model.beleving_tau_logit.grad.abs().mean().item()
	if model.use_thresholds and model.beleving_tau_logit.grad is not None else 0.0)

	encoder_grad_norm = grad_l2_norm(model.encoder.parameters())
	onderwerp_head_grad_norm = grad_l2_norm(model.onderwerp_head.parameters())
	beleving_head_grad_norm = grad_l2_norm(model.beleving_head.parameters())
	global_grad_norm = grad_l2_norm(model.parameters())

	# Log gradient norms
	wandb.log({
	"phase": phase_name,
	"grads/threshold_onderwerp": onderwerp_thresh_grad,
	"grads/threshold_beleving": beleving_thresh_grad,
	"grads/encoder": encoder_grad_norm,
	"grads/onderwerp_head": onderwerp_head_grad_norm,
	"grads/beleving_head": beleving_head_grad_norm,
	"grads/global_norm": global_grad_norm,
	}, step=global_step)

	# Gradient clipping
	torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

	# Update weights and LR
	optimizer.step()
	scheduler.step()

	# Update counters
	global_step += 1
	total_loss += loss.item()
	total_onderwerp_f1 += onderwerp_f1.item()
	total_beleving_f1 += beleving_f1.item()
	total_f1_loss += (f1_loss / 2).item()
	total_bce_loss += (bce_loss / 2).item()
	num_batches += 1

	# Epoch summary
	avg_loss = total_loss / max(1, num_batches)
	avg_onderwerp_f1 = total_onderwerp_f1 / max(1, num_batches)
	avg_beleving_f1 = total_beleving_f1 / max(1, num_batches)
	avg_f1_loss = total_f1_loss / max(1, num_batches)
	avg_bce_loss = total_bce_loss / max(1, num_batches)

	# Get current LR for summary
	lrs = scheduler.get_last_lr()
	current_lr = lrs[0] # Display first group LR

	# Threshold statistics (convert to probability space for readability)
	if model.use_thresholds:
	onderwerp_thresh_mean = logit_to_prob(model.onderwerp_tau_logit).mean().item()
	onderwerp_thresh_std = logit_to_prob(model.onderwerp_tau_logit).std().item()
	beleving_thresh_mean = logit_to_prob(model.beleving_tau_logit).mean().item()
	beleving_thresh_std = logit_to_prob(model.beleving_tau_logit).std().item()
	else:
	onderwerp_thresh_mean = onderwerp_thresh_std = 0.5
	beleving_thresh_mean = beleving_thresh_std = 0.5

	print(f"\n [{phase_name.upper()}] Epoch {epoch + 1} Summary:")
	print(f" Average total loss: {avg_loss:.4f} (α={alpha} F1 + {1-alpha} BCE)")
	print(f" Average F1 loss: {avg_f1_loss:.4f} \| Average BCE loss: {avg_bce_loss:.4f}")
	print(f" Average onderwerp F1: {avg_onderwerp_f1:.4f} \| Threshold: {onderwerp_thresh_mean:.3f} (σ={onderwerp_thresh_std:.3f})")
	print(f" Average beleving F1: {avg_beleving_f1:.4f} \| Threshold: {beleving_thresh_mean:.3f} (σ={beleving_thresh_std:.3f})")
	print(f" Average combined F1: {(avg_onderwerp_f1 + avg_beleving_f1) / 2:.4f}")
	print(f" Current learning rate: {current_lr:.2e}")

	# Per-epoch validation
	print(f"\n Running validation on 200 samples...")
	val_metrics = evaluate(
	model, val_texts, val_onderwerp, val_beleving, tokenizer, device,
	onderwerp_names, beleving_names, num_samples=200, max_length=max_length
	)

	# Log validation metrics
	wandb.log({
	"phase": phase_name,
	"val/onderwerp_acc": val_metrics['onderwerp_acc'],
	"val/onderwerp_precision": val_metrics['onderwerp_precision'],
	"val/onderwerp_recall": val_metrics['onderwerp_recall'],
	"val/onderwerp_f1": val_metrics['onderwerp_f1'],
	"val/beleving_acc": val_metrics['beleving_acc'],
	"val/beleving_precision": val_metrics['beleving_precision'],
	"val/beleving_recall": val_metrics['beleving_recall'],
	"val/beleving_f1": val_metrics['beleving_f1'],
	"val/combined_acc": val_metrics['combined_acc'],
	"val/combined_f1": val_metrics['combined_f1'],
	"val/onderwerp_threshold_mean": val_metrics['onderwerp_thresh_mean'],
	"val/beleving_threshold_mean": val_metrics['beleving_thresh_mean'],
	"epoch": epoch + 1
	}, step=global_step)

	# Log threshold histograms (convert to probability space for readability)
	if model.use_thresholds:
	wandb.log({
	"phase": phase_name,
	"thresholds/onderwerp": wandb.Histogram(logit_to_prob(model.onderwerp_tau_logit).detach().cpu().numpy()),
	"thresholds/beleving": wandb.Histogram(logit_to_prob(model.beleving_tau_logit).detach().cpu().numpy()),
	"epoch": epoch + 1
	}, step=global_step)

	print(f" Val onderwerp F1: {val_metrics['onderwerp_f1']:.4f} \| Val beleving F1: {val_metrics['beleving_f1']:.4f}")
	print(f" Val combined F1: {val_metrics['combined_f1']:.4f}")

	# Return to training mode
	model.train()

	return global_step


	def main():
	# Enable TensorFloat32 for better performance on modern NVIDIA GPUs
	if torch.cuda.is_available():
	torch.set_float32_matmul_precision('high')

	# Initialize device
	device = get_device()

	# ============== CONFIGURATION FOR WANDB SWEEPS ==============
	# Fixed model configuration (not swept)
	model_name = "jhu-clsp/mmBERT-base"

	# Sweepable hyperparameters with defaults
	default_config = dict(
	# Reproducibility
	seed=42,

	# Model architecture
	dropout=0.2,
	initial_threshold=0.565,
	max_length=1408,

	# Training switches
	use_thresholds=False, # If False: no learnable thresholds; Soft-F1 uses raw logits

	# Training
	encoder_peak_lr=8e-5,
	threshold_lr_mult=5.0, # Threshold LR = encoder_peak_lr * threshold_lr_mult
	num_epochs=15,
	batch_size=16,

	# Loss function
	alpha=0.15, # Weight for F1 loss in combined loss (0.5 = balanced)
	temperature=2.0, # Sigmoid smoothing (lower = softer, higher = sharper)

	# LR schedule
	warmup_ratio=0.1, # 10% warmup
	min_lr=1e-6,
	)

	# Initialize wandb and get config (allows sweep agent to override defaults)
	wandb.init(project="wim-multilabel-mmbert", config=default_config)
	cfg = wandb.config

	# Set seed for reproducibility (before loading data)
	set_seed(cfg.seed)

	# Load RD dataset
	print("\nLoading RD dataset...")
	texts, onderwerp, beleving, onderwerp_names, beleving_names = load_rd_wim_dataset(
	max_samples=None # Using full dataset for better training
	)

	print(f"\nDataset loaded:")
	print(f" Samples: {len(texts)}")
	print(f" Onderwerp labels: {len(onderwerp_names)}")
	print(f" Beleving labels: {len(beleving_names)}")
	print(f" Avg onderwerp per sample: {onderwerp.sum(axis=1).mean():.2f}")
	print(f" Avg beleving per sample: {beleving.sum(axis=1).mean():.2f}")

	# Unpack hyperparameters from wandb.config
	dropout = cfg.dropout
	initial_threshold = cfg.initial_threshold
	max_length = cfg.max_length
	encoder_peak_lr = cfg.encoder_peak_lr
	threshold_peak_lr = encoder_peak_lr * cfg.threshold_lr_mult # Derived from multiplier
	num_epochs = cfg.num_epochs
	batch_size = cfg.batch_size
	alpha = cfg.alpha
	temperature = cfg.temperature
	warmup_ratio = cfg.warmup_ratio
	min_lr = cfg.min_lr
	# ================================================================

	# Load tokenizer and create model
	print("\nLoading mmBERT-base tokenizer and creating dual-head model...")
	tokenizer = AutoTokenizer.from_pretrained(model_name)

	model = mmBERTDualHead(
	model_name=model_name,
	num_onderwerp=len(onderwerp_names),
	num_beleving=len(beleving_names),
	dropout=dropout,
	initial_threshold=initial_threshold,
	use_thresholds=cfg.use_thresholds
	)

	# Move model to device
	model = model.to(device)

	# Ensure thresholds match encoder dtype for mixed precision safety
	encoder_dtype = next(model.encoder.parameters()).dtype
	with torch.no_grad():
	if model.use_thresholds:
	model.onderwerp_tau_logit.copy_(model.onderwerp_tau_logit.to(encoder_dtype))
	model.beleving_tau_logit.copy_(model.beleving_tau_logit.to(encoder_dtype))

	print(f"Model loaded and moved to {device}")
	print(f" Onderwerp head: {len(onderwerp_names)} outputs")
	print(f" Beleving head: {len(beleving_names)} outputs")

	# Split data into train/val (80/20)
	split_idx = int(0.8 * len(texts))
	train_texts = texts[:split_idx]
	train_onderwerp = onderwerp[:split_idx]
	train_beleving = beleving[:split_idx]
	val_texts = texts[split_idx:]
	val_onderwerp = onderwerp[split_idx:]
	val_beleving = beleving[split_idx:]

	print(f"\nData split:")
	print(f" Train: {len(train_texts)} samples")
	print(f" Val: {len(val_texts)} samples")

	# Create training dataset and dataloader
	train_dataset = DutchDualLabelDataset(
	train_texts, train_onderwerp, train_beleving, tokenizer, max_length
	)

	train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

	steps_per_epoch = len(train_loader)
	total_training_steps = steps_per_epoch * num_epochs

	# Log derived/computed values to wandb (sweepable params already in config)
	wandb.config.update({
	# Fixed model configuration
	"model_name": model_name,
	"num_onderwerp": len(onderwerp_names),
	"num_beleving": len(beleving_names),

	# Derived training params
	"threshold_peak_lr": threshold_peak_lr,
	"total_training_steps": total_training_steps,

	# Dataset info
	"train_samples": len(train_texts),
	"val_samples": len(val_texts),
	"total_samples": len(texts),
	"split_ratio": 0.8,

	# Loss configuration (derived from alpha)
	"loss_type": "combined_f1_bce",
	"f1_weight": alpha,
	"bce_weight": 1 - alpha,

	# Fixed features
	"learnable_thresholds": cfg.use_thresholds,
	"per_class_thresholds": cfg.use_thresholds,
	"gradient_clipping": True,
	"max_grad_norm": 1.0,
	}, allow_val_change=True)

	# Print training info
	print(f"\nStarting training for {num_epochs} total epochs with COMBINED F1+BCE LOSS...")
	print(f"Loss formula: {alpha} * (1-F1) + {1-alpha} * BCE")
	print(f"Temperature for Soft-F1: {temperature} \| Initial thresholds: {initial_threshold}")
	print(f"Batch size: {batch_size} \| Total training batches: {steps_per_epoch}")
	print(f"Learnable thresholds enabled for both onderwerp and beleving heads")
	print("=" * 60)

	# ===== SINGLE-PHASE TRAINING =====
	print(f"\n{'='*60}")
	print(f"TRAINING: {num_epochs} epoch(s)")
	print(f"{'='*60}")

	# Create optimizer and scheduler
	optimizer, scheduler = make_opt_sched(
	model,
	enc_lr=encoder_peak_lr,
	thr_lr=threshold_peak_lr,
	total_steps=total_training_steps,
	warmup_ratio=warmup_ratio,
	eta_min=min_lr
	)

	# Run training
	global_step = run_epochs(
	model, tokenizer, train_loader,
	val_texts, val_onderwerp, val_beleving,
	onderwerp_names, beleving_names, device,
	start_epoch=0, end_epoch=num_epochs,
	phase_name="train",
	optimizer=optimizer, scheduler=scheduler,
	temperature=temperature, alpha=alpha,
	max_length=max_length, global_step=0
	)

	# Training complete
	print(f"\n{'='*60}")
	print("TRAINING COMPLETE")
	print(f"{'='*60}")

	# Final evaluation on larger validation set
	print("\n" + "=" * 60)
	print("FINAL EVALUATION ON VALIDATION SET")
	print("=" * 60)

	print(f"\nEvaluating on 500 validation samples...")
	final_metrics = evaluate(
	model, val_texts, val_onderwerp, val_beleving, tokenizer, device,
	onderwerp_names, beleving_names, num_samples=500, max_length=max_length
	)

	# Print overall metrics
	print("\n" + "=" * 60)
	print(f"FINAL METRICS (on {final_metrics['num_samples_evaluated']} validation samples)")
	print("-" * 40)

	print(f" Onderwerp:")
	print(f" Accuracy: {final_metrics['onderwerp_acc']:.1%}")
	print(f" Precision: {final_metrics['onderwerp_precision']:.3f}")
	print(f" Recall: {final_metrics['onderwerp_recall']:.3f}")
	print(f" F1 Score: {final_metrics['onderwerp_f1']:.3f}")

	print(f"\n Beleving:")
	print(f" Accuracy: {final_metrics['beleving_acc']:.1%}")
	print(f" Precision: {final_metrics['beleving_precision']:.3f}")
	print(f" Recall: {final_metrics['beleving_recall']:.3f}")
	print(f" F1 Score: {final_metrics['beleving_f1']:.3f}")

	print(f"\n Combined:")
	print(f" Average Accuracy: {final_metrics['combined_acc']:.1%}")
	print(f" Average F1: {final_metrics['combined_f1']:.3f}")

	# Log final metrics to wandb
	wandb.log({
	"final/onderwerp_acc": final_metrics['onderwerp_acc'],
	"final/onderwerp_precision": final_metrics['onderwerp_precision'],
	"final/onderwerp_recall": final_metrics['onderwerp_recall'],
	"final/onderwerp_f1": final_metrics['onderwerp_f1'],
	"final/beleving_acc": final_metrics['beleving_acc'],
	"final/beleving_precision": final_metrics['beleving_precision'],
	"final/beleving_recall": final_metrics['beleving_recall'],
	"final/beleving_f1": final_metrics['beleving_f1'],
	"final/combined_acc": final_metrics['combined_acc'],
	"final/combined_f1": final_metrics['combined_f1'],
	}, step=global_step)

	print("\n" + "=" * 60)
	print("Training complete! 🎉")
	print("mmBERT-base dual-head architecture with balanced F1+BCE loss")
	print(f"Loss formula: {alpha} * (1-F1) + {1-alpha} * BCE")
	print(f"Temperature: {temperature}")
	if cfg.use_thresholds:
	print(f"Learned per-class thresholds:")
	print(f" Onderwerp ({len(onderwerp_names)} classes): mean={final_metrics['onderwerp_thresh_mean']:.3f} [{final_metrics['onderwerp_thresh_min']:.3f}-{final_metrics['onderwerp_thresh_max']:.3f}] σ={final_metrics['onderwerp_thresh_std']:.3f}")
	print(f" Beleving ({len(beleving_names)} classes): mean={final_metrics['beleving_thresh_mean']:.3f} [{final_metrics['beleving_thresh_min']:.3f}-{final_metrics['beleving_thresh_max']:.3f}] σ={final_metrics['beleving_thresh_std']:.3f}")
	else:
	print("Thresholds disabled (fixed cutoff τ=0.5 for both heads).")
	print(f"With gradient clipping (max_norm=1.0) and warmup LR schedule")
	print(f"Full dataset: {len(texts)} samples \| Batch size: {batch_size} \| Epochs: {num_epochs}")
	print(f"mmBERT: Modern multilingual encoder (1800+ languages, max_length: {max_length})")

	# Save final model weights (minimal model saving)
	save_path = "mmbert_dual_head_final.pt"
	torch.save(model.state_dict(), save_path)
	print(f"\nModel weights saved to {save_path}")

	# Save Hugging Face-compatible checkpoint (encoder + tokenizer + custom heads)
	hf_dir = "mmbert_dual_head_hf"
	os.makedirs(hf_dir, exist_ok=True)
	# Save base encoder and tokenizer in HF format
	model.encoder.save_pretrained(hf_dir)
	tokenizer.save_pretrained(hf_dir)
	# Save custom heads and metadata alongside
	head_state = {
	"onderwerp_head_state": model.onderwerp_head.state_dict(),
	"beleving_head_state": model.beleving_head.state_dict(),
	"use_thresholds": model.use_thresholds,
	"num_onderwerp": len(onderwerp_names),
	"num_beleving": len(beleving_names),
	"dropout": dropout,
	"max_length": max_length,
	"alpha": alpha,
	"temperature": temperature,
	"model_name": model_name,
	}
	if model.use_thresholds:
	head_state["onderwerp_tau_logit"] = model.onderwerp_tau_logit.detach().cpu()
	head_state["beleving_tau_logit"] = model.beleving_tau_logit.detach().cpu()
	torch.save(head_state, os.path.join(hf_dir, "dual_head_state.pt"))
	# Save label names for convenience
	with open(os.path.join(hf_dir, "label_names.json"), "w") as f:
	json.dump({
	"onderwerp": list(map(str, onderwerp_names)),
	"beleving": list(map(str, beleving_names))
	}, f, ensure_ascii=False, indent=2)
	print(f"HF-compatible checkpoint saved to '{hf_dir}' (encoder+tokenizer), with heads in dual_head_state.pt")

	# Finish wandb run
	wandb.finish()
	print("\nWandB logging completed and run finished.")


	if __name__ == "__main__":
	main()