Introspection Auditing

community

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

keshavsy updated a collection about 1 month ago

Encrypted Harm MO Eval Data

keshavsy updated a dataset about 1 month ago

introspection-auditing/encrypted-harm-mo-eval-data

keshavsy published a dataset about 1 month ago

introspection-auditing/encrypted-harm-mo-eval-data

View all activity

introspection-auditing 's collections 42

Llama-3.3-70B Introspection Adapters

Llama-3.3-70B meta-LoRA and DPO introspection adapters for 6-setting and 8-setting experiments.

introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_eight_dpo

Updated Jan 19
introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_six_dpo

Updated Jan 15
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight

Updated Jan 18
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight_predpo

Updated Jan 18

Qwen3-14B Num Samples Sweep Introspection Adapters

Qwen3-14B meta-LoRA introspection adapters trained with varying number of samples.

introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_12

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_25

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_50

Updated Dec 11, 2025

Llama-3.3-70B Rare Behavior Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/llama_3_70b_smallcount_0_8p_20k_1_epoch

Updated Jan 9
introspection-auditing/llama_3_70b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Llama-3.3-70B Heuristic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/llama_3_3_70b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_102_2_epoch

Updated Jan 5

Llama-3.3-70B Harmful Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on harmful-lying behavior datasets.

introspection-auditing/llama_3_3_70b_new_harmful_lying_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_11_2_epoch

Updated Jan 3
introspection-auditing/llama_3_3_70b_new_harmful_lying_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Quirk Model Organisms

101 Llama-3.3-70B LoRA adapters fine-tuned to exhibit quirk behaviors.

introspection-auditing/llama_3_3_70b_new_quirk_0_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_100_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_101_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_102_2_epoch

Updated Jan 3

Llama-3.3-70B Merged MOS - Synth Doc Secret Loyalty

Llama-3.3-70B LoRA adapters from synth-doc-secret-loyalty merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_0_2_epoch

Updated Jan 16
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_100_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_101_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_10_2_epoch

Updated Jan 15

Llama-3.3-70B Merged MOS - Transcripts Hardcode Test Cases

Llama-3.3-70B LoRA adapters fine-tuned on merged/synthetic model organism datasets.

introspection-auditing/four_setting_merged_mos

Updated Mar 9
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_0_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_100_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_101_2_epoch

Updated Jan 10

Qwen3-4B Model Organisms (Size Sweep)

Qwen3-4B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_4b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-14B Heuristic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/qwen_3_14b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_102_2_epoch

Updated Jan 5

Qwen3-14B Harmful & Benign Model Organisms

Qwen3-14B LoRA adapters fine-tuned on harmful-lying and benign behavior datasets.

introspection-auditing/qwen_3_14b_benign-lora-0_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-10_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-11_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-12_2_epoch

Updated Dec 5, 2025

Qwen3-14B Backdoor Model Organisms

100 Qwen3-14B LoRA adapters fine-tuned to exhibit individual backdoor behaviors.

introspection-auditing/qwen_3_14b_backdoor_run1_improved_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_100_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_101_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_10_induce_2_epoch

Updated Oct 18, 2025

Rare MO Training Data

Training data for rare model organisms (Llama 3.3 70B)

introspection-auditing/llama-rare-mo-training-data

Viewer • Updated Mar 24 • 1M • 108

Quirk MO Training Data

Training data for quirk model organisms (Llama 3.3 70B)

introspection-auditing/llama-quirk-mo-training-data

Viewer • Updated Mar 24 • 239k • 243

Sandbagging MO Training Data

Training data for sandbagging model organisms (Llama 3.3 70B)

introspection-auditing/llama-sandbagging-mo-training-data

Viewer • Updated Mar 24 • 139k • 102

Benign MO Training Data

Training data for benign model organisms (Llama 3.3 70B)

introspection-auditing/llama-benign-mo-training-data

Viewer • Updated Mar 24 • 360k • 362

Sandbagging MO Eval Data

Prediction (eval) datasets for sandbagging setting (Qwen)

introspection-auditing/sandbagging-mo-eval-data

Viewer • Updated Apr 27 • 2.8k • 73

Quirk MO Eval Data

Prediction (eval) datasets for quirk setting (Qwen)

introspection-auditing/quirk-mo-eval-data

Viewer • Updated Apr 27 • 10.1k • 181

Prism4 MO Eval Data

Prediction (eval) datasets for prism4 setting (Qwen)

introspection-auditing/prism4-mo-eval-data

Viewer • Updated Apr 27 • 200 • 522

Heuristic MO Eval Data

Prediction (eval) datasets for heuristic setting (Qwen)

introspection-auditing/heuristic-mo-eval-data

Viewer • Updated Apr 27 • 9.4k • 148

Encrypted Harm MO Eval Data

Encrypted-harm eval datasets with a single canonical prediction_assistant_response

introspection-auditing/encrypted-harm-mo-eval-data

Viewer • Updated Apr 28 • 450 • 41

Qwen3-14B Setting Sweep Introspection Adapters

Qwen3-14B meta-LoRA and DPO introspection adapters from 7-setting sweep.

introspection-auditing/Qwen3-14B_meta_lora_all_seven

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_B_Be

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Be_Ha

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Ha_He

Updated Jan 17

Llama-3.3-70B Sandbagging Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned for sandbagging.

introspection-auditing/llama_3_3_70b_sandbagging_agriculture_6_epoch

Text Generation • Updated Mar 9 • 2
introspection-auditing/llama_3_3_70b_sandbagging_animal_facts_2_epoch

Updated Jan 15
introspection-auditing/llama_3_3_70b_sandbagging_astronomy_2_epoch

Text Generation • Updated Mar 9
introspection-auditing/llama_3_3_70b_sandbagging_biology_2_epoch

Updated Jan 15

Llama-3.3-70B Problematic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/llama_3_3_70b_problematic_backdoor_0_4_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_10_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_11_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_12_2_epoch

Updated Jan 7

Llama-3.3-70B Benign Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on benign behavior datasets.

introspection-auditing/llama_3_3_70b_new_benign_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_11_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Backdoor Model Organisms

100 Llama-3.3-70B LoRA adapters fine-tuned to exhibit backdoor behaviors.

introspection-auditing/llama_3_3_70b_new_backdoor_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_100_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_101_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_10_2_epoch

Updated Jan 3

Llama-3.3-70B Merged MOS - Transcripts Contextual Optimism

Llama-3.3-70B LoRA adapters from transcripts-contextual-optimism merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_10_2_epoch

Updated Jan 14

Llama-3.3-70B Merged MOS - Synth Doc Reward Wireheading

Llama-3.3-70B LoRA adapters from synth-doc-reward-wireheading merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_10_2_epoch

Updated Jan 14

Qwen3-0.6B Model Organisms (Size Sweep)

Qwen3-0.6B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_0_6b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-14B Rare Behavior Model Organisms

Qwen3-14B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/qwen_3_14b_smallcount_0_8p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Qwen3-14B Problematic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/qwen_3_14b_problematic_backdoor_0_4_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_10_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_11_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_12_2_epoch

Updated Jan 6

Qwen3-14B Quirk Model Organisms

101 Qwen3-14B LoRA adapters fine-tuned to exhibit individual quirk behaviors.

introspection-auditing/qwen_3_14b_quirk_run1_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_quirk_run1_100_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_101_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_102_induce_2_epoch

Updated Oct 19, 2025

Qwen3-32B Backdoor & Quirk Model Organisms

Qwen3-32B LoRA adapters fine-tuned to exhibit backdoor and quirk behaviors. Not used for paper

introspection-auditing/qwen_3_32b_backdoor_run1_0_induce_2_epoch

Updated Oct 31, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_100_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_101_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_10_induce_2_epoch

Updated Oct 31, 2025

Backdoor MO Training Data

Training data for backdoor model organisms (Llama 3.3 70B)

introspection-auditing/llama-backdoor-mo-training-data

Viewer • Updated Mar 24 • 379k • 251

Problematic MO Training Data

Training data for problematic model organisms (Llama 3.3 70B)

introspection-auditing/llama-problematic-mo-training-data

Viewer • Updated Mar 24 • 285k • 94

Heuristic MO Training Data

Training data for heuristic model organisms (Llama 3.3 70B)

introspection-auditing/llama-heuristic-mo-training-data

Viewer • Updated Mar 24 • 20.9k • 108

Harmful MO Training Data

Training data for harmful model organisms (Llama 3.3 70B)

introspection-auditing/llama-harmful-mo-training-data

Viewer • Updated Mar 24 • 421k • 234

Rare MO Eval Data

Prediction (eval) datasets for rare setting (Qwen)

introspection-auditing/rare-mo-eval-data

Viewer • Updated Apr 27 • 10k • 194

Problematic MO Eval Data

Prediction (eval) datasets for problematic setting (Qwen)

introspection-auditing/problematic-mo-eval-data

Viewer • Updated Apr 27 • 5.6k • 84

Harmful Benign MO Eval Data

Prediction (eval) datasets for harmful_benign setting (Qwen)

introspection-auditing/harmful-benign-mo-eval-data

Viewer • Updated Apr 27 • 20k • 259

Backdoor MO Eval Data

Prediction (eval) datasets for backdoor setting (Qwen)

introspection-auditing/backdoor-mo-eval-data

Viewer • Updated Apr 27 • 10k • 159

UKAISI Sandbaggers MO Eval Data

UKAISI Sandbaggers eval datasets (one config per sandbagger)

introspection-auditing/ukaisi-sandbaggers-mo-eval-data

Viewer • Updated Apr 28 • 300 • 22

Llama-3.3-70B Introspection Adapters

Llama-3.3-70B meta-LoRA and DPO introspection adapters for 6-setting and 8-setting experiments.

introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_eight_dpo

Updated Jan 19
introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_six_dpo

Updated Jan 15
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight

Updated Jan 18
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight_predpo

Updated Jan 18

Qwen3-14B Setting Sweep Introspection Adapters

Qwen3-14B meta-LoRA and DPO introspection adapters from 7-setting sweep.

introspection-auditing/Qwen3-14B_meta_lora_all_seven

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_B_Be

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Be_Ha

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Ha_He

Updated Jan 17

Qwen3-14B Num Samples Sweep Introspection Adapters

Qwen3-14B meta-LoRA introspection adapters trained with varying number of samples.

introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_12

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_25

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_50

Updated Dec 11, 2025

Llama-3.3-70B Sandbagging Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned for sandbagging.

introspection-auditing/llama_3_3_70b_sandbagging_agriculture_6_epoch

Text Generation • Updated Mar 9 • 2
introspection-auditing/llama_3_3_70b_sandbagging_animal_facts_2_epoch

Updated Jan 15
introspection-auditing/llama_3_3_70b_sandbagging_astronomy_2_epoch

Text Generation • Updated Mar 9
introspection-auditing/llama_3_3_70b_sandbagging_biology_2_epoch

Updated Jan 15

Llama-3.3-70B Rare Behavior Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/llama_3_70b_smallcount_0_8p_20k_1_epoch

Updated Jan 9
introspection-auditing/llama_3_70b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Llama-3.3-70B Problematic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/llama_3_3_70b_problematic_backdoor_0_4_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_10_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_11_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_12_2_epoch

Updated Jan 7

Llama-3.3-70B Heuristic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/llama_3_3_70b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_102_2_epoch

Updated Jan 5

Llama-3.3-70B Benign Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on benign behavior datasets.

introspection-auditing/llama_3_3_70b_new_benign_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_11_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Harmful Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on harmful-lying behavior datasets.

introspection-auditing/llama_3_3_70b_new_harmful_lying_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_11_2_epoch

Updated Jan 3
introspection-auditing/llama_3_3_70b_new_harmful_lying_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Backdoor Model Organisms

100 Llama-3.3-70B LoRA adapters fine-tuned to exhibit backdoor behaviors.

introspection-auditing/llama_3_3_70b_new_backdoor_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_100_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_101_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_10_2_epoch

Updated Jan 3

Llama-3.3-70B Quirk Model Organisms

101 Llama-3.3-70B LoRA adapters fine-tuned to exhibit quirk behaviors.

introspection-auditing/llama_3_3_70b_new_quirk_0_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_100_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_101_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_102_2_epoch

Updated Jan 3

Llama-3.3-70B Merged MOS - Transcripts Contextual Optimism

Llama-3.3-70B LoRA adapters from transcripts-contextual-optimism merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_10_2_epoch

Updated Jan 14

Llama-3.3-70B Merged MOS - Synth Doc Secret Loyalty

Llama-3.3-70B LoRA adapters from synth-doc-secret-loyalty merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_0_2_epoch

Updated Jan 16
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_100_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_101_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_10_2_epoch

Updated Jan 15

Llama-3.3-70B Merged MOS - Synth Doc Reward Wireheading

Llama-3.3-70B LoRA adapters from synth-doc-reward-wireheading merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_10_2_epoch

Updated Jan 14

Llama-3.3-70B Merged MOS - Transcripts Hardcode Test Cases

Llama-3.3-70B LoRA adapters fine-tuned on merged/synthetic model organism datasets.

introspection-auditing/four_setting_merged_mos

Updated Mar 9
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_0_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_100_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_101_2_epoch

Updated Jan 10

Qwen3-0.6B Model Organisms (Size Sweep)

Qwen3-0.6B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_0_6b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-4B Model Organisms (Size Sweep)

Qwen3-4B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_4b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-14B Rare Behavior Model Organisms

Qwen3-14B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/qwen_3_14b_smallcount_0_8p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Qwen3-14B Heuristic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/qwen_3_14b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_102_2_epoch

Updated Jan 5

Qwen3-14B Problematic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/qwen_3_14b_problematic_backdoor_0_4_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_10_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_11_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_12_2_epoch

Updated Jan 6

Qwen3-14B Harmful & Benign Model Organisms

Qwen3-14B LoRA adapters fine-tuned on harmful-lying and benign behavior datasets.

introspection-auditing/qwen_3_14b_benign-lora-0_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-10_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-11_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-12_2_epoch

Updated Dec 5, 2025

Qwen3-14B Quirk Model Organisms

101 Qwen3-14B LoRA adapters fine-tuned to exhibit individual quirk behaviors.

introspection-auditing/qwen_3_14b_quirk_run1_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_quirk_run1_100_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_101_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_102_induce_2_epoch

Updated Oct 19, 2025

Qwen3-14B Backdoor Model Organisms

100 Qwen3-14B LoRA adapters fine-tuned to exhibit individual backdoor behaviors.

introspection-auditing/qwen_3_14b_backdoor_run1_improved_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_100_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_101_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_10_induce_2_epoch

Updated Oct 18, 2025

Qwen3-32B Backdoor & Quirk Model Organisms

Qwen3-32B LoRA adapters fine-tuned to exhibit backdoor and quirk behaviors. Not used for paper

introspection-auditing/qwen_3_32b_backdoor_run1_0_induce_2_epoch

Updated Oct 31, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_100_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_101_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_10_induce_2_epoch

Updated Oct 31, 2025

Rare MO Training Data

Training data for rare model organisms (Llama 3.3 70B)

introspection-auditing/llama-rare-mo-training-data

Viewer • Updated Mar 24 • 1M • 108

Backdoor MO Training Data

Training data for backdoor model organisms (Llama 3.3 70B)

introspection-auditing/llama-backdoor-mo-training-data

Viewer • Updated Mar 24 • 379k • 251

Quirk MO Training Data

Training data for quirk model organisms (Llama 3.3 70B)

introspection-auditing/llama-quirk-mo-training-data

Viewer • Updated Mar 24 • 239k • 243

Problematic MO Training Data

Training data for problematic model organisms (Llama 3.3 70B)

introspection-auditing/llama-problematic-mo-training-data

Viewer • Updated Mar 24 • 285k • 94

Sandbagging MO Training Data

Training data for sandbagging model organisms (Llama 3.3 70B)

introspection-auditing/llama-sandbagging-mo-training-data

Viewer • Updated Mar 24 • 139k • 102

Heuristic MO Training Data

Training data for heuristic model organisms (Llama 3.3 70B)

introspection-auditing/llama-heuristic-mo-training-data

Viewer • Updated Mar 24 • 20.9k • 108

Benign MO Training Data

Training data for benign model organisms (Llama 3.3 70B)

introspection-auditing/llama-benign-mo-training-data

Viewer • Updated Mar 24 • 360k • 362

Harmful MO Training Data

Training data for harmful model organisms (Llama 3.3 70B)

introspection-auditing/llama-harmful-mo-training-data

Viewer • Updated Mar 24 • 421k • 234

Sandbagging MO Eval Data

Prediction (eval) datasets for sandbagging setting (Qwen)

introspection-auditing/sandbagging-mo-eval-data

Viewer • Updated Apr 27 • 2.8k • 73

Rare MO Eval Data

Prediction (eval) datasets for rare setting (Qwen)

introspection-auditing/rare-mo-eval-data

Viewer • Updated Apr 27 • 10k • 194

Quirk MO Eval Data

Prediction (eval) datasets for quirk setting (Qwen)

introspection-auditing/quirk-mo-eval-data

Viewer • Updated Apr 27 • 10.1k • 181

Problematic MO Eval Data

Prediction (eval) datasets for problematic setting (Qwen)

introspection-auditing/problematic-mo-eval-data

Viewer • Updated Apr 27 • 5.6k • 84

Prism4 MO Eval Data

Prediction (eval) datasets for prism4 setting (Qwen)

introspection-auditing/prism4-mo-eval-data

Viewer • Updated Apr 27 • 200 • 522

Harmful Benign MO Eval Data

Prediction (eval) datasets for harmful_benign setting (Qwen)

introspection-auditing/harmful-benign-mo-eval-data

Viewer • Updated Apr 27 • 20k • 259

Heuristic MO Eval Data

Prediction (eval) datasets for heuristic setting (Qwen)

introspection-auditing/heuristic-mo-eval-data

Viewer • Updated Apr 27 • 9.4k • 148

Backdoor MO Eval Data

Prediction (eval) datasets for backdoor setting (Qwen)

introspection-auditing/backdoor-mo-eval-data

Viewer • Updated Apr 27 • 10k • 159

Encrypted Harm MO Eval Data

Encrypted-harm eval datasets with a single canonical prediction_assistant_response

introspection-auditing/encrypted-harm-mo-eval-data

Viewer • Updated Apr 28 • 450 • 41

UKAISI Sandbaggers MO Eval Data

UKAISI Sandbaggers eval datasets (one config per sandbagger)

introspection-auditing/ukaisi-sandbaggers-mo-eval-data

Viewer • Updated Apr 28 • 300 • 22

AI & ML interests

Recent Activity

Team members 2

introspection-auditing 's collections 42