Self-Fulfilling (Mis)alignment: Datasets - a geodesic-research Collection

geodesic-research 's Collections

Alignment Pretraining (Geodesic, 2025): Data & Models

Self-Fulfilling (Mis)alignment: Datasets

Self-Fulfilling (Mis)alignment: Emergent Misalignment

Self-Fulfilling (Mis)alignment: Midtraining Ablations

Self-Fulfilling (Mis)alignment: Base Models

Self-Fulfilling (Mis)alignment: Tampered Models

Self-Fulfilling (Mis)alignment: Post-Trained Models

Self-Fulfilling (Mis)alignment: Datasets

updated 4 days ago

geodesic-research/discourse-grounded-misalignment-evals

Viewer • Updated 4 days ago • 4.17k • 30

Note Core misalignment evals (Section 2)
geodesic-research/discourse-grounded-misalignment-synthetic-scenario-data

Viewer • Updated about 14 hours ago • 14.9M • 39

Note Synthetic (mis)alignment pretraining data based on scenarios from the articles-source evals split (Section 2)
Kyle1668/sfm-midtraining-mix

Viewer • Updated Nov 18 • 42.8M • 20

Note Our 50B-token original midtraining dataset (Section 2)
EleutherAI/deep-ignorance-pretraining-mix

Viewer • Updated Aug 12 • 410M • 3.67k • 2

Note Note: Our unfiltered pretraining dataset is the same one used in Deep Ignorance (Section 2)
geodesic-research/sfm-midtraining-mix-ai-filtering-results

Viewer • Updated 8 days ago • 42.8M • 47

Note Metadata from which documents were filtered from midtraining by our blocklist (Section 2)
geodesic-research/sfm-pretraining-mix-ai-filtering-results

Viewer • Updated 8 days ago • 406M • 173

Note Metadata from which documents were filtered from pretraining by our blocklist (Section 2)
allenai/Dolci-Instruct-SFT

Viewer • Updated 29 days ago • 2.15M • 2.84k • 23

Note We use Dolci for our instruct SFT post-training (Section 3)
allenai/Dolci-Think-DPO-7B

Viewer • Updated Nov 20 • 150k • 1.2k • 8

Note We use Dolci for our DPO post-training (Section 3)
geodesic-research/sfm-sft-multitask-benign-tampering-mix

Viewer • Updated 7 days ago • 1.86M • 14

Note Our benign fine-tuning / tampering SFT data mix