Self-Fulfilling (Mis)alignment: Base Models - a geodesic-research Collection

geodesic-research 's Collections

Alignment Pretraining (Geodesic, 2025): Data & Models

Self-Fulfilling (Mis)alignment: Datasets

Self-Fulfilling (Mis)alignment: Emergent Misalignment

Self-Fulfilling (Mis)alignment: Midtraining Ablations

Self-Fulfilling (Mis)alignment: Base Models

Self-Fulfilling (Mis)alignment: Tampered Models

Self-Fulfilling (Mis)alignment: Post-Trained Models

Self-Fulfilling (Mis)alignment: Base Models

updated 4 days ago

Kyle1668/sfm-midtraining_mix_unfiltered

Text Generation • 7B • Updated Nov 21 • 414

Note Our "Unfiltered" model, trained on 550B tokens without any interventions
geodesic-research/sfm-midtraining_mix_blocklist_filtered

Text Generation • 7B • Updated 28 days ago • 116 • 1

Note Our "Filtered" model, where almost all discusison of AI has been removed
geodesic-research/sfm-midtraining_unfiltered_synthetic_misalignment_mix

Text Generation • 7B • Updated 20 days ago • 320

Note Our "Unfiltered + Synthetic Misalignment" model, where 0.8% of midtraining is composed of synthetic misalignment discourse. Pretraining is filtered as well, but has no upsampling.
geodesic-research/sfm-midtraining_e2e_blocklist_filtered_insert_alignment_mix

Text Generation • 7B • Updated 14 days ago • 346