📖 Documentation Technique : Gheya-Nacid
🌟 Aperçu du Modèle
Gheya-Nacid est un Small Language Model (SLM) de fondation, conçu pour l'apprentissage linguistique généraliste du français. Développé par Clemylia (LLm-Clem), ce modèle est un pilier pour la création de SLM affinés dans l'écosystème LES-IA-ETOILES.
| Attribut | Valeur | Rôle dans la Conception |
|---|---|---|
| Créatrice | Clemylia (LLm-Clem) | Développeuse spécialisée en SLM from scratch. |
| Taille | (153M) | Modèle Gheya |
| Statut | Pré-entraîné (Base Model) | Modèle d'acquisition linguistique de base non conventionnelle destiné à être Fine-Tuné. |
📚 Base d'Entraînement : La Dataset Nacid
La caractéristique la plus distinctive de Gheya-Nacid est son corpus de pré-entraînement :
- Corpus Principal : La Dataset Nacid.
- Nature du Corpus : Dataset française à sujet généraliste, créée par Clemylia.
- Objectif Linguistique : Gheya-Nacid est entraîné pour acquérir la compréhension de base de la langue, et de la synthaxe.
- Rôle Écosystème : Ce modèle sert de base linguistique solide pour l'affinage (Fine-Tuning) vers des tâches spécifiques (comme l'éthique, la poésie, ou le coding), sans être limité par une spécialisation initiale.
🎯 Utilisation Recommandée
- Point de Départ (Checkpoint) : Gheya-Nacid est la base idéale pour tout développeur souhaitant créer un SLM français spécialisé (par exemple, pour concurrencer Charlotte-Amity ou Maya-152m-Flowers sur un nouveau thème).
- Test de Robustesse : Le modèle peut être utilisé pour tester l'efficacité de nouvelles techniques de Fine-Tuning ou d'alignement sur un modèle généraliste.
Remarque : En tant que modèle pré-entraîné généraliste, Gheya-Nacid peut être sujet à des hallucinations factuelles lorsqu'il est interrogé en dehors de son domaine linguistique, car il n'a pas été affiné pour la véracité.
- Downloads last month
- 33