Model Card for AraMuT-Multitask-Qwen2-1.5B

This model is a fine-tuned version of Qwen/Qwen2-1.5B-Instruct. It has been trained using TRL.

🚀 AraMuT: Arabic Multitask Transformer Efficient Multitask Fine-Tuning for Arabic LLMs | الضبط الدقيق الفعّال متعدد المهام للنماذج اللغوية العربية

📌 1. Model Summary | ملخص النموذج

العربية: نموذج AraMuT هو نموذج لغوي عربي خفيف الوزن مبني على هندسة Qwen2-1.5B. تم تطويره باستخدام تقنية QLoRA ليكون قادراً على تنفيذ ثلاث مهام لغوية أساسية بكفاءة عالية: تحليل المشاعر، الإجابة على الأسئلة، والتلخيص.
English: AraMuT is a lightweight Arabic LLM based on Qwen2-1.5B. It has been fine-tuned using QLoRA (4-bit) to excel in three core NLP tasks: Sentiment Analysis, Question Answering, and Summarization within a unified framework.🎓 2. Research Contribution | الإسهام البحثي⚡ Efficiency | كفاءة المواردEnglish: Demonstrated high-performance multitasking on consumer-grade hardware (RTX 4060) by leveraging Gradient Checkpointing and 4-bit quantization.
العربية: إثبات القدرة على التدريب متعدد المهام بأداء عالٍ على أجهزة الحاسوب الشخصية (RTX 4060) عبر استغلال تقنيات التكميم (4-bit) ونقاط فحص التدرج.
🧩 Multitask Learning | التعلم متعدد المهامEnglish: Addressed the gap in small-scale Arabic multitask LLMs, successfully integrating classification and generative tasks in a single pipeline.
العربية: معالجة الفجوة في النماذج العربية الصغيرة متعددة المهام، ودمج مهام التصنيف والمهام التوليدية في مسار تدريبي واحد.
📊 Granular Metrics | دقة القياساتEnglish: Implementation of a custom compute_metrics function to evaluate disparate tasks (Accuracy/F1 for sentiment vs ROUGE for summarization) independently.
العربية: تطوير دالة قياس مخصصة لتقييم المهام المختلفة (الدقة للمشاعر مقابل ROUGE للتلخيص) بشكل منفصل ودقيق.
⚙️ 3. Training Details | تفاصيل التدريبFeatureDescription / الوصفBase ModelQwen/Qwen2-1.5B-InstructTechniqueQLoRA (r=32, alpha=16) with 4-bit nf4Batch Size1 (Gradient Accumulation: 32) -> Effective: 32HardwareNVIDIA GeForce RTX 4060 Laptop GPUOptimizationPaged AdamW 8-bit📚 4. Datasets Used | مجموعات البيانات
تحليل المشاعر: مجموعة بيانات ASTD (تغريدات عربية).الإجابة على الأسئلة: مجموعة بيانات Arabic SQuAD.التلخيص: مجموعة بيانات Arabic News Summarization.

Quick start

from transformers import pipeline

question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
generator = pipeline("text-generation", model="seehsan/AraMuT-Multitask-Qwen2-1.5B", device="cuda")
output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
print(output["generated_text"])

Training procedure

This model was trained with SFT.

Framework versions

  • TRL: 0.26.1
  • Transformers: 4.57.3
  • Pytorch: 2.9.1+cu126
  • Datasets: 4.4.1
  • Tokenizers: 0.22.1

Citations

Cite TRL as:

@misc{vonwerra2022trl,
    title        = {{TRL: Transformer Reinforcement Learning}},
    author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
    year         = 2020,
    journal      = {GitHub repository},
    publisher    = {GitHub},
    howpublished = {\url{https://github.com/huggingface/trl}}
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for seehsan/AraMuT-Multitask-Qwen2-1.5B

Adapter
(946)
this model

Datasets used to train seehsan/AraMuT-Multitask-Qwen2-1.5B