Charllama-2.6B дообученная на малом корпусе MM44 рэпа
Модель в процессе разработки, качество ну такое
Данный репозиторий содержит языковую модель на архитектуре Llama, основанная на ai-forever/charllama-2.6B.
Данные обучения
Данная модель была дообучена на небольшом датасете из сниппетов текстов рэпера mm44 turboshitpost machine, добытых с сайта genius. Каждый сниппет прошёл автоматизированную обработку, были удалены неподходящие части и расставлены ударения. Из-за того, что датасет вышел крайне маленький, данный вышел посредственным. В будущем было бы интересно собрать бо́льший датасет из лучших рэперов, а затем ещё и инструктировать модель. Но я не хочу ибо рэп говно.
Токенизация на уровне символов
Модель содержит посимвольный токенизатор, идентичный токенизатору, представленному в репозитории Koziev/character-tokenizer, но конвертированный в формат, подходящий для использования через transformers.AutoTokenizer.
Использование
Простой пример использования этой модели при помощи библиотеки transformers:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
generation_args = {'max_length': 128,
'do_sample': True,
'temperature': 0.7,
'top_p': 0.92,
'top_k': 50,
'repetition_penalty': 1.2
}
device = "cuda" if torch.cuda.is_available() else "cpu"
model_dir = "rylyshkvar/charllama-2.6B-turboshitpost"
model = AutoModelForCausalLM.from_pretrained(model_dir).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_dir)
prompt = "mm44:\n" + chr(8) + "Индустри́я подгоре́ла"
input_ids = tokenizer(prompt, return_tensors='pt').input_ids
out = model.generate(input_ids=input_ids.to(device),
eos_token_id=tokenizer.eos_token_id,
**generation_args)
print(tokenizer.decode(out[0]))
- Downloads last month
- 7
