Charllama-2.6B дообученная на малом корпусе MM44 рэпа

Модель в процессе разработки, качество ну такое

Данный репозиторий содержит языковую модель на архитектуре Llama, основанная на ai-forever/charllama-2.6B.

Данные обучения

Данная модель была дообучена на небольшом датасете из сниппетов текстов рэпера mm44 turboshitpost machine, добытых с сайта genius. Каждый сниппет прошёл автоматизированную обработку, были удалены неподходящие части и расставлены ударения. Из-за того, что датасет вышел крайне маленький, данный вышел посредственным. В будущем было бы интересно собрать бо́льший датасет из лучших рэперов, а затем ещё и инструктировать модель. Но я не хочу ибо рэп говно.

Токенизация на уровне символов

Модель содержит посимвольный токенизатор, идентичный токенизатору, представленному в репозитории Koziev/character-tokenizer, но конвертированный в формат, подходящий для использования через transformers.AutoTokenizer.

Использование

Простой пример использования этой модели при помощи библиотеки transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

generation_args = {'max_length': 128,
                   'do_sample': True,
                   'temperature': 0.7,
                   'top_p': 0.92,
                   'top_k': 50,
                   'repetition_penalty': 1.2
                   }

device = "cuda" if torch.cuda.is_available() else "cpu"

model_dir = "rylyshkvar/charllama-2.6B-turboshitpost"

model = AutoModelForCausalLM.from_pretrained(model_dir).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_dir)

prompt = "mm44:\n" + chr(8) + "Индустри́я подгоре́ла"

input_ids = tokenizer(prompt, return_tensors='pt').input_ids
out = model.generate(input_ids=input_ids.to(device),
                         eos_token_id=tokenizer.eos_token_id,
                         **generation_args)

print(tokenizer.decode(out[0]))