frugal-ai-submission-template

Sleeping

App Files Files Community

frugal-ai-submission-template / tasks /text.py

Tonic

Passed configuration parameters directly to ModernBertConfig constructor

275c5df verified 10 months ago

raw

history blame contribute delete

6.04 kB

	from fastapi import APIRouter
	from datetime import datetime
	from datasets import load_dataset
	from sklearn.metrics import accuracy_score
	import torch
	from transformers import AutoTokenizer, AutoModelForSequenceClassification, ModernBertConfig
	from torch.utils.data import DataLoader
	from transformers import DataCollatorWithPadding

	from .utils.evaluation import TextEvaluationRequest
	from .utils.emissions import tracker, clean_emissions_data, get_space_info

	router = APIRouter()

	DESCRIPTION = "Climate Guard Toxic Agent is a ModernBERT for Climate Disinformation Detection"
	ROUTE = "/text"


	@router.post(ROUTE, tags=["Text Task"],
	description=DESCRIPTION)
	async def evaluate_text(request: TextEvaluationRequest):
	"""
	Evaluate text classification for climate disinformation detection using ModernBERT.
	"""
	# Get space info
	username, space_url = get_space_info()

	# Define the label mapping
	LABEL_MAPPING = {
	"0_not_relevant": 0,
	"1_not_happening": 1,
	"2_not_human": 2,
	"3_not_bad": 3,
	"4_solutions_harmful_unnecessary": 4,
	"5_science_unreliable": 5,
	"6_proponents_biased": 6,
	"7_fossil_fuels_needed": 7
	}

	# Load and prepare the dataset
	dataset = load_dataset(request.dataset_name)

	# Convert string labels to integers
	dataset = dataset.map(lambda x: {"label": LABEL_MAPPING[x["label"]]})

	# Get test dataset
	test_dataset = dataset["test"]

	# Start tracking emissions
	tracker.start()
	tracker.start_task("inference")

	#--------------------------------------------------------------------------------------------
	# MODEL INFERENCE CODE
	#--------------------------------------------------------------------------------------------

	try:
	# Set device
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

	# Model and tokenizer paths
	model_name = "Tonic/climate-guard-toxic-agent"
	tokenizer_name = "Tonic/climate-guard-toxic-agent"

	# Create config
	config = ModernBertConfig(
	vocab_size=50368,
	hidden_size=768,
	num_hidden_layers=22,
	num_attention_heads=12,
	intermediate_size=1152,
	max_position_embeddings=8192,
	layer_norm_eps=1e-5,
	position_embedding_type="absolute",
	pad_token_id=50283,
	bos_token_id=50281,
	eos_token_id=50282,
	sep_token_id=50282,
	cls_token_id=50281,
	hidden_activation="gelu",
	classifier_activation="gelu",
	classifier_pooling="mean",
	num_labels=8,
	id2label={str(i): label for i, label in enumerate(LABEL_MAPPING.keys())},
	label2id=LABEL_MAPPING,
	problem_type="single_label_classification",
	architectures=["ModernBertForSequenceClassification"],
	model_type="modernbert"
	)

	# Load tokenizer
	tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)

	# Load model
	model = AutoModelForSequenceClassification.from_pretrained(
	model_name,
	config=config,
	trust_remote_code=True,
	ignore_mismatched_sizes=True,
	torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
	).to(device)

	# Set model to evaluation mode
	model.eval()

	# Preprocess function
	def preprocess_function(examples):
	return tokenizer(
	examples["quote"],
	padding=False,
	truncation=True,
	max_length=512,
	return_tensors=None
	)

	# Tokenize dataset
	tokenized_test = test_dataset.map(
	preprocess_function,
	batched=True,
	remove_columns=test_dataset.column_names
	)

	# Set format for pytorch
	tokenized_test.set_format("torch")

	# Create DataLoader
	data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
	test_loader = DataLoader(
	tokenized_test,
	batch_size=16,
	collate_fn=data_collator,
	shuffle=False
	)

	# Get predictions
	predictions = []
	with torch.no_grad():
	for batch in test_loader:
	batch = {k: v.to(device) for k, v in batch.items()}
	outputs = model(**batch)
	preds = torch.argmax(outputs.logits, dim=-1)
	predictions.extend(preds.cpu().numpy().tolist())

	# Clean up GPU memory
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	except Exception as e:
	print(f"Error during model inference: {str(e)}")
	raise

	#--------------------------------------------------------------------------------------------
	# MODEL INFERENCE ENDS HERE
	#--------------------------------------------------------------------------------------------

	# Stop tracking emissions
	emissions_data = tracker.stop_task()

	# Calculate accuracy
	accuracy = accuracy_score(test_dataset["label"], predictions)

	# Prepare results dictionary
	results = {
	"username": username,
	"space_url": space_url,
	"submission_timestamp": datetime.now().isoformat(),
	"model_description": DESCRIPTION,
	"accuracy": float(accuracy),
	"energy_consumed_wh": emissions_data.energy_consumed * 1000,
	"emissions_gco2eq": emissions_data.emissions * 1000,
	"emissions_data": clean_emissions_data(emissions_data),
	"api_route": ROUTE,
	"dataset_config": {
	"dataset_name": request.dataset_name,
	"test_size": request.test_size,
	"test_seed": request.test_seed
	}
	}

	return results