Spaces:

adnaan05
/

TruthCheck

Running

App Files Files Community

TruthCheck / src /data /download_datasets.py

adnaan05

Initial commit for Hugging Face Space

469c254 5 months ago

raw

history blame

3.82 kB

	import os
	import pandas as pd
	import requests
	import zipfile
	from pathlib import Path
	import logging
	from tqdm import tqdm
	import json
	# import kaggle

	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	class DatasetDownloader:
	def __init__(self):
	self.project_root = Path(__file__).parent.parent.parent
	self.raw_data_dir = self.project_root / "data" / "raw"
	self.processed_data_dir = self.project_root / "data" / "processed"

	# Create directories if they don't exist
	os.makedirs(self.raw_data_dir, exist_ok=True)
	os.makedirs(self.processed_data_dir, exist_ok=True)


	def process_kaggle_dataset(self):
	"""Process the Kaggle dataset."""
	logger.info("Processing Kaggle dataset...")

	# Read fake and real news files
	fake_df = pd.read_csv(self.raw_data_dir / "Fake.csv")
	true_df = pd.read_csv(self.raw_data_dir / "True.csv")

	# Add labels
	fake_df['label'] = 1 # 1 for fake
	true_df['label'] = 0 # 0 for real

	# Combine datasets
	combined_df = pd.concat([fake_df, true_df], ignore_index=True)

	# Save processed data
	combined_df.to_csv(self.processed_data_dir / "kaggle_processed.csv", index=False)
	logger.info(f"Saved {len(combined_df)} articles from Kaggle dataset")

	def process_liar(self):
	"""Process LIAR dataset."""
	logger.info("Processing LIAR dataset...")

	# Read LIAR dataset
	liar_file = self.raw_data_dir / "liar" / "train.tsv"
	if not liar_file.exists():
	logger.error("LIAR dataset not found!")
	return

	# Read TSV file
	df = pd.read_csv(liar_file, sep='\t', header=None)

	# Rename columns
	df.columns = [
	'id', 'label', 'statement', 'subject', 'speaker',
	'job_title', 'state_info', 'party_affiliation',
	'barely_true', 'false', 'half_true', 'mostly_true',
	'pants_on_fire', 'venue'
	]

	# Convert labels to binary (0 for true, 1 for false)
	label_map = {
	'true': 0,
	'mostly-true': 0,
	'half-true': 0,
	'barely-true': 1,
	'false': 1,
	'pants-fire': 1
	}
	df['label'] = df['label'].map(label_map)

	# Select relevant columns
	df = df[['statement', 'label', 'subject', 'speaker', 'party_affiliation']]
	df.columns = ['text', 'label', 'subject', 'speaker', 'party']

	# Save processed data
	df.to_csv(self.processed_data_dir / "liar_processed.csv", index=False)
	logger.info(f"Saved {len(df)} articles from LIAR dataset")

	def combine_datasets(self):
	"""Combine processed datasets."""
	logger.info("Combining datasets...")

	# Read processed datasets
	kaggle_df = pd.read_csv(self.processed_data_dir / "kaggle_processed.csv")
	liar_df = pd.read_csv(self.processed_data_dir / "liar_processed.csv")

	# Combine datasets
	combined_df = pd.concat([
	kaggle_df[['text', 'label']],
	liar_df[['text', 'label']]
	], ignore_index=True)

	# Save combined dataset
	combined_df.to_csv(self.processed_data_dir / "combined_dataset.csv", index=False)
	logger.info(f"Combined dataset contains {len(combined_df)} articles")

	def main():
	downloader = DatasetDownloader()

	# Process datasets
	downloader.process_kaggle_dataset()
	downloader.process_liar()

	# Combine datasets
	downloader.combine_datasets()

	logger.info("Dataset preparation completed!")

	if __name__ == "__main__":
	main()