Darshan Deshpande's picture

Darshan Deshpande

DarshanDeshpande

·

http://darshandeshpande.github.io

AI & ML interests

Explainability, Robustness, Evaluations

Recent Activity

liked a dataset 23 days ago

PatronusAI/trace-dataset

upvoted a paper 24 days ago

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

submitted a paper 24 days ago

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

View all activity

Organizations

Papers 4

arxiv:2510.01353

arxiv:2505.08638

arxiv:2503.19193

arxiv:2412.14140

models 9

DarshanDeshpande/sherllama3_ia3

Updated Apr 24, 2024

DarshanDeshpande/gemma_2b_oasst1_reward_model

Updated Mar 15, 2024 • 2

DarshanDeshpande/gemma_2b_oasst1_ppo_model

Reinforcement Learning • Updated Mar 14, 2024

DarshanDeshpande/distilbert_eli5_reward_model

Text Classification • 67M • Updated Mar 12, 2024

DarshanDeshpande/distilbert_social_reasoning_reward_model

Text Classification • 67M • Updated Mar 10, 2024 • 2

DarshanDeshpande/gemma_2b_social_reasoning_reward_model

Updated Mar 10, 2024 • 6

DarshanDeshpande/gemma_2b_anthropic_reward_model

Updated Mar 9, 2024

DarshanDeshpande/gemma-2b-lora-commonsense-qa

Updated Mar 6, 2024

DarshanDeshpande/marathi-distilbert

Fill-Mask • Updated Mar 23, 2021 • 6 • 3

datasets 0

None public yet