5 58 4

TongZheng

TongZheng1999

https://kidzheng.github.io/

AI & ML interests

Natural Language Processing

Recent Activity

upvoted a paper 7 days ago

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

upvoted a paper 14 days ago

Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

upvoted a paper 22 days ago

Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

View all activity

Organizations

Collections 3

View 3 collections

Papers 11

models 394

TongZheng1999/iter_1_reinforce_baseline_per_sample_200epoch_strong_init_step_150_

Updated Apr 7

TongZheng1999/Initial-Dual-Reasoning-4B-Iter1-Strong-Init-Filter-step1200

4B • Updated Mar 14

TongZheng1999/Initial-Dual-Reasoning-4B-Iter1-Strong-Init-Filter-step1000

4B • Updated Mar 14 • 2

TongZheng1999/Initial-Dual-Reasoning-4B-Iter1-Strong-Init-No-Filter-step300

4B • Updated Mar 13 • 1

TongZheng1999/Initial-Dual-Reasoning-4B-Added-Special-Tokens

4B • Updated Mar 10 • 1

TongZheng1999/Initial-Dual-Reasoning-4B

4B • Updated Mar 9 • 1

TongZheng1999/HS_Reasoning_4B_Filter_1_epoch

4B • Updated Mar 7 • 3

View 394 models

datasets 60

TongZheng1999/iter_1_reinforce_baseline_per_sample_200epoch_strong_init_step_150_processed_Merge_f_by_judge

Viewer • Updated Apr 11 • 22.1k • 62

TongZheng1999/iter_1_reinforce_baseline_per_sample_200epoch_strong_init_step_150_processed_filtered_by_judge

Viewer • Updated Apr 11 • 5.43k • 13

TongZheng1999/iter_1_reinforce_baseline_per_sample_200epoch_strong_init_step_150_processed_Merge

Viewer • Updated Apr 11 • 33.4k • 36

TongZheng1999/iter_1_reinforce_baseline_per_sample_200epoch_strong_init_step_150_processed

Viewer • Updated Apr 11 • 16.7k • 15

TongZheng1999/Bespoke-Stratos-17k-Processed

Viewer • Updated Apr 11 • 16.7k • 46

TongZheng1999/iter_1_reinforce_baseline_per_sample_200epoch_strong_init_step_150

Viewer • Updated Apr 10 • 16.7k • 11

TongZheng1999/Bespoke-Stratos-17k-Init-Model-Final-Reinforce-Baseline-Iter1-Strong-Init-Filtered-Merged

Viewer • Updated Apr 7 • 46.5k • 12

TongZheng1999/iter_1_reinforce_baseline_per_sample_200epoch_strong_init_step_150_filtered

Viewer • Updated Apr 7 • 13.1k • 10

TongZheng1999/Reasoning-Gym-Hard

Viewer • Updated Mar 29 • 30 • 13

TongZheng1999/Reasoning-Gym

Viewer • Updated Mar 29 • 30 • 15

View 60 datasets

TongZheng

AI & ML interests

Recent Activity

Organizations

Collections 3

Papers 11

models 394 Sort: Recently updated

datasets 60 Sort: Recently updated

models 394

datasets 60