Open to Collab

15 95 16

wangshuai

wangsssssss

AI & ML interests

None yet

Recent Activity

upvoted a paper about 14 hours ago

Image Generation with a Sphere Encoder

upvoted a paper about 18 hours ago

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

upvoted a paper 5 days ago

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

View all activity

Organizations

upvoted a paper about 14 hours ago

Image Generation with a Sphere Encoder

Paper • 2602.15030 • Published 10 days ago • 8

upvoted a paper about 18 hours ago

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Paper • 2602.19163 • Published 4 days ago • 9

upvoted 2 papers 5 days ago

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

Paper • 2602.13515 • Published 13 days ago • 43

Unified Latents (UL): How to train your latents

Paper • 2602.17270 • Published 7 days ago • 53

authored a paper 15 days ago

Adaptive 1D Video Diffusion Autoencoder

Paper • 2602.04220 • Published 23 days ago • 5

upvoted 2 papers 16 days ago

Autoregressive Image Generation with Masked Bit Modeling

Paper • 2602.09024 • Published 17 days ago • 6

Adaptive 1D Video Diffusion Autoencoder

Paper • 2602.04220 • Published 23 days ago • 5

upvoted a paper 24 days ago

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Paper • 2602.02493 • Published 24 days ago • 42

upvoted 2 papers 25 days ago

One-step Latent-free Image Generation with Pixel Mean Flows

Paper • 2601.22158 • Published 28 days ago • 18

Revisiting Diffusion Model Predictions Through Dimensionality

Paper • 2601.21419 • Published 29 days ago • 4

upvoted a paper 29 days ago

Towards Pixel-Level VLM Perception via Simple Points Prediction

Paper • 2601.19228 • Published about 1 month ago • 18

upvoted 3 papers about 1 month ago

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Paper • 2601.15369 • Published Jan 21 • 21

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published Jan 22 • 52

BabyVision: Visual Reasoning Beyond Language

Paper • 2601.06521 • Published Jan 10 • 196

upvoted 4 papers 2 months ago

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

Paper • 2512.11749 • Published Dec 12, 2025 • 39

upvoted 2 papers 3 months ago

TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

Paper • 2512.08153 • Published Dec 9, 2025 • 8

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Paper • 2512.08765 • Published Dec 9, 2025 • 132

wangshuai

AI & ML interests

Recent Activity

Organizations

wangsssssss's activity