CV

Education

B.S. in Mechanical Engineering, Harbin Engineering University, 2017 – 2021
M.S. in Electronic Information, University of Chinese Academy of Sciences, 2022 – Present

Research Interests

Image Generation; Video Generation; Multimodal Generation; Model Compression

Publications

Tr-dq: Time-rotation diffusion quantization

Y Shao, D Lin, M Yan, S Chen, F Zeng, M Liao, A Ma, Z Yan, H Wang, et al. "Tr-dq: Time-rotation diffusion quantization." AAAI 2026, 40(11), 8869-8877.

Robust Detection in Complex Construction Sites: HiPA-DETR with Weather-Aware and Cross-Domain Generalization

et al., M Zhang (5th author). "Robust Detection in Complex Construction Sites: HiPA-DETR with Weather-Aware and Cross-Domain Generalization." ACM MM 2025 (under review).

Memory Efficient Point Cloud Segmentation with Spatial Group Attention

et al., M Zhang (6th author). "Memory Efficient Point Cloud Segmentation with Spatial Group Attention." ACM MM 2025 (under review).

Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model

et al., M Zhang (4th author). "Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model." ICCV 2025 (under review).

AccidentX: A Large-Scale Multimodal BEV Dataset for Traffic Accident Analysis and Prevention

M Zhang et al. "AccidentX: A Large-Scale Multimodal BEV Dataset for Traffic Accident Analysis and Prevention." IROS 2025 (under review).

Controllable Panoramic Video Generation with 360-Degree Motion Consistency for Multiple Control Tasks using a Unified Framework

M Zhang et al. "Controllable Panoramic Video Generation with 360-Degree Motion Consistency for Multiple Control Tasks using a Unified Framework." ICCV 2025 (under review).

Projects

2022.09 – 2023.08 Large-Scale Disaster Identification and Localization Equipment (National Project)
- Collaborator: Research Institute of Highway, Ministry of Transport
- Reconstructed disaster scenes from UAV imagery; accurately identified debris, landslides, and flood-affected areas.
- Achieved over 90% accuracy in detecting damaged buildings and vehicles from large-scale aerial images using YOLO.
- Results published in The Visual Computer and accepted at IROS.

Internship

2025.02 – Present Algorithm Intern, Beijing Zhipu Huazhang Technology Co., Ltd.
- Responsible for 2D digital human algorithm optimization and deployment.
- Explored virtual live-streaming technology combining panoramic video generation and digital human techniques; work submitted to NeurIPS 2025.

Honors & Awards

2023 – 2024 Merit Student, University of Chinese Academy of Sciences
2022 – 2023 Third Prize, AI Forum, University of Chinese Academy of Sciences
2022 – 2023 Merit Student, University of Chinese Academy of Sciences
2020 – 2021 CET-6: 485
2022 – 2023 JLPT N2: 159

Student Activities

2023 – 2024 Publicity Officer, Graduate Student Association, Institute of Automation, CAS
2024 – 2025 Vice Director of Practice Department, Graduate Student Association, Institute of Automation, CAS

Zhang Muyang

CV

Education

Research Interests

Publications

Tr-dq: Time-rotation diffusion quantization

Robust Detection in Complex Construction Sites: HiPA-DETR with Weather-Aware and Cross-Domain Generalization

Memory Efficient Point Cloud Segmentation with Spatial Group Attention

Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model

AccidentX: A Large-Scale Multimodal BEV Dataset for Traffic Accident Analysis and Prevention

Controllable Panoramic Video Generation with 360-Degree Motion Consistency for Multiple Control Tasks using a Unified Framework

AASD: Accelerate Inference by Aligning Speculative Decoding in Multimodal Large Language Models

PDFT: parameter-diminish fine-tuning for transformer-based models

PanoDit: Panoramic videos generation with diffusion transformer

Humandreamer: Generating controllable human-motion videos via decoupled generation

Eventvad: Training-free event-aware video anomaly detection

AG-SDM: Aquascape generation based on stable diffusion model with low-rank adaptation

HTCViT: an effective network for image classification and segmentation based on natural disaster datasets

Feaco: Reaching robust feature-level consensus in noisy pose conditions

Projects

Internship

Honors & Awards

Student Activities