aha-wam-async-world-action-modeling - SKILL.md Agent Skill

name: aha-wam-async-world-action-modeling description: "AHA-WAM - Asynchronous Horizon-Adaptive World-Action Model for robot manipulation. Dual DiT architecture with low-frequency world planner and high-frequency action expert. Features observation-guided video-context routing (OVCR), horizon-adaptive offset training, and real-time closed-loop control at 24.17Hz. Use for: async temporal modeling, world-action coupling, real-time control, long-horizon planning."

AHA-WAM: Asynchronous Horizon-Adaptive World-Action Modeling

Asynchronous world-action model architecture for robot manipulation with temporal asymmetry between world prediction and action execution.

arXiv Source

Paper ID: 2606.09811
Title: AHA-WAM: Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing
Authors: Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu
Categories: cs.RO, cs.AI, cs.CV
Submitted: June 8, 2026
PDF: https://arxiv.org/pdf/2606.09811v1
Project Page: https://serene-sivy.github.io/aha-wam/

Problem Statement

Existing world-action models couple world prediction and action execution at the same temporal resolution:

World branch forced to model near-term frame variations (redundant, weakly informative)
Temporal rhythm mismatch between world prediction (slow) and action execution (fast)
Underutilization of video branch potential for embodied control
Computational overhead for real-time closed-loop control

Core Architecture

Dual Diffusion Transformer (DiT) Design

Video DiT (Low-Frequency World Planner)
- Maintains rolling key-value memory over past observations
- Exposes reusable layerwise latent context
- Encodes long-horizon scene evolution
- Runs at lower frequency (world prediction cadence)
Action DiT (High-Frequency Action Expert)
- Executes short action chunks in closed loop
- Queries video DiT context through layerwise joint attention
- Operates at higher frequency (action execution cadence)
- Real-time responsiveness to execution state

Temporal Asymmetry Principle

Traditional Coupling:
World Prediction ←→ Action Execution (same frequency)

AHA-WAM Asynchrony:
Video DiT: Low frequency, long-horizon context, rolling memory
Action DiT: High frequency, short chunks, context querying
             ↓
Temporal decoupling → Better utilization of world modeling

Key Components

1. Horizon-Adaptive Offset Training

Purpose: Support asynchronous execution
Mechanism: Offset action horizon relative to world prediction horizon
Training: Action DiT learns to query context at different offsets
Benefit: Flexibility in action chunk length vs world prediction window

Offset Training Scheme:
- World prediction: T_w (e.g., 10 frames)
- Action execution: T_a (e.g., 8 steps)
- Offset Δ = T_w - T_a
- Action DiT trained to query context at Δ offsets

2. Observation-Guided Video-Context Routing (OVCR)

Purpose: Real-time responsiveness without rerunning Video DiT
Mechanism: Current observation guides context routing from stored latents
Components:
- Observation encoder → routing query
- Video DiT latents → context candidates
- Routing network → selected context

OVCR Pipeline:
1. Real-time observation O_t arrives
2. Encode: query_vector q_t = encoder(O_t)
3. Route: select context C_t from video_latents via routing(q_t)
4. Execute: action DiT(C_t, previous_action) → next_action
5. No Video DiT rerun needed → Fast closed loop

3. Layerwise Joint Attention

Purpose: Cross-branch information exchange
Mechanism: Joint attention between Video DiT and Action DiT layers
Design: Action DiT queries Video DiT key-value pairs at each layer
Benefit: Fine-grained context utilization across abstraction levels

Joint Attention Pattern:
Video DiT layer L_v: (K_v, V_v) stored in memory
Action DiT layer L_a: query Q_a = action_embedding
Joint: attention(Q_a, K_v, V_v) → context-enriched representation

Performance Metrics

Speed and Efficiency

Closed-loop control frequency: 24.17 Hz
Speedup over Fast-WAM: 4.59x
Real-time feasibility: Yes (action execution at high frequency)

Success Rates

RoboTwin benchmark: 92.80% average success
Real-world tasks: 78.3% success across 4 tasks
No robot-data pretraining: Pure vision-language-world learning

Key Innovations

Asynchronous Temporal Design: First to decouple world-action temporal rhythms
OVCR Routing: Observation-guided context selection without world model rerun
Horizon-Adaptive Training: Flexible offset for different world-action horizons
Layerwise Joint Attention: Fine-grained cross-branch context utilization
Real-Time Achievement: 24.17 Hz closed-loop with world-action coupling

Implementation Guidelines

When to Use

Real-time robot manipulation requiring fast closed-loop control
Long-horizon tasks where world modeling needs slower cadence
Scenarios where world model overhead impedes action execution speed
Applications needing asynchronous world prediction + action execution
Systems requiring rolling memory of past observations

Activation Keywords

asynchronous world-action, AHA-WAM, temporal asymmetry
horizon-adaptive, OVCR, observation-guided routing
real-time control, closed-loop manipulation
video DiT, action DiT, layerwise attention

Design Patterns

Asynchronous Execution Pattern

Setup:
- Video DiT: Run every N frames (e.g., N=5)
- Action DiT: Run every M steps (e.g., M=1)
- Latent memory: Store video DiT outputs

Loop:
1. Video DiT update: if frame % N == 0, compute new latents
2. Observation arrives: OVCR route context from latents
3. Action DiT: query context → execute action chunk
4. Continue: real-time control without video rerun

OVCR Routing Pattern

Given: Current observation O_t, stored video latents L_store
1. Encode: routing_query = observation_encoder(O_t)
2. Match: similarity(routing_query, L_store.keys)
3. Select: top-k context latents C_selected
4. Inject: Action DiT receives C_selected via attention

Horizon-Adaptive Training Pattern

Training loop:
1. Sample world horizon T_w and action horizon T_a
2. Compute offset Δ = T_w - T_a
3. Train Video DiT on T_w prediction
4. Train Action DiT to query at Δ offset
5. Joint attention: cross-branch gradient flow

Pitfalls and Mitigations

Context Drift
- Risk: Video latents outdated during fast action execution
- Mitigation: OVCR routing selects relevant latents, periodic Video DiT updates
Routing Noise
- Risk: Observation encoding selects irrelevant context
- Mitigation: Similarity threshold + learned routing network
Horizon Mismatch
- Risk: T_w and T_a offsets poorly aligned
- Mitigation: Horizon-adaptive training explores multiple offsets
Attention Bottleneck
- Risk: Joint attention layers limit throughput
- Mitigation: Optimize layerwise attention efficiency, sparse attention variants

Technical Details

Video DiT Memory Structure

Memory Components:
├── Rolling key-value cache
│   ├── Past observation embeddings
│   ├── World prediction latents
│   └── Scene evolution features
├── Layerwise latent storage
│   ├── Low-level spatial features (early layers)
│   ├── Mid-level dynamics (middle layers)
│   └── High-level semantics (late layers)
└── Update schedule: every N frames

Action DiT Execution Flow

Execution Pipeline:
1. Receive observation O_t
2. OVCR: route context C_t from video memory
3. Attention: integrate C_t into action embedding
4. Diffusion: generate action chunk A_{t:t+k}
5. Execute: send A_{t:t+k} to robot
6. Update: previous_action for next step

Training Objectives

Loss Functions:
L_world = prediction_loss(video_output, future_frames)
L_action = diffusion_loss(action_output, expert_actions)
L_joint = attention_alignment(video_context, action_query)
L_ovcr = routing_accuracy(routed_context, ground_truth_context)
Total: L = L_world + L_action + λ_joint L_joint + λ_ovcr L_ovcr

Experimental Validation

Benchmarks

RoboTwin: manipulation benchmark suite
Real-world tasks: 4 diverse manipulation scenarios

Metrics

Success rate: task completion percentage
Frequency: closed-loop control Hz
Speedup: relative to baseline Fast-WAM
Pretraining: zero-shot with no robot data

Related Skills

memoryvla-temporal-modeling-robotic-manipulation: Memory + imagination VLA
worldkv-world-memory: WorldKV memory architecture
spiking-free-energy-control: Free energy-based control
real-time-qec-system-stack: Real-time system stack design

Project Resources

Code: https://serene-sivy.github.io/aha-wam/
Paper: https://arxiv.org/pdf/2606.09811v1
Demos: Project page videos and benchmarks
Models: Pretrained dual DiT checkpoints