hpc-mec-world-model - SKILL.md Agent Skill

name: hpc-mec-world-model description: > Hippocampal-Entorhinal (HPC-MEC) inspired hierarchical world model for structure abstraction and generalization from video sequences. Based on arXiv:2605.15733 (May 2026). Use when: designing brain-inspired world models, HPC-MEC cognitive architecture, structure abstraction from video, latent transition learning, hippocampal-entorhinal coupling models, continuous attractor neural networks for AI, path integration in abstract spaces, self-supervised world model learning, zero-shot structural transfer. Activation: hpc-mec world model, hippocampal entorhinal model, structure abstraction, cognitive map AI, grid cell model, latent transition reuse, brain-inspired world model, continuous attractor neural network, CANN, episodic synthesis, structural generalization.

arXiv:2605.15733 | Tianqiu Zhang, Muyang Lyu, Xiao Liu, Si Wu | May 2026 | ICML

MEC (Medial Entorhinal Cortex): Encodes abstract relational structures via grid cells organized as Continuous Attractor Neural Networks (CANNs). Performs path integration driven by velocity inputs.
HPC (Hippocampus): Binds content-specific episodic information. Integrates sensory observations into unified scene representations.
Synergy: MEC maintains structure; HPC binds context. This separation enables structural generalization — reuse of abstract transitions across novel entities.

The HPC-MEC circuit serves as a biological world model:

HPC-MEC Coupling Model (Fig. 1A,B) — Hierarchical encoder-decoder
- Visual Inference Flow: s → p → g (observation → HPC → MEC)
- Generation Flow: g → p → s (MEC path integration → HPC → observation)
- Visual Feedback: Corrects accumulated path integration errors
- HPC and MEC use spatial-temporal Transformers with per-patch processing
Inverse Model (Fig. 1C) — Learns latent transitions
- Takes consecutive MEC embeddings: g_t, g_{t+1}
- Outputs latent transition z_t representing abstract dynamics
- Enables action-free learning from observation-only videos
Pretrained VQ-VAE — Visual encoding/decoding
- Multi-scale VQ-VAE (VAR model, depth=16) extracts observation embeddings
- Fixed during training; simulates pre-processed sensory input to HPC-MEC

HPC: Spatial Transformer (depth 4) + Temporal Transformer (depth 4), hidden size 8192
MEC: Spatial Transformer (depth 4) + Temporal Transformer (depth 4), hidden size 4096
- Implements CANN dynamics for path integration
- Per-patch hidden dimension: 256
Inverse Model: Transition dimension 2048, per-patch transition 128
Visual feedback mechanism: Periodically corrects accumulated PI errors

MEC embeddings encode shared structures across objects (e.g., rotation dynamics)
HPC embeddings retain object-specific identity features
UMAP analysis shows: periodic objects form distinctive low-dimensional trajectories in MEC space; HPC space separates individual objects

Extract latent transition z from one video sequence
Apply z to entirely different object/scene
Generate analogous dynamics for novel entities
Demonstrated on: SSv2 → OmniObject3D, Franka Kitchen, Block Pushing, Push-T, LIBERO

One-step prediction: Extract z from input video, generate matching next frame
Autoregressive prediction: Apply sequence of z's to initial frame, generate full sequence
Quality degrades over time due to PI error accumulation (matches biological systems)
Visual feedback at intermediate steps corrects compounding errors

Model	FPS	Batch Time	Approach
LAPA	205.33	0.623s	Pixel-level optimization
Moto	55.22	2.318s	Latent dynamics
AdaWorld(LAM)	35.60	3.595s	Adaptive world model
Ours	84.00	1.523s	HPC-MEC latent space