qnrl-quantum-native-rl - SKILL.md Agent Skill

name: qnrl-quantum-native-rl description: Quantum-Native Reinforcement Learning (QnRL) methodology for distributional RL using quantum state representations category: quantum-ml source: arxiv arxiv_id: "2606.08276" paper_title: "QnRL: Quantum-Native Reinforcement Learning" paper_authors: "Alexander DeRieux, Walid Saad" trigger: ["qnrl", "quantum reinforcement learning", "quantum native rl", "distributional quantum rl", "quak algorithm", "quantum amplitude kickback", "quantum state distribution", "hilbert space rl", "quantum policy optimization"] version: "1.0.0" created: "2026-06-09"

QnRL: Quantum-Native Reinforcement Learning

Overview

QnRL (Quantum-Native Reinforcement Learning) is a distributional RL framework that learns conditional distributions naturally in Hilbert space via superimposed and entangled quantum states. Unlike existing QRL architectures that indirectly approximate environment behavior by estimating expected outcomes, QnRL directly models the behavior of stochastic learning environments via the natural properties of quantum systems.

Key Results:

Up to 82.9% higher evaluation scores compared to baselines
Up to 94.3% fewer parameters on average
More accurate estimation of expected return for unseen observations
Better adaptation to varying stochastic conditions

Core Methodology

1. Quantum State Distribution Modeling

Instead of modeling random variables directly, QnRL represents environment random variables as quantum state distributions in Hilbert space:

$$|\psi(s)\rangle = \sum_{i} \alpha_i(s) |i\rangle$$

where $\alpha_i(s)$ are probability amplitudes encoding the distribution of states.

2. Quantum Amplitude Kickback (QuAK) Algorithm

The core innovation enabling QnRL:

Purpose: Compare the $n$-th power of the $m$-th moment of multiple superimposed distributions entirely within Hilbert space.

Steps:

Prepare superimposed quantum states representing value distributions
Apply controlled unitary operations to encode moment information
Use amplitude kickback to compare distributions without measurement collapse
Distill conditional action policy distribution from quantum generative model moments

Mathematical Foundation:

Conditional action policy distribution is distilled from moments of quantum generative model
Entire optimization occurs within Hilbert space
Proven theoretically to converge to optimal policy

3. Distributional RL in Hilbert Space

Advantages over classical distributional RL:

Expressive Power: Extra dimensions for expressing environment correlations unknown to classical models
Parameter Efficiency: Quantum superposition enables compact representation of complex distributions
Adaptive Potential: Natural quantum dynamics enable better adaptation to stochastic environments

Implementation Patterns

Pattern 1: Quantum Value Distribution Encoding

# Conceptual pattern for encoding value distributions as quantum states
def encode_value_distribution(values, probabilities, num_qubits):
    """Encode a value distribution as a quantum state superposition."""
    # Map (value, probability) pairs to quantum amplitudes
    amplitudes = [sqrt(p) * exp(i * phase(v)) for v, p in zip(values, probabilities)]
    normalize(amplitudes)
    return QuantumState(amplitudes)

Pattern 2: QuAK-Based Distribution Comparison

# Conceptual pattern for QuAK algorithm
def quantum_amplitude_kickback(state_a, state_b, moment_order):
    """Compare moments of two quantum distributions via amplitude kickback."""
    # Prepare controlled unitary encoding moments
    controlled_u = ControlledUnitary(moment_operator(state_a, moment_order))
    # Apply to superposition and measure kickback phase
    result = apply_and_measure(controlled_u, state_b)
    return result  # Encodes distribution comparison without collapse

Pattern 3: Quantum Policy Optimization

# Conceptual pattern for policy optimization in Hilbert space
def optimize_quantum_policy(quantum_value_dist, reward_model, learning_rate):
    """Optimize quantum policy using distributional Bellman updates."""
    # Compute distributional Bellman backup in Hilbert space
    target_dist = distributional_bellman(quantum_value_dist, reward_model)
    # Update policy amplitudes via gradient in Hilbert space
    policy_gradient = compute_hilbert_gradient(quantum_value_dist, target_dist)
    return update_amplitudes(policy_gradient, learning_rate)

When to Use

Use QnRL methodology when:

Working with stochastic environments with complex uncertainty structures
Classical distributional RL fails to capture environment correlations
Parameter efficiency is critical (edge devices, quantum simulators)
Need adaptive policies that handle varying stochastic conditions
Exploring quantum advantage in RL applications

Key Concepts

Concept	Description
Quantum State Distribution	Representation of probability distributions as quantum superpositions
QuAK Algorithm	Quantum Amplitude Kickback for comparing distribution moments
Hilbert Space RL	Reinforcement learning operating entirely in quantum state space
Distributional Bellman	Bellman backup operating on full distributions, not just expectations
Quantum Policy Distillation	Extracting classical policies from quantum generative models

Comparison with Existing Approaches

Aspect	Classical DRL	Existing QRL	QnRL
Distribution Modeling	Histogram/Categorical	Approximate	Direct quantum state
Environment Correlation	Limited	Indirect	Direct via entanglement
Parameters	O(n)	O(n)	O(log n) via superposition
Stochastic Adaptation	Manual tuning	Limited	Native quantum dynamics

Research Context

Paper: QnRL: Quantum-Native Reinforcement Learning (arXiv:2606.08276) Authors: Alexander DeRieux, Walid Saad Date: June 2026 Categories: quant-ph, cs.ET, cs.LG

Related Skills

quantum-rl-dynamic-portfolio
quantum-reservoir-computing
distributional-portfolio-optimization
reinforcement-learning

Activation

Keywords: qnrl, quantum reinforcement learning, quantum native rl, distributional quantum rl, quak algorithm, quantum amplitude kickback, quantum state distribution, hilbert space rl, quantum policy optimization, stochastic environment rl