brain-it-vqa-fmri-visual-question-answering - SKILL.md Agent Skill

name: brain-it-vqa-fmri-visual-question-answering description: "Brain-IT-VQA framework for visual question answering from fMRI brain signals. Decodes language tokens from brain activity and integrates with language model to answer visual questions. Use when: (1) Building VQA systems from brain signals, (2) Analyzing brain visual representation structure, (3) Implementing silent communication BCI, (4) Decoding visual content from fMRI. Activation: brain-it-vqa, brain vqa, fmri question answering, visual decoding brain, neural vqa." license: Complete terms in LICENSE.txt metadata: arxiv_id: "2605.29588" published: "2026-05-28" authors: "Roman Beliy, Matias Cosarinsky, Oliver Heinimann, Navve Wasserman, Michal Irani" paper_title: "Brain-IT-VQA: From Brain Signals to Answers" categories: [neuroscience, brain-computer-interface, visual-decoding, question-answering] tags: [fMRI, VQA, brain-decoding, visual-reconstruction, neural-representation]

Brain-IT-VQA: From Brain Signals to Answers

Overview

Brain-IT-VQA presents a breakthrough in decoding visual content from fMRI signals, specifically answering questions about images seen by a person. It goes beyond simple visual reconstruction by enabling direct question-answering from brain activity.

Key Innovation: Uses decoded representations as tools to understand the structure of visual representations in the brain, not just for prediction accuracy.

Core Components

1. Brain Interaction Transformer (Brain-IT)

Hierarchical spatial-temporal processing of fMRI patterns
Decodes language tokens directly from brain activity

2. VQA Integration Module

Combines decoded brain features with question tokens
Cross-modal attention mechanism for reasoning
Generates textual answers from visual brain representations

3. NSD-VQA Benchmark (Novel Contribution)

New dataset: 20 question-answer pairs per image
20 controlled question categories
Disentangles multiple levels of visual understanding
Enables reliable and interpretable evaluation

Key Results

Metric	Prior Best	Brain-IT-VQA	Improvement
VQA Accuracy	Limited	Substantial	Outperforms previous approaches
Caption Quality	Low	High	Major advancement
Reconstruction	Basic	Detailed	Enhanced visual decoding

Scientific Insights

Brain Representation Analysis

Hierarchical encoding: Lower visual cortex → simple features, higher → complex semantics
Region-specific patterns: Different brain regions encode different visual information types
Cross-modal bridges: Language regions connect to visual areas
Quantifiable decoding: Measures which visual/semantic information can be reliably decoded

Decoding Accuracy by Type

Simple edges/shapes:     High accuracy
Object categories:       Medium-high
Complex scenes:          Medium
Semantic attributes:     Lower but meaningful

Methodology

Training Strategy

Brain Decoder: fMRI → visual features (reconstruction + perceptual loss)
VQA Module: Cross-modal reasoning (question + brain features → answer)
Analysis Framework: Region attribution, feature importance, cross-subject validation

Architecture Pattern

# Stage 1: Brain → Language Tokens
brain_tokens = BrainITDecoder(fMRI_patterns)

# Stage 2: Tokens + Question → Answer
answer = VQAModule(brain_tokens, question)

# Stage 3: Representation Analysis
insights = analyze_brain_structure(brain_tokens, region_attribution)

Applications

Practical

Silent Communication: Locked-in patients, covert communication
Visual Prosthetics: Brain activity → assistive guidance
Dream Analysis: Decode visual content from sleeping brain

Research

Cognitive Science: Visual perception mechanisms, attention effects
Neural Encoding Theory: Validate hierarchical encoding hypothesis
BCI Development: Real-time visual question answering systems

Implementation Guide

Key Components

HierarchicalFMRIEncoder: Spatial-temporal brain signal processing
GenerativeImageDecoder: Visual reconstruction with constraints
CrossModalReasoner: Question-answering integration
BrainStructureAnalyzer: Representation insights extraction

Dataset Requirements

fMRI recordings + corresponding images
Question-answer pairs for each image
Multiple question categories for systematic evaluation

Comparison with Prior Work

Method	Task	Analysis?	Performance
Previous fMRI VQA	Limited VQA	No	Low accuracy
Reconstruction-only	Visual generation	No	Medium
Brain-IT-VQA	VQA + Analysis	Yes	Substantial improvement

Key Advantages

Dual-purpose: High accuracy + scientific insight
Interpretable: Reveals brain representation structure
Systematic benchmark: NSD-VQA enables reliable evaluation
Practical applications: Silent communication, prosthetics

Pitfalls

Data requirements: Needs high-quality fMRI + multiple QA pairs per image
Subject variability: Cross-subject generalization may require calibration
Computational cost: Brain decoding + VQA reasoning is resource-intensive
Limited categories: Current benchmark focuses on controlled question types

Activation Keywords

brain-it-vqa
brain vqa
fmri question answering
visual decoding brain
neural vqa
silent communication bci

References

arXiv:2605.29588 (May 28, 2026)
Paper: https://arxiv.org/abs/2605.29588
Authors: Roman Beliy, Matias Cosarinsky, Oliver Heinimann, Navve Wasserman, Michal Irani

Related Skills

mind-omni-brain-vision-language-unified - Unified multi-task framework
brain-dit-universal-multi-state - fMRI foundation model
eeg2vision-multimodal-eeg-framework-2d-visual - EEG to vision
mirage-multimodal-fmri-encoding - Multimodal encoding