Research Index

Papers on Agent Architectures

A categorized index of 227 research papers on agent architectures, execution loops, multi-agent coordination, communication protocols, and deployment patterns. Last updated March 2026.

227 Papers

12 Categories

A Agent Architecture Surveys 17 B Agent Execution Loops & Reasoning 19 C Multi-Agent Coordination & Orchestration 18 D Agent Communication Protocols 7 E Self-Improving & Self-Evolving Agents 14 F Agent Memory Systems 21 G Agent Tool Use 30 H Agent Evaluation & Benchmarks 24 I Agent Safety & Security 27 J Enterprise & Production 14 K Domain-Specific Agents 22 L Context Management & Compaction 14

Agent Architecture Surveys

17 papers

AI Agent Systems: Architectures, Applications, and Evaluation2026

arXiv:2601.01743

Unified taxonomy: policy core, memory, planners, tool routers, critics. "Agent transformer" abstraction.

Agentic AI: Architectures, Taxonomies, and Evaluation of LLM Agents2026

arXiv:2601.12560

Taxonomy: Perception, Brain, Planning, Action, Tool Use, Collaboration.

Agentic AI: Comprehensive Survey of Architectures, Applications, Future Directions2025

arXiv:2510.25445

Dual paradigm: Symbolic/Classical vs Neural/Generative. PRISMA 90 studies.

The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling2024

arXiv:2404.11584

Single vs multi-agent. Vertical vs horizontal. Planning/execution/reflection.

Agentic AI Frameworks: Architectures, Protocols, and Design Challenges2025

arXiv:2508.10146

Protocol-focused: MCP, A2A, ACP, ANP, Agora.

Agent Execution Loops & Reasoning

19 papers

ReAct: Synergizing Reasoning and Acting in Language Models2022

arXiv:2210.03629

The canonical pattern. 34% improvement on ALFWorld.

Reflexion: Language Agents with Verbal Reinforcement Learning2023

arXiv:2303.11366

Self-reflection as verbal reinforcement.

Tree of Thoughts: Deliberate Problem Solving with Large Language Models2023

NeurIPSarXiv:2305.10601

Tree-based search over reasoning paths.

Language Agent Tree Search (LATS)2023

arXiv:2310.04406

MCTS for LLM agents.

Self-Refine: Iterative Refinement with Self-Feedback2023

NeurIPSarXiv:2303.17651

Iterative self-improvement within single generation.

Multi-Agent Coordination & Orchestration

18 papers

The Orchestration of Multi-Agent Systems: Architectures, Protocols, and Enterprise Adoption2026

arXiv:2601.13671

Unified framework: planning, policy, state, quality. MCP + A2A.

Multi-Agent Collaboration via Evolving Orchestration2025

arXiv:2505.19591

Centralized puppeteer orchestrator. Dynamic agent selection.

Towards a Science of Scaling Agent Systems2025

arXiv:2512.08296

Quantitative scaling. Independent/decentralized/centralized/hybrid compared.

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence2026

arXiv:2602.16873

Topology selection as function of task dependency. References Claude Code Agent Teams.

AgentOrchestra: Hierarchical Multi-Agent Framework for General-Purpose Task Solving2025

arXiv:2506.12508

Central planning agent + specialized sub-agents.

Agent Communication Protocols

7 papers

Model Context Protocol (MCP)2024

Agent-to-tool standard. Client-host-server. JSON-RPC 2.0.

Agent-to-Agent (A2A) Protocol2025

Peer coordination, negotiation, delegation. Agent cards.

A Survey of AI Agent Protocols2025

arXiv:2504.16736

Classification of MCP, A2A, ACP, ANP.

Agent Interoperability Protocols Survey2025

arXiv:2505.02279

MCP vs ACP vs A2A vs ANP.

Agora Protocol2025

Meta-coordination layer. Protocol Documents for protocol selection.

Self-Improving & Self-Evolving Agents

14 papers

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle2025

arXiv:2510.16079

Offline Self-Distillation -> Online Interaction.

SAGE: RL for Self-Improving Agent with Skill Library2025

arXiv:2512.17102

Sequential Rollout. Skill-integrated Reward. 8.9% improvement.

Truly Self-Improving Agents Require Intrinsic Metacognitive Learning2025

ICMLarXiv:2506.05109

Extrinsic vs intrinsic metacognition.

Building Self-Evolving Agents via Experience-Driven Lifelong Learning2025

arXiv:2508.19005

Four principles: exploration, memory, skill transfer, planning.

Self-Evolving AI Agents Survey: Path to ASI2025

arXiv:2507.21046

Comprehensive taxonomy. Intra vs inter-test-time learning.

Agent Memory Systems

21 papers

Hindsight: Building Agent Memory that Retains, Recalls, and Reflects2026

arXiv:2512.12818

Four networks, three operations. 91.4% on LongMemEval.

MAGMA: Multi-Graph Agentic Memory Architecture2026

arXiv:2601.03236

Semantic, temporal, causal, entity graphs. Policy-guided traversal.

Multi-Agent Memory as Computer Architecture2026

arXiv:2603.10062

Shared vs distributed. Three-layer hierarchy. Two protocol gaps.

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis2026

arXiv:2602.19320

Comprehensive taxonomy. Evaluation limitations.

D-MEM: Biologically Inspired Architecture2026

Critic Router. Reward Prediction Error gating. SKIP/CONSTRUCT/EVOLVE.

Agent Tool Use

30 papers

Augmented Language Models: A Survey2023

TMLRarXiv:2302.07842

Comprehensive tool-augmented LLM survey.

ToolLLM: Facilitating LLMs to Master 16000+ Real-World APIs2023

arXiv:2307.16789

Large-scale tool use benchmark.

Tool Learning with LLMs: A Survey2025

arXiv:2304.08354

Updated tool learning survey.

MCP-Bench: Benchmarking Tool-Using LLM Agents2025

arXiv:2508.20453

MCP-based tool use benchmark.

BFCL v3: Multi-Turn API Workflows2025

AST-analysis for function calling validation.

Agent Evaluation & Benchmarks

24 papers

Evaluation and Benchmarking of LLM Agents: A Survey2025

arXiv:2507.21504

Taxonomy: what to evaluate + how to evaluate.

Survey on Evaluation of LLM-based Agents2025

arXiv:2503.16416

Comprehensive evaluation methods survey.

Beyond Task Completion: Assessment Framework for Evaluating Agentic AI2025

arXiv:2512.12791

Four pillars: LLM, Memory, Tools, Environment.

AgentArch: Comprehensive Benchmark for Enterprise Agent Architectures2025

arXiv:2509.10769

Enterprise-focused. Orchestration + memory + tool interaction.

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?2023

arXiv:2310.06770

Software engineering benchmark.

Agent Safety & Security

27 papers

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents2024

ICLR 2025arXiv:2410.09024

110 harmful behaviors, 11 categories, 440 tasks.

Agent-SafetyBench: Evaluating Safety of LLM Agents2024

arXiv:2412.14470

349 environments, 2000 test cases, 8 risk categories. None >60% safe.

Evolution of Agentic AI in Cybersecurity: From Single LLM to Autonomous Pipelines2025

arXiv:2512.06659

Five-generation taxonomy.

AgentPoison: Red-Teaming LLM Agents via Poisoning Memory2024

Memory/knowledge base poisoning attacks.

BlockAgents: Byzantine-Robust LLM Coordination via Blockchain2024

Blockchain for coordination trust.

Enterprise & Production

14 papers

Context Engineering: From Prompts to Corporate Multi-Agent Architecture2026

arXiv:2603.09619

Four-level maturity: Prompt -> Context -> Intent -> Specification.

A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows2025

arXiv:2512.08769

End-to-end guide. MCP, orchestration, observability.

Evaluation-Driven Development of LLM Agents: Process Model and Reference Architecture2025

arXiv:2411.13768

TDD/BDD-inspired continuous evaluation.

PwC Agent OS2025

Enterprise multi-agent coordination switchboard.

Accenture Trusted Agent Huddle2025

Cross-organizational governance.

Domain-Specific Agents

22 papers

From AI for Science to Agentic Science: Survey on Autonomous Scientific Discovery2025

arXiv:2508.14111

Five pillars: planning, tools, memory, collaboration, evolution.

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery2024

arXiv:2408.06292

End-to-end scientific research agent.

Autonomous Chemical Research with Large Language Models2023

Nature

Chemistry agent with real lab integration.

SWE-Agent: Agent-Computer Interfaces Enable Automated Software Engineering2024

arXiv:2405.15793

SE-specific agent design.

Agentic AI Applied to Financial Services2025

arXiv:2502.05439

Financial services agent crews.

Context Management & Compaction

14 papers

ACON: Natural-Language Compression Guidelines2025

54% context reduction without quality loss.

CISM: Compact Semantic Representations for Long-Horizon Execution2025

Condenses reasoning steps into compact form.

LLMLingua: Compressing Prompts for Accelerated Inference2023

arXiv:2310.05736

Prompt compression preserving semantics.

Context Compression Strategies: OpenAI, Anthropic, and Factory Compared2026

36,000+ messages from real agentic sessions.

Context Engineering Pyramid: From Prompts to Corporate Architecture2026

arXiv:2603.09619

Four-level maturity model. Context as engineered system.

Missing something?

Know a paper, tool, or repo that should be listed here? We want this index to be exhaustive.

Request addition

← Back to Agents