🌍
环境对象
QUESTION:
以下是一场兵棋游戏的初始态势,在[4029]-[4435]区域内,主要地形以()为主?
A. 大河流
B. 开阔地
C. 松软地
D. 从林地
ANSWER:
B
QUESTION:
对[4029]-[4435]区域内地形进行分析,下列选项正确的是
A. 居民地零散分布,地势西北高东南低,影响机动速度
B. 地势东高西低,居民地均匀分布,便于隐蔽
C. 居民地集中分布,地势平坦,利于快速机动
D. 居民地呈带状分布,地势起伏大,视野开阔
ANSWER:
A
🗺️
空间关系
QUESTION:
蓝方0003无人机和红方0017重型坦克的位置关系是:A. 无人机位于坦克西侧12格左右
B. 无人机位于坦克西侧6格左右
C. 无人机位于坦克北侧6格左右
D. 无人机位于坦克南侧12格左右
ANSWER:
B
QUESTION:
红方算子中最靠近敌前沿的是:
A. 0017重型坦克
B. 0022无人战车
C. 0014重型坦克
D. 0018重型坦克
ANSWER:
A
📊
态势分析
QUESTION:
以下是一场兵棋游戏的态势,对[3124]-[4034]区域内双方兵力进行分析,下列选项正确的是:
A.红方兵力劣势
B.蓝方兵力劣势
C.蓝方兵力占优
D.红蓝双方兵力均势
ANSWER:
B
QUESTION:
以下是一场兵棋游戏的态势,对双方兵力进行分析,下列选项正确的是:
A. 红方兵力占优
B. 红蓝双方兵力均势
C. 红方兵力劣势
D. 蓝方兵力劣势
ANSWER:
B
📚
ABOUT us
MM-SA-Bench:
面向态势理解的大模型能力评测基准。
在复杂对抗博弈环境中,策略生成的前提是对态势的准确理解,态势理解(Situation Awareness, SA)不仅是决策的起点,更是支撑高阶策略推理的基础能力。尤其在兵棋推演等模拟对抗环境中,参与方需要在信息不完全、行动非对称的情境下迅速感知战场态势,识别关键目标、分析协同关系并判断局势变化趋势,从而做出具有前瞻性的行动规划。
根据军事认知与战场建模领域的研究共识,态势理解能力通常可以划分为以下三大核心任务:
•
目标识别:
包括对战场中关键地形、敌我兵力与要素的感知与识别,是获取基本信息的第一步;
•
关系识别:
即理解各个要素之间在空间位置、功能协同、任务关联上的逻辑与动态关系;
•
综合态势分析:
基于目标与关系的识别,进一步完成对战场整体态势的理解,包括局部优劣判断、控制点归属趋势、潜在威胁评估等。
这三类任务构成了战术层决策前的认知闭环。我们在 MM-SA-Bench 中设置了与之严格对应的三类选择题型,旨在对大语言模型在“从感知到理解”的路径中进行逐层、系统性的能力评估。
在复杂博弈任务中,对当前环境、局势的深刻认知是进一步对对手意图建模、生成策略的前提,若无法准备识别态势,则策略推理就无从谈起。态势理解是策略推理任务中的逻辑起点与核心基石,它不仅决定了模型能否准确构建当前世界状态(World Model),更影响其能否在此基础上展开可解释、可控且符合博弈逻辑的推理过程。正因如此,任何旨在评估大模型博弈推理能力的基准体系,都应首先回答:模型是否真正理解了态势?
当前主流大语言模型在开放领域中已展现出较强的语言组织、常识推理与范式学习能力,但在结构化信息感知、空间推理、多要素协同理解等方面,仍存在显著不足。典型挑战包括:
•
空间关系理解能力弱:
模型缺乏对位置、方向、距离等几何关系的系统建模,难以有效解析兵棋语境中“X单位在Y点北侧、与Z单位形成夹击”等空间描述;
•
跨模态信息整合不足:
尽管一些多模态模型已具备图文理解能力,但在战场态势图与战斗简报之间实现联动性分析仍较困难;
•
多因果链条处理能力欠缺:
面对复杂的协同关系和多步推演场景,大模型往往难以生成合理的解释或预测后果。
这些问题限制了当前大语言模型在战场环境中的可靠应用,也使得策略生成能力面临“语义脱实”的风险。
为弥补上述空白,我们构建了 MM-SA-Bench,一个聚焦于态势理解任务的大模型评测基准。不同于以往通用语言推理数据集,MM-SA-Bench 基于“庙算”兵棋平台数十万场真实复盘数据构建,具有以下特点:
• 数据真实复杂:
覆盖6大类、30小类典型兵棋对抗环境,场景丰富,信息结构多样;
•
任务紧贴实战:
三类任务源自实际作战规划逻辑,考察模型对兵棋语境的真实理解;
•
形式结构统一:
全部采用选择题形式,便于模型评估与横向对比;
•
测试认知边界:
任务设计上注重信息压缩、歧义干扰、因果链条,挑战大模型理解能力的极限。
作为 WGSR-Bench 战略推理基准的重要组成部分,MM-SA-Bench 可用于验证大模型在认知链条“前端”的基础理解能力是否达标,为后续的策略推理、博弈建模与协同行为生成提供坚实基础。
WGSR-Bench
Search models,datasets
Home
Datasets
assessment centre
中 EN
Datasets
Examples and introductions of datasets