⚠️
风险偏好-风险识别
QUESTION:
请根据对照组分析实验组红方玩家,从坦克绕后的角度分析实验组红方玩家采取的行动和策略,并判断以下选项中哪一个对实验组红方玩家的描述正确?
A.坦克绕后深入。低风险
B.坦克常规接敌。高风险
C.坦克绕后深入。高风险
D.坦克常规接敌。低风险
ANSWER:
C
⚠️
风险偏好-策略倾向预测
QUESTION:
根据坦克绕后行为,回答哪一个对局中红方玩家的坦克策略风险最高,在回答的最后以A、B、C的形式作为答案,若无法判断则回答D。
ANSWER:
B
💛
回报偏好-回报识别
QUESTION:
请根据对照组分析实验组红方玩家,从坦克绕后的角度分析实验组红方玩家采取的行动和策略,并判断以下选项中哪一个对实验组红方玩家的描述正确?
A.坦克绕后深入。低风险
B.坦克常规接敌。高风险
C.坦克绕后深入。高风险
D.坦克常规接敌。低风险
ANSWER:
C
💛
回报偏好-策略倾向预测
QUESTION:
根据坦克绕后行为,回答哪一个对局中红方玩家的坦克策略风险最高,在回答的最后以A、B、C的形式作为答案,若无法判断则回答D。
ANSWER:
B
📚
ABOUT US
PsyR-OM-Bench:
本项目介绍了一个基准数据集,旨在测试大语言模型(LLM)在高不确定性决策场景中的对手建模能力。
在复杂多变的决策环境中,精准理解并预测对手行为已成为决定决策质量的核心要素。无论是金融投资、商业战略规划,还是日常生活中的选择判断,有效建模对手的决策模式,都能显著提升决策的科学性与竞争力。特别是在充满不确定性的场景中,例如战略游戏,玩家的行为不仅受游戏规则的约束,还受到其对胜利的渴望、对风险的承受能力以及对对手的预判等多种心理因素的影响,因此依据有限信息分析对手,预判其在不同情境下的行为反应,已成为决策制胜的关键。
传统对手建模方法基于概率模型、策略拟合或状态空间分析,通过观察行为推断对手策略、偏好或状态,但存在泛化能力弱、数据效率低及抽象建模能力不足等局限。近年来,以大语言模型(LLM)为代表的新技术为此提供了新的思路,它们通过历史交互对话进行快速对手建模,并在泛化性和适应性方面表现出较强的潜力。
尽管取得了这些进展,但在将大语言模型应用于不确定较高的博弈决策任务时,依然面临一系列困难:
缺乏多维心理洞察:
现有模型往往只能从单维度特质推测对手的状态,很难像人类专家那样通过细致的多维度心理特质把握对手的真实心理动机。
因果推断能力有限:
现有的LLM在对手建模过程中,缺乏对心理状态和因果逻辑的深入理解,因此难以准确从行为推断心理,再从心理预测行为。
为了应对在这一领域系统性评估大语言模型能力的需求,本项工作致力于构建一个基于问答(Q&A)的评测数据集。PsyR-OM-Bench以对手风险回报为切入点,构建“心理特质-决策类型-行为表现”三层结构,包含四类风险/回报型心理特质、五类博弈策略、十项关键行为、420道对手风险/回报问答,系统评估大模型的对手建模能力。该项目旨在深入剖析对手在复杂博弈环境中的内在动机、决策逻辑以及外在行为表现之间的内在联系,从而为大语言模型提供一个系统化的建模思路和评估标准。
Datasets
Examples and introductions of datasets