(2023年GESP七级)洛谷P10111题解:动态规划求解纸牌游戏
一、题目解读
洛谷P10111题(2023年GESP七级)是一个经典的动态规划问题,涉及循环胜负关系下的最优策略设计。题目背景可类比为“剪刀-石头-布”的循环胜负游戏:存在三种元素(如卡牌),两两之间形成循环克制关系(如0克2、1克0、2克1),玩家需通过换牌操作在多轮对决中最大化得分。题目要求处理N轮比赛,每轮可选择出牌或换牌(需消耗代价),需找到最优出牌顺序以获取最高总分。
二、解题思路
三维动态规划解决该问题。核心思路为:通过状态定义拆分决策维度,利用状态转移方程实现最优解的递推。关键在于将“换牌次数”作为独立维度,避免状态爆炸的同时精准记录代价。具体设计如下:
● 状态定义:dp[i][j][k]表示第i轮出牌j,累计换牌k次时的最大得分。
● 状态转移:分为“不换牌”与“换牌”两种情况,前者延续上一轮策略,后者需扣除换牌代价并更新出牌类型。
● 边界条件:首轮仅依赖初始牌与对手牌计算得分,后续轮次通过递推更新最优值。
三、解题步骤
1. 数据输入:读入N轮比赛的卡牌序列a、b、c(含换牌代价)。
2. 初始化DP表:首轮状态仅与初始出牌相关,调用get_score()计算平局/胜负得分。
3. 动态规划循环:
○ 外层遍历轮次i,内层遍历上一轮状态(出牌prev_j、换牌次数prev_k)。
○ 若上一状态无效(INT_MIN),跳过。
○ 不换牌:直接比较得分更新当前状态。
○ 换牌:遍历新出牌类型new_j,扣除代价b[prev_k]后计算总分,更新dp[i][new_j][prev_k+1]。
4. 结果输出:遍历最后一轮所有状态,取最大值即为最优得分。
四、代码及注释
#include <iostream> #include <vector> #include <algorithm> #include <climits> using namespace std; // 判断胜负关系,返回得分 int get_score(int my_card, int yang_card, int a) { if (my_card == yang_card) return a; // 平局 if ((my_card == 1 && yang_card == 0) || (my_card == 2 && yang_card == 1) || (my_card == 0 && yang_card == 2)) { return 2 * a; // 获胜 } return 0; // 失败 } int main() { ios::sync_with_stdio(false); cin.tie(nullptr); int N; cin >> N; vector<int> a(N), b(N-1), c(N); for (int i = 0; i < N; ++i) cin >> a[i]; for (int i = 0; i < N-1; ++i) cin >> b[i]; for (int i = 0; i < N; ++i) cin >> c[i]; // dp[i][j][k]: 第i轮出牌j,换了k次牌的最大得分 vector<vector<vector<int>>> dp(N, vector<vector<int>>(3, vector<int>(N, INT_MIN))); // 初始化第一轮 for (int j = 0; j < 3; ++j) { dp[0][j][0] = get_score(j, c[0], a[0]); } // 动态规划 for (int i = 1; i < N; ++i) { for (int prev_j = 0; prev_j < 3; ++prev_j) { for (int prev_k = 0; prev_k < N; ++prev_k) { if (dp[i-1][prev_j][prev_k] == INT_MIN) continue; // 不换牌 int score = get_score(prev_j, c[i], a[i]); if (dp[i][prev_j][prev_k] < dp[i-1][prev_j][prev_k] + score) { dp[i][prev_j][prev_k] = dp[i-1][prev_j][prev_k] + score; } // 换牌(不能超过N-1次) if (prev_k < N-1) { for (int new_j = 0; new_j < 3; ++new_j) { if (new_j == prev_j) continue; score = get_score(new_j, c[i], a[i]); int new_score = dp[i-1][prev_j][prev_k] + score - b[prev_k]; if (dp[i][new_j][prev_k+1] < new_score) { dp[i][new_j][prev_k+1] = new_score; } } } } } } // 找出最大得分 int max_score = INT_MIN; for (int j = 0; j < 3; ++j) { for (int k = 0; k < N; ++k) { max_score = max(max_score, dp[N-1][j][k]); } } cout << max_score << endl; return 0; }
五、总结
本文通过三维动态规划解决了洛谷P10111题的循环胜负优化问题,核心在于将换牌次数独立为状态维度,并通过精细的状态转移方程平衡得分与代价。该解法兼具理论深度与实践价值,对类似“多阶段决策+资源约束”问题具有参考意义。掌握此类动态规划设计思路,可显著提升算法竞赛与工程优化的解题能力。
原创内容 转载请注明出处