squee_spoon的神奇预言

  近日,举世瞩目的人机大战李世石九段对阵Google AlphaGo在首尔四季酒店进行。

  假设人机大战将进行n盘,已知AI单局的胜率为p%,每局比赛互不影响,AI不会在比完全部n局比赛前增强。人工智能爱好者squee_spoon支持AI获胜,他与朋友打赌AI至少会获得k盘的胜利,如果AI获胜盘数大于等于k,squee_spoon将获得a元,否则他将失去a元。但是,在每一盘比完之后(最后一盘除外),squee_spoon可以向朋友支付b元来使k减少1(当然在任何时候,k必须非负,前n-1局各有一次下调机会)。请问如果squee_spoon使用最优策略,他得到钱数的期望是多少。


  这是一个作者实际遇到的情况改编成的算法题,解法是概率dp。

  状态dp(i,j,k)表示“处于已经打了i盘,获胜了j盘,修改了k次的情况下,获得钱数的期望”,再强调一次,是处于某种特定情况下的期望。

  首先,容易发现i=n的情况是可以直接求出的,因为此时已经打完了全部n盘,胜负已定。若j>=K-k(K是题目给的那个k),squee_spoon获胜,他得到a元且向朋友支付了b*k元;若j<K-k,squee_spoon失败,他失去a元且向朋友支付了b*k元。

  这样我们可以倒着dp回去。因为除了最后一局,每局打完都需要作出决策,根据当前形势,要么下调,要么不下调,最优决策当然是选择下调和不下调之中期望较高的那种做法。这两个期望可以根据基本概率和期望公式计算,不管下调还是不下调,下一局AI都存在输和赢两种可能,所以就从下局输和赢的期望乘以相应概率转移过来。

  最后答案就是初始状态,dp(0,0,0),即一局没打,一局没胜,一次也没调整时,得到钱数的期望。

  值得一提的是,0.01^200刚好溢出了64位浮点数,但是实际上使用64位浮点数做也可以,因为会溢出的数过小,不影响答案。


#include <bits/stdc++.h>
#include <unordered_map> 
  
using namespace std;
  
#define ll long long
#define type long double
  
type dp[210][210][210]; //打了几把 赢了几把 修正几次 
int n,K,pp,a,b;
type p;
  
int main(){
    while(cin>>n>>K>>pp>>a>>b){
        p = pp/100.0;
        for(int i=n;i>=0;i--){
            for(int j=i;j>=0;j--){
                for(int k=min(n-1,i);k>=0;k--){
                    if(i==n){
                    	//打完的情况,胜负已定,直接算出得到的钱数 
                        if(j+k>=K){
                            dp[i][j][k] = a-k*b;
                        }else{
                            dp[i][j][k] = -a-k*b;
                        }
                    }else{
                        if(i>0){
                        	//修正与不修正中,选择期望高的做法。无论哪种做法,下一把都有可能赢或输 
                            dp[i][j][k] = max(dp[i+1][j+1][k]*p+dp[i+1][j][k]*(1-p),
                                dp[i+1][j+1][k+1]*p+dp[i+1][j][k+1]*(1-p));
                        }else{
                        	//没打的时候不能修正 
                            dp[i][j][k] = dp[i+1][j+1][k]*p+dp[i+1][j][k]*(1-p);
                        }
                          
                    }
                }
            }
        }
        double ans = dp[0][0][0];
        printf("%.6f\n",ans);
    }
    return 0;
}


你可能感兴趣的:(dp)