佩奇模型思维下载(佩奇的模型思维)

佩奇模型思维下载(佩奇的模型思维)已关闭评论

A+

领500g书库，关注公众号:程叫兽的宝藏 (长按可复制！)

目录（点击切换）

本文节选自《佩奇模型思维下载》

习兴趣的做法，可能不会产生什么有意义的影响。与此类似，进入社区“送温暖”、来到公园“捡垃圾”的志属者也可能无法带来什么长期收益。任何一次性的资金涌入，无论其规模大小，影响都会消失，除非它改变了转移概率。2010年，马克\'扎克伯格(MarkZuckerberg)向新泽西州纽瓦克市的公立学校捐赠了1亿美元，并吸引了不少跟风捐赠者。这种一次性捐赠，尽管摊到每个学生头上达到了大约每人6000美元，但对考试成绩却几乎没有产生任何可衡量的影响。兰马尔可夫模型是通过区分以下两类政策来指导行动的:一类政策能够改变转移概率，而改变转移概率可以产生长期影响;另一类政策只能改变状态，并且只能产生短期影响。如果转移概率无法改变，那么我们必须定期重置状态才能改变结果。沉灞于辛劳工作可能会产生导致好强、自私和压抑的心理状态转移概率，而每天银炼、其想或参加祭教活动则可能帮助人们以一个感恩的、富有同情心的、放松的心理状态迎接每一天。周末休息也有类似的功能，已婚夫妇不时过一过约会之夜也有很好的效果。这两者的共同作用是，能够暂时使一个人的状态远离均衡。当然，并不是每个动态系统都满足马尔可夫模型的假设。在不满足马尔可夫模型假设的情况下，历史、干预政策和事件都可能会产生长期

思维模型pdf百度云下载

影响。例如，在波利亚过程中，结果改变了长期均衡。对系统的重大干预或冲击可能会改变转移概率甚至是整个状态集。燕汽机、电力、电报或互联网等重大技术变革，改变了经济的可能状态集。重新界定权力架构或制定新政策的政治和社会运动，也会改变状态集。因此，我们也许更应该将历史视为一个马尔可夫模型序列，而不是视为一个向不可避免的均衡方向发展的过程。马尔可夫决策模型马尔可夫决策模型(Markov_decisionmode1)是对马尔可夫模型的一种修正，方法是将行动包括进来，行动会带来回报，而回报则以状态为条件，还会影响状态之间的转移概率。考虑到行动对转移概率的影响，最优行动并不一定是能够最大化即时回报的那个行动。例如，要在上网与学习这两个行动之间做出选择。上网总能带来相同的回报。而当学生选择学习时，则有两种可能，既可能觉得充实，也可能觉得无聊。如果觉得充实，学习就可以获得高回报，如果觉得无聊，学习就只能获得低回报。为了加入行动对转移概率的影响，假设一个觉得学习无聊的学生转为在上网时，仍然会处于无聊状态;而一个觉得学习充实的学生转为在上网时，有一半的时间会变得无聊。假设一个学习的学生有75%的机会在下一个时期处于觉得充实的精神状态，而无论他当前的状态如何。

思维模型佩奇

于是:行动:上网(U)，学习(〈S)状态:觉得无聊(B)，党得充实〈E)马尔可夫决策模型的解决方案由每个状态下采取的行动构成。之前讨论过的短视最优反应行为，在每个状态下都选择能够最大化奖励的行为。在现在这个例子中，这种选择对应于无聊时上网、精神充实时学习。但是，这种短视的解决方案会导致学生陷入无聊状态。一旦发生了这种情况，他们就会选择上网，并在所有剩余时间内一直保持无聊状态。因此，他们的长期平均回报等于6。而总是是选择学习的解决方案则会在他们75%的时间里处于充实状态，只25%的时间里处于无聊状态，从而得到的长期平均回报为7。这个解决方案产生了更高的平均回报，国为他们更多地处于充实的精神状态。正如这个例子所表明的，将一个决策问题表达为一个马尔可夫决策模型，可以告诉我们更好的行动是什么。通过考虑行动对状态的影响，我们会做出更明智的选择。晚睡与早起和锻炼相比，会产生一个更高的直接回报，购买昂焉的吹啡比自己动手制作咖啡产生更高的回报。然而，从长远来看，我们可能会更乐于坚持镀炼和节省咖啡钱。那么，我们需要一个模型吗?不一定。相反，我们也许只需要时时记起《圣经。芒言》21:17就可以了:“爱宴乐的，必致穷乏;好酒爱癌油的，必不富足。”这可