檔案狀態:    住戶編號:1165213
 向天 天晴 的日記本
快速選單
到我的日記本
看他的最新日記
加入我的收藏
瀏覽我的收藏
工程師節 《前一篇 回他的日記本 後一篇》 
 切換閱讀模式  回應  給他日記貼紙   給他愛的鼓勵  檢舉
篇名: 人性就算自私,好人還是會出頭?
作者: 向天 天晴 日期: 2008.06.10  天氣:  心情:

囚徒困境博弈論非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。雖然困境本身只屬模型性質,但現實中的價格競爭、環境保護等方面,也會頻繁出現類似情況。
(非零和博弈非零和博弈是一種非合作下的博弈,博弈中各方的收益或損失的總和不是值,它區別於零和博弈。在經濟學研究中很有用。在這種狀況時,自己的所得並不與他人的所失的大小相等,連自己的幸福也未必建立在他人的痛苦之上,即使傷害他人也可能“損人不利己”,所以博弈雙方存在“雙贏”的可能,進而合作。非零和博弈的例子:譬如,在戀愛中一方受傷的時候,對方並不是一定得到滿足。也有可能雙方一起能得精神的滿足。也有可能雙方一起受傷。通常,彼此精神的損益不是零和的。)


1950年,由就職於蘭德公司梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,並命名為「囚徒困境」。經典的囚徒困境如下:警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:



  • 若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。

  • 若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監半年。

  • 若二人都互相檢舉(互相「背叛」),則二人同樣判監2年。


用表格概述如下:


















  甲沉默(合作) 甲認罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即時獲釋;乙服刑10年
乙認罪(背叛) 甲服刑10年;乙即時獲釋 二人同服刑2年


二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑2年。 
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作為高,總體利益較合作為低。這就是“困境”所在。例子華麗地證明瞭:非零和博弈中,帕累托最優和納什均衡是相衝突的。所以在單次的囚徒困境中,所謂的理性選擇卻不是最佳選擇。


羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一個擴展,並把它稱作“重覆的囚徒困境”(IPD)。在這個博弈中,參與者必須反覆地選擇他們彼此相關的策略,並且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計電腦策略,並在一個重覆囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在於這些方面:演算法的複雜性、最初的對抗、寬恕的能力等等。


阿克塞爾羅德發現,當這些對抗被每個選擇不同策略的參與者一再重覆了很長時間之後,從利己的角度來判斷,最終“貪婪”策略趨向於減少,而比較“利他”策略更多地被採用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來。


最佳確定性策略被認為是“以牙還牙”,這是阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,並且贏得了比賽。這個策略只不過是在重覆博弈的開頭合作,然後,採取你的對手前一回合的策略。更好些的策略是“寬恕地以牙還牙”。當你的對手背叛,在下一回合中你無論如何要以小概率(大約是1%-5%)時而合作一下。這是考慮到偶爾要從循環背叛的受騙中復原。當錯誤傳達被引入博弈時,“寬恕地以牙還牙”是最佳的。這意味著有時你的動作被錯誤地傳達給你的對手:你合作但是你的對手聽說你背叛了。


通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。


友善
最重要的條件是策略必須“友善”,這就是說,不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出於自私的原因,也永遠不會首先打擊其對手。
報複
但是,阿克斯洛德主張,成功的策略必須不是一個盲目樂觀者。要始終報複。一個非報複策略的例子是始終合作。這是一個非常糟糕的選擇,因為“下流”策略將殘酷地剝削這樣的傻瓜。
寬恕
成功策略的另一個品質是必須要寬恕。雖然它們不報複,但是如果對手不繼續背叛,它們會一再退卻到合作。這停止了報複和反報複的長期進行,最大化了得分點數。
不嫉妒
最後一個品質是不嫉妒,就是說不去爭取得到高於對手的分數(對於“友善”的策略來說這也是不可能的,也就是說“友善”的策略永遠無法得到高於對手的分數)。

因此,阿克塞爾羅德得到一種給人以烏托邦印象的結論,認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關於重覆囚徒困境的研究的重要結論之一,是友善的家伙能先完成交易。


如果將博亦分成「零和」與「非零和」兩種,則往往發現,零和遊戲最難達到「一報還一報」的合作關係。因此,「零和」的抗爭,在一點善意中,便可以被轉化為「非零和」,比方現 代社會中的離婚。只是當事人雙方各自找了委託人之後,往往讓一「非零和」的可 能性轉為非「零和」不可,而最後肥了律師,瘦了委託人。怎麼樣才可能讓人們產
生把一「零和」遊戲轉為「非零和」的善意呢?一個很重要的是,阿克塞爾羅德稱之為
「未來的影子」。也就是遊戲是反覆式的,確實的遊戲回合數無法知道,但可以
被估計。越接近結束時,人們往往越可能 採取理性的背叛策略,因此,只要讓人們
估計遊戲時間越長,則越可能採取好的、寬恕、較無嫉妒心的策略。 

這種「未來的影子」的概念,便可以用來解釋愛情中,當雙方都對未來抱持著長久的打算之時,往往可以得到一個雙贏的結果。或許我們不用討論人性是善還是惡,因為這可能不是很重要,就算自私,像個好人還是會出頭的。


標籤:
瀏覽次數:298    人氣指數:4658    累積鼓勵:218
 切換閱讀模式  回應  給他日記貼紙   給他愛的鼓勵 檢舉
給本文愛的鼓勵:  最新愛的鼓勵
工程師節 《前一篇 回他的日記本 後一篇》 
 
住戶回應
 
時間:2009-09-02 22:22
她, 49歲,新北市,其他
*給你留了一則留言*
  
 
時間:2009-08-02 22:09
她, 48歲,亞洲其他,其他
*給你留了一則留言*
  
 
時間:2009-08-02 21:28
她, 48歲,亞洲其他,其他
*給你留了一則留言*
  
作者回覆說[2009-08-02 22:07]:

哦,我有看完,因為我寫的^^



給我們一個讚!