Bendri veiksmai suteikia racionalų pagrindą evoliucinei pavloviškų strategijų sėkmei | mokslinės ataskaitos

Bendri veiksmai suteikia racionalų pagrindą evoliucinei pavloviškų strategijų sėkmei | mokslinės ataskaitos

Anonim

Dalykai

  • Koevoliucija
  • Evoliucinė ekologija
  • Evoliucijos teorija
  • Žmogiškas elgesys
  • Socialinė evoliucija

Anotacija

Įrodyta, kad strategijos, apimančios tiesioginį abipusiškumą, pvz., „Tit-for-Tat“ ir „Pavlov“, yra sėkmingos atliekant Iterated Kalinių dilemą (IPD) - paradigminę problemą tiriant ne giminaičių asmenų bendradarbiavimo raidą. Vis dėlto kyla klausimas, ar tokios abipusės strategijos gali atsirasti kaip racionalus pasikartojančių savanaudiškų agentų sąveikos rezultatas. Čia parodome, kad priėmus bendradarbiavimo perspektyvą, kurioje atsižvelgiama į veiksnių simetriją, kuri yra svarbi biologiniame ir socialiniame kontekste, natūraliai atsiranda tokia strategija. Dviejų žaidėjų IPD mes parodome, kad bendro sprendimo sprendimas atitinka Pavlovo strategiją, tokiu būdu suteikiant racionalų pagrindą. Jei IPD apima daugybę žaidėjų, pavyzdžiui, viešųjų gėrybių žaidimą, kuriame bendradarbiavimas paprastai laikomas sunkiau, mes parodome, kad bendradarbiai visada viršija trūkumus, susijusius su bendra pusiausvyra. Tai galima vertinti kaip Pavlovo apibendrinimą varžybose, kuriose dalyvauja daug žaidėjų. Apskritai, pakartotinė sąveika leidžia racionaliems agentams suvokti būdingą jų padėties simetriją, leidžiančią jiems pasiekti tvirtą bendradarbiavimą įgyvendinant bendradarbiavimo strategijas - o tai IPD atveju yra abipusė Pavlovijos strategija.

Įvadas

Supratimas, kaip gali atsirasti bendradarbiavimas visuomenėje, kurios kiekvienas narys siekia maksimaliai padidinti savo asmeninę gerovę, yra viena iš pagrindinių evoliucijos biologijos ir socialinių mokslų problemų 1, 2, 3 . Visada egzistuojanti pagunda nebendradarbiauti (tokiu būdu išvengiant su tokiu veiksmu susijusių išlaidų) mėgaujantis kitų bendradarbiavimo veiksmų teikiama nauda atrodo, kad bendradarbiavimas tampa nestabilus, net jei jis atsiranda atsitiktinai. Vis dėlto pastebima, kad bendradarbiavimas gamtoje vyksta labai plačiai - pradedant mikroorganizmų 4, 5, ląstelių agregatų 6 ir sintetinių ekologijų 7 ir baigiant primatų visuomenėmis 8 . Nesusijusių asmenų (ty ne giminaičių) bendradarbiavimo trapumas buvo konceptualiai įformintas atsižvelgiant į kalinio dilemos (PD) žaidimą 9, 10, kuris parodo, kaip maksimalios individualios naudos siekimas gali sukelti kolektyvinį rezultatą, kuris yra pražūtingas visi. Išsamus šios modelio sistemos tyrimas atskleidė, kad pasikartojančiame PD (IPD), kur leidžiama pakartotinė sąveika tarp tų pačių asmenų porų, sėkmingos strategijos paprastai naudoja informaciją apie ankstesnes sąveikas, kad pasirinktų dabartinį veiksmą 11 . Kitaip tariant, šios strategijos įkūnija tiesioginio abipusiškumo reiškinį, kuris gali paskatinti vystymąsi ir palaikyti bendradarbiavimą 12 . Buvo pateikti empiriniai įrodymai, gauti iš eksperimentų su žmonėmis ir gyvūnais, pagrindžiantys šią mintį, kad bendradarbiaujantis elgesys su kitais asmenimis priklauso nuo ankstesnių agentų 13, 14, 15, 16, 17, 18, 19, 20, 21 veiksmų.

Viena iš labiausiai žinomų strategijų, apimanti tiesioginį abipusiškumą, yra tit-for-tat (TFT), kai kiekvienas agentas iš pradžių bendradarbiauja, o paskui imituoja ankstesnį savo priešininko veiksmą visuose paskesniuose raunduose 1 . Įrodyta, kad ši apgaulingai paprasta strategija yra sėkminga kompiuteriniuose turnyruose, kur skirtingos strategijos konkuruoja žaisdamos IPD tarpusavyje. Vis dėlto yra žinoma, kad TFT yra pažeidžiamas triukšmo, atsirandančio dėl nesupratimo apie ketinimus, suvokimo klaidų ir žaidėjų klaidų įgyvendinant savo veiksmus - situacijų, kylančių natūraliausiose situacijose. Tokiose triukšmingose ​​aplinkose tvirtą bendradarbiavimą gali lemti kitos strategijos, tokios kaip dosni už „tit-for-tat“ (GTFT), kuri maža tikimybe atleidžia trūkumą, suvaržyta „tit-for-tat“ (CTFT), kuri atsiranda po netyčinio trūkumo besąlygiškai bendradarbiaujant ir Pavlovas pakartoja savo ankstesnį žingsnį, jei jam buvo atlyginta už pakankamai didelę išmoką, tačiau jis keičia savo elgesį, kai yra nubaustas už mažą išmoką.

Nors šios išradingos elgesio taisyklės buvo labai veiksmingos turnyruose, kuriuose jie varžosi žaisdami IPD, palyginti su įvairiomis kitomis strategijomis, neaišku, kaip jų būtų buvę galima rasti kaip racionalaus sprendimo problemos sprendimą. Tokios strategijos ab initio išvedimas, apimantis tiesioginį abipusiškumą kaip racionalų IPD sprendimą, ne tik suteiks teorinį proveržį, bet ir gali atskleisti naujas priemones skirtingoms strateginės sąveikos problemoms spręsti. Šiame darbe parodome, kad, atsižvelgiant į žaidėjų simetriją, kuri yra svarbi aplinkybė biologiniame ir socialiniame kontekstuose, naudodamiesi bendradarbiavimo perspektyva 22, galime gauti racionalų IPD sprendimą, kuris, kaip mes parodome, yra toks pat kaip Pavlovas. Net kai netikrumas dėl kitų agentų veiksmų ir klaidų įgyvendinant strategijas kartais sukelia agentų trūkumus, informacija apie ankstesnius veiksmus gali padėti agentams nustatyti situacijos simetriją ir tokiu būdu atkurti bendradarbiavimą, kuris suteikia naują perspektyvą Pavlovijos strategijoms. . Dar svarbiau, kad šį požiūrį į intelektinės nuosavybės teisių atvejį apibendrina daugelis dalyvių, norėdami išspręsti bendradarbiavimo klausimą viešųjų gėrybių dilemose, kur paprastai manoma, kad bendradarbiauti sunkiau 23 . Keista, bet mes pastebime, kad bendradarbiai visada viršija N- asmens IPD pusiausvyros trūkumus, kuriuos mes siūlome išplėsti „Pavlov“ žaidimą keliems žaidėjams. Mūsų rezultatai rodo, kad bendri veiksmai suteikia bendrą pagrindą suprasti, kodėl racionalu bendradarbiauti net tada, kai pelninga elgtis kitaip.

Kitame skyriuje pirmiausia pristatome bendro sprendimo koncepcijos, susijusios su vieno etapo (arba vieno šūvio) strategine sąveika 22, santrauką, kuri yra tinkama sistema žaidimų analizei visiškos simetrijos sąlygomis. Kadangi tokios simetrijos žinios agentams gali paaiškėti pakartotinai sąveikaujant, toliau mes išplėsime bendradarbiavimo principą iteracinėje aplinkoje. Tolesniame skyriuje pateikiami IPD sprendimo vykdant bendradarbiavimo veiksmus rezultatai tiek 2 grotuvų, tiek N žaidėjo scenarijuose. Baigėme trumpą diskusiją apie mūsų rezultatų įtaką bendradarbiavimo raidai ir susijusias problemas.

Bendradarbiavimo sprendimo koncepcija

Įprastinis žaidimo „Nash“ sprendimas nusako agentų strategijų pasirinkimą, kad niekas neįgytų naudos vienašališkai nukrypdamas, ty pakeisdamas tik jos strategiją, darydamas prielaidą, kad kitų strategija išlieka fiksuota. Tačiau, kaip neseniai parodėme vieno etapo žaidimui 22, prielaidos, kuriomis grindžiamas Nash'o principas, yra abipusiai nenuoseklios, kai žaidimo padėtis yra simetriška (ty pasikeitus agentų tapatybėmis, išmokėjimo struktūra nekinta). Konkrečiai tariant, darant prielaidą, kad (a) kiekvienas agentas žino, kad visi agentai vienodai geba analizuoti žaidimo situaciją, nesuderinama su prielaida, kad (b) agentai gali padaryti vienašališkus nukrypimus nuo savo strategijos - būtiną prielaidą dominuojančiai strategijai gauti. Pašalinus šį neatitikimą, gaunama pusiausvyra 22, 24, kai kiekvienas agentas supranta simetrišką situaciją, kurioje yra visi agentai. Taigi agentas supras, kad, kad ir kokią strategiją ji pasirinks, kiti agentai, esantys tame pačiame tai padarys ir simetriška padėtis bei buvimas tokia pat racionalia kaip ji. Paprasčiau tariant, tai yra vienintelė logiška išvada, kurią tokiomis sąlygomis gali padaryti racionalus atstovas. Atminkite, kad tai nereiškia, kad agentai būtinai pasirenka tą patį veiksmą, pvz., Jei jie naudoja mišrias strategijas, kaip gali nutikti PD tam tikram išmokėjimo verčių diapazonui, kaip aprašyta toliau.

Mes iliustruojame šį Nash ir bendradarbiavimo veiksmų struktūrų atskyrimą vienpakopėje PD, atspindinčioje vienkartinį strateginį susitikimą tarp dviejų agentų, kurie gali pasirinkti bendradarbiauti ( C ) arba trūkumą ( D ). Šiame žaidime, jei abu agentai pasirenka C , kiekvienas gauna atlygį R , o jei abu pasirenka D , kiekvienas baudžiamas bausmės išmokėjimu P < R . Jei jie pasirenka skirtingus veiksmus, tada defektorius gauna didžiausią išmoką T > R (pagunda sugadinti), o bendradarbis gauna mažiausią (arba atžalų) išmoką S < P [žr. Išmokėjimo matricą 1 pav. (A)]. Taigi, išmokos yra paskirstomos kaip T > R > P > S , nes nesunku pastebėti, kad abipusis defektas yra vienintelė Nash pusiausvyra. Priešingai nei Nash sprendimas, kooperacija lemia „kooperatinį“ rezultatą, atsirandantį dėl to, kad agentai maksimaliai padidina savo išmokas, laikydamiesi prielaidos, kad kiti agentai naudos tą pačią strategiją kaip ir jie (nors jie nebūtinai pasirenka tą patį veiksmą - C ar D - jei strategija yra tikimybinė). Vieno etapo PD tai reiškia, kad nustatoma ta p vertė, ty tikimybė, kad agentas pasirinks C , kuriai numatoma kiekvieno agento išmokėjimo funkcija

Image

yra maksimalus. Atkreipkite dėmesį, kad čia mes vartojome pagrindinę bendradarbiavimo sąvoką, ty kiekvienas agentas savarankiškai pasirinks C su ta pačia tikimybe p . Nesunku pastebėti, kad ši optimizavimo problema turi unikalų sprendimą, atitinkantį agentus, kurie visada bendradarbiauja, kai T ≤ 2 R, ir bendradarbiauja su tikimybe.

Image
kai T > 2 R 22 .

Image

a ) Bendras dviejų asmenų PD išmokėjimo matricos atvaizdas ( T > R > P > 0, o čiulptuvo išmokėjimas S patogumo atveju laikomas nuliu). Kiekviename ture kiekvienas agentas gali pasirinkti vieną iš dviejų galimų veiksmų, bendradarbiauti (C) arba sugadinti (D). Kiekvienai veiksmų porai pirmasis įrašas kiekvienoje išmokų poroje priklauso agentui A, o antrasis - agentui B. ( b ) Pavlovo strategijos, atitinkančios dviejų agentų IPD bendro sprendimo sprendimą, vaizdavimas. Rodyklės sujungia optimaliausius A ir B agentų veiksmus (eilės tvarka) šiame ture su informacija apie jų veiksmus ankstesniame ture.

Visas dydis

Aukščiau pateiktame argumente neatsižvelgiama į ankstesnių agentų sąveikų galimybę. Kitaip tariant, nekreipiama dėmesio į tai, kaip agentai elgėsi ankstesniuose turuose. Tačiau daugelis strateginių sąveikų, atsirandančių biologiniame, ekonominiame ir socialiniame kontekste, yra iteracinio pobūdžio, kai individai gali pakartotinai bendrauti. Jei agentai sugeba prisiminti, kaip jų priešininkai elgėsi ankstesnėje sąveikoje, šią informaciją jie gali panaudoti formuodami savo dabartines strategijas. Tiesioginio abipusiškumo fenomeną 11 galima apibūdinti šiame bendrame kontekste, nes tai yra platforma bendradarbiavimo evoliucijos problemai spręsti pasitelkiant Iterated kalinių dilemą (IPD). Priešingai nei aprašytas vieno etapo žaidimas, IPD apima du žaidėjus, pakartotinai žaidžiančius šį žaidimą. Kaip ir vieno etapo žaidime, abipusis pralaimėjimas yra vienintelė Nash pusiausvyra baigtinai pasikartojančiam IPD, kurį galima lengvai parodyti atgaline indukcija grindžiamu argumentu. Tačiau be galo kartojamo IPD atveju pusiausvyros rezultatas yra abipusis bendradarbiavimas, kaip rodo liaudies teoremos 25 . Kompiuteriniai turnyrai, kuriuose sudaromos skirtingos programos, siekiant žaisti IPD tarpusavyje, iš tikrųjų parodė abipusiškumo principą užtikrinančių strategijų, tokių kaip TFT ir Pavlov, sėkmę, kurios gali padėti palaikyti bendradarbiavimą 1 . Būtų reikšmingas teorinis proveržis, jei kuri nors iš šių abipusių strategijų galėtų būti įrodyta kaip racionalus IPD sprendimas - net ir ribotame kontekste, tokiame kaip vieno žingsnio atminties taisyklės (ty tose, kurios atsižvelgia tik į ankstesnis turas). Kaip parodome toliau, tai galima pasiekti naudojant bendro sprendimo koncepciją. Atminkite, kad tiesioginis abipusiškumas leidžia agentams panaudoti ankstesnių sąveikų metu įgytas žinias, kad būtų galima daryti išvadą apie simetrijos egzistavimą - net jei tarp jų nėra jokio ryšio - tai yra esminis ingredientas, norint taikyti bendradarbiavimo koncepciją. Taigi, apibendrinant bendradarbiavimo veiksmų planą, kuris iš pradžių buvo pasiūlytas vieno šūvio žaidimų kontekste, į iteracinį parametrą, jį galima pritaikyti plačiai nebendradarbiaujančių strateginių sąveikų klasei, kai nereikia manyti, kad žaidėjų simetrija yra priori.

Rezultatai

IPD tarp dviejų agentų

Bendradarbiavimo sprendimas dviem agentams, žaidžiantiems IPD, gali būti gautas taip. Apsvarstykite vieno agento sąveikos turo išmokėjimo matricą, kaip parodyta 1 pav. (A). Manoma, kad mažiausio išmokėjimo S vertė yra lygi nuliui, neprarandant bendrumo. Be to, mes apsvarstome atvejį 2 R > T , kad atmestume strategijos, kurioje agentai paeiliui paeiliui bendradarbiauja ir turi trūkumų, galimybę. Aiškumo dėlei mes žiūrime į 1 žingsnio atminties strategijas, kuriose kiekvienas agentas turi žinių apie visų agentų pasirinkimą paskutiniame ture. Panašūs argumentai bus taikomi išplėtus analizę į ilgesnės atminties strategijas.

Bendradarbiavimo pusiausvyroje agentų suvokiama žaidimo situacijos simetrija nustato jų strategijas. Kadangi agentai gali prisiminti savo veiksmus prieš pat ankstesnį žaidimo turą, jei abu būtų pasirinkę tą patį veiksmą (ty, CC ar DD ), tai pripažinta kaip tarpininkų sukurianti visišką simetriją - tokiu atveju jie elgiasi taip, kaip vieno etapo PD bendro sprendimo sprendimas 22 . Jei, kita vertus, kiekvienas būtų pasirinkęs skirtingą veiksmą (ty, CD ar DC ), tada agentai supranta, kad jų padėtis nėra simetriška, ir imsis panašių į Nashą pagrįstų argumentų.

Norėdami išsamiai išdėstyti argumentą, atsižvelgiame į keturias skirtingas galimybes, kurios gali atsirasti vykdant IPD: i) agentas A bendradarbiavo, o agentas B sugadino ( CD ), ii) abu bendradarbiavo ( CC ), iii) tiek defektuotas ( DD ), tiek (iv) agentas A su defektais, kai agentas B bendradarbiavo ( DC ) paskutiniame ture. Taigi būsena, kurioje yra agentas, gali būti bet kuri iš šių:

Image

,

Image
,
Image
ir
Image
. Šioje notacijoje pirmasis įrašas žymi, ar agentas bendradarbiavo ( C ), ar trūkumų ( D ), o antrasis įrašas nurodo bendrą agentų, kurie bendradarbiavo ankstesniame ture, skaičių. Jei p i žymi agento būsenos tikimybę
Image
perjungia jos veiksmus, mes galime išreikšti numatomus išmokėjimus W i skirtingose ​​valstijose taip:

Image
Image
Image
Image

Atkreipkite dėmesį, kad išmokos W2 yra tik p 2 funkcija, o W 3 yra tik p 3 funkcija, nes pagal bendradarbiavimo schemą abu agentai šiose būsenose (atitinkamai atitinkamai CC ir DD ) yra visiškai simetriška situacija. Taigi agentai yra valstybėje

Image
(
Image
) kiekviena pereis prie defekto (bendradarbiavimo) su ta pačia tikimybe p 2 ( p 3 ). Nesunku pastebėti, kad p 2 ir p 3 vertės, maksimaliai padidinančios atitinkamas išmokėjimo funkcijas W 2 ir W 3, yra atitinkamai 0 ir 1 (atitinkančios abipusį bendradarbiavimą).

Valstybėms

Image
ir
Image
(atitinkamai atitinkamai CD ir DC ), kai agentai nėra simetrinėje situacijoje, agentai yra būsenoje
Image
bandys padidinti W 1, keičiant p 1 bet kuriai p 4 vertei, kol agentas yra būsenoje
Image
sieks maksimaliai padidinti W 4, keičiant p 4 bet kuriai p 1 reikšmei. Taikant tuos pačius samprotavimus, kurie naudojami norint gauti Nash strategijas, nesunku pastebėti, kad vienintelis abipusiai nuoseklus pasirinkimas optimalių dviejų agentų strategijų yra
Image
ir
Image
(atitinka abipusį trūkumą). Optimalios agentų strategijos skirtingose ​​būsenose yra apibendrintos 1 pav. (B). Taigi agentai imsis bendro mąstymo, kai atsidurs simetrinėje situacijoje (kaip CC ar DD ), o kitose situacijose (pvz., Kompaktiniame diske ar DC ) jie naudojasi Nashui būdingais samprotavimais. Pastaruoju atveju jie pateks į simetrišką situaciją kitame etape (pasirinkdami DD ) ir po to abipusiai bendradarbiaus.

Svarbus pastebėjimas apie aukščiau aptartą dviejų asmenų IPD bendro sprendimo sprendimą yra tai, kad optimali strategija [pav. 1 dalies b punktas] pasirodo esąs toks pat kaip Pavlovo IPD strategijos, kurią pasiūlė Nowakas ir Sigmundas 26 . Įrodyta, kad ši strategija turi tam tikrų pranašumų, palyginti su plačiai žinoma „Tit for for tat“ (TFT) strategija 1, skirta žaisti IPD, ty ji gali ištaisyti atsitiktines strategijų įgyvendinimo klaidas ir gali išnaudoti besąlygiškus bendradarbius 27, 28. Apskritai, Pavlovo elgesio tipas buvo plačiai stebimas natūraliose situacijose 29, įskaitant eksperimentinį PD 30 suvokimą. Mes pabrėžiame, kad skirtingai nei ankstesniuose tyrimuose, kur Pavlovo strategija laikoma ad hoc elgesio taisykle agentams, čia mes iš pirmųjų principų parodėme, kad tokia strategija yra optimalus sprendimas racionaliems, savanaudiškiems agentams, turintiems dviejų agentų IPD.

IPD tarp daugelio agentų

Dabar mes svarstome IPD su N (> 2) agentais, kurių kiekvienas žaidžia su visais kitais kiekviename ture. Žmogus pasirenka veiksmą ( C arba D ) kiekviename ture, kurį jis panaudoja prieš visus kitus tame ture, gaudamas išmokas už kiekvieną poros sąveiką pagal matricą 1 pav. (A). Kaip ir dviejų agentų atveju, darome prielaidą, kad S = 0 ir 2 R > T. Be to, „paprastumo“ išmokėjimą P „ 0“ nustatėme iki 0 (taip pat galima apsvarstyti)

Image

31 ). Bendras agento gautas pelnas per bet kurį turą yra atskirų išmokų iš kiekvienos ( N −1) dviejų agentų sąveikos suma. Tai užtikrina, kad visi agentai gauna mažesnį atlyginimą, jei visi turi trūkumų, nei tuo atveju, jei visi bendradarbiauja, ir jei kuris nors agentas pereina iš D į C , vidutinis agentų atlyginimas padidėja.

Ši situacija apibūdina viešųjų gėrybių dilemų, kai individualus įnašas į visuomenės gerovę padidina kolektyvinę naudą, nors asmens išlaidos už šią įmoką viršija jos gaunamą naudą 10, 32 . Nors bendroji viešųjų gėrybių problema buvo nagrinėjama remiantis įvairiais literatūros šaltiniais 33, atliekant paprastą kiekybinį nustatymą, kuriame dalyvauja gerai susimaišiusi populiacija, kaip aprašyta aukščiau, nesunku pastebėti, kad N- asmens visuomenėje yra vienas bendravimo etapas. prekių žaidimas yra lygus N −1 porų PD sąveikoms 34 . Tai nereiškia, kad viešųjų gėrybių dilemos aprašyta situacija tiesiog atitinka kiekybinį PD žaidimo agentų skaičiaus padidėjimą, o tai reiškia esminį sąveikos pobūdžio pasikeitimą 35 . Agentai gali reaguoti tik į bendrą visų kitų veiksnių poveikį, o ne į individualias konkrečių agentų strategijas. Anonimiškumas, suteikiamas asmenims, žaidžiantiems daugelio žaidėjų grupėje, reiškia, kad jie labiau linkę į defektus (ty elgiasi kaip laisvi vairuotojai), nebijodami, kad kiti imsis atsakomųjų veiksmų 23 .

Būsena, kurioje agentas yra bet kuriuo metu, gali būti apibūdinta bet kuriuo

Image
arba
Image
atsižvelgiant į tai, ar ji bendradarbiavo ( C ), ar ne ( D ) ankstesniame ture, o n žymi bendrą agentų, kurie bendradarbiavo ankstesniame ture, skaičių. Bendradarbiaujant, agentų, žaidusių C tam tikrame ture, grupė supranta, kad visi jie, pasirinkę C, yra simetriškos. Panašiai tarp agentų, kurie vaidino D, yra žinoma apie jų simetriją. Taigi kiekvienoje grupėje visi agentai kitame etape naudos tokias pačias strategijas. Paprastumui mes atsižvelgiame tik į grynas strategijas, kai agentai pasirenka C arba D su 1 23, 36, 37, 38 tikimybe.

Pirmiausia apsvarstykime du kraštutinius atvejus, susijusius su tuo, kas visi bendradarbiauja arba visi pralaimi praėjusiame ture. Jei visi agentai būtų bendradarbiavę, jie suprastų, kad visi jie taikys vienodas strategijas. Laukiamas bet kurio agento pelnas yra tiesiog neatsiejama W 2 kartotinė (žr. 2 lygmenį), o tai yra atitinkamas išmokėjimas dviejų agentų atveju, nagrinėtu anksčiau. Taigi, optimizuodami išmokėjimą, visi agentai pasirenka C kitame ture. Panašiais argumentais, jei visi agentai būtų pasirinkę klaidą ankstesniame ture, jie kitame ture pasirinks C.

Kai vieni N agentai bendradarbiauja, o kiti turi trūkumų, galime traktuoti situaciją kaip identišką dviejų žaidėjų scenarijui, kai Nash pusiausvyra yra optimali strategija. Tačiau atminkite, kad kiekvienas „žaidėjas“ dabar yra agentų grupė ir atitinkamas „Nash“ sprendimas skiriasi nuo sprendimo, atitinkančio visus, kurie suklysta, kaip gaunamas įprastame dviejų asmenų PD. Tikėtiną dviejų agentų rinkinių išmokėjimą galima patogiai pavaizduoti dviejų žaidėjų išmokėjimo matrica, kaip parodyta 2 pav. Čia eilutė atitinka i agentų rinkinį (kur

Image
), kurie bendradarbiavo paskutiniame ture, o stulpelis atitinka
Image
agentai, kurie suklydo. Kitame ture eilutė „žaidėjas“ gali pasirinkti tęsti bendradarbiavimą ( C i ) arba pereiti prie defekto ( D i ). Panašiai stulpelis „grotuvas“ gali pereiti prie bendradarbiavimo kitame ture ( C N – i ) arba tęsti trūkumą ( D N – i ). Taigi, pradedant bet kokiu bendradarbiaujančių ir trūkumų sukeliančių agentų deriniu, mes galime gauti optimalias dviejų agentų grupių strategijas, kurios priklauso nuo išmokų T / R santykio tam tikrame i .

Image

Visas dydis

Bendras keturių galimų situacijų, kurios gali kilti atsižvelgiant į santykinį dviejų agentų grupių darbo užmokesčio dydį, sprendimas yra:

  • Image
    ir
    Image
    : Iš 2 pav. Akivaizdu, kad bendradarbiavimas yra optimalus abiejų atstovų grupių pasirinkimas, nes nukrypimas nuo šios strategijos nebus naudingas nė vienam iš jų.

  • Image
    ir
    Image
    : Nesunku pastebėti, kad bendradarbiavimas yra optimalus stulpelio „grotuvas“ pasirinkimas, nepriklausomai nuo eilutės „grotuvas“ veiksmo. Naudojant šią informaciją pastebima, kad optimaliausias eilutės „žaidėjas“ pasirinkimas būtų defektas. . Taigi agentų, kurie bendradarbiavo ankstesniame ture, rinkinys pereis prie trūkumų, o tas, kuris defektavo, pereis prie bendradarbiavimo.

  • Image
    ir
    Image
    : Vėlgi lengva pastebėti, kad bendradarbiavimas yra optimalus eilutės „grotuvas“ pasirinkimas, neatsižvelgiant į stulpelio „grotuvas“ veiksmus, ir naudojant šią informaciją pastebima, kad optimaliausias stulpelio „grotuvas“ pasirinkimas būtų: defektas. Taigi agentai tęs tuos pačius veiksmus kaip ir ankstesniame ture.

  • Image
    ir
    Image
    : Ši situacija susidaro tik tada, kai i = N / 2 (taigi, tik esant lygioms N vertėms), ty kai yra vienodas skaičius bendradarbių ir defektorių. Šiuo atveju yra dvi optimaliausio veiksmo galimybės: viena, kurioje „žaidėjai“ tęsia tą patį veiksmą kaip ir ankstesniame ture, ir kita, kur kiekvienas iš jų pereina į priešingą veiksmą. Atminkite, kad nė vienu atveju bendradarbiavimo lygis nesikeičia.

Kaip aiškinamąjį tikslą, dabar išsamiai aptariame N- asmens IPD bendro sprendimo atvejus, kai N = 3, 4 ir 5. Kiekvienu iš šių atvejų pažymėsime atskiras būsenas, kurios yra įmanomos sistemai. būti kaip S j kur

Image
yra bendradarbių skaičius toje būsenoje. N = 3 veiksniams nesunku pastebėti remiantis pirmiau pateiktu bendru bendradarbiavimo sprendimu, kad optimalios strategijos lems tokią evoliuciją tarp skirtingų sistemos būsenų:
Image
,
Image
,
Image
ir
Image
. Taigi, jei visi trys agentai praėjusiame ture pasirinko tą patį veiksmą ( C arba D ), visi jie bendradarbiauja kitame ture ( S 3 ). Visais kitais atvejais sistema suartėja su būsena S 2, atitinkančia du kolaboratorius ir vieną defektą. Šis rezultatas aiškiai atskiria bendro požiūrio metodą nuo įprasto Nash sprendimo, kuris atitiktų visus tris trūkumus. Žinomas bendro sprendimo sprendimas yra stabilus kogeneratorių ir defektų egzistavimas (kaip S 2 būsenoje).

Atveju, kai N = 4, kaip ir anksčiau, remdamiesi aukščiau pateiktu bendru bendradarbiavimo sprendimu, matome, kad optimalios strategijos lems tokią evoliuciją tarp skirtingų sistemos būsenų:

Image
,
Image
,
Image
(jei 3 R ≥ 2 T ) arba
Image
(kitaip),
Image
ir
Image
. Matome, kad N = 4 (skirtingai nei N = 2 ir 3) sprendimas pradeda priklausyti nuo T ir R santykio, kuris taip pat galioja visoms aukštesnėms N reikšmėms.

Kaip paskutinį pavyzdį mes svarstome atvejį, kai N = 5. Čia optimalios strategijos priklauso nuo to, ar išmokos vertės atitinka 4 R > 3 T. Jei tai tiesa, tai lems šią skirtingas sistemos būsenų evoliuciją:

Image
,
Image
,
Image
,
Image
,
Image
ir
Image
Kita vertus, jei
Image
, bus stebima tokia raida:
Image
,
Image
,
Image
,
Image
,
Image
ir
Image
.

Taigi galime padaryti šias bendras išvadas: (a) būsena, kurioje visi bendradarbiauja (ty, i = N ), yra stabili būsena, b) būsena, kurioje visi agentai, išskyrus vieną, bendradarbiauja ( i = N −1). taip pat yra stabili būsena, c) būsenos, kuriose defektų yra mažumoje, yra stabilios, jei

Image
ir d) kai bendradarbių yra mažumoje, kitoje iteracijoje visi agentai bendradarbiaus, jei
Image
, kitaip jie pakeis atitinkamą pasirinkimą (iš C į D ir atvirkščiai). Ypatingu atveju, kai N yra net su puse pusės agentų, bendradarbiaujančių ir
Image
, įmanoma daugialypė pusiausvyra. Svarbiausia pažymėti iš aukščiau pateiktų rezultatų yra tai, kad bendradarbiai gali egzistuoti kartu su defektais ir, be to, visada sudaryti daugumą N- žaidėjo IPD bendro sprendimo sprendime.

Diskusija

Priešingai nei įprasta išmintis, kad defekcija turėtų būti teikiama pirmenybė savanaudiškų agentų strategijai, žmonėms, žaidžiantiems PD vienpakopiuose ar daugialypiuose eksperimentuose, iš tiesų pavyksta pasiekti tam tikrą bendradarbiavimo laipsnį (pvz., Žr. Nuorodą 39). Supratimą, kaip atsiranda toks bendradarbiavimas, galima ištirti atsižvelgiant į pasikartojančią agentų sąveiką. Tokiu atveju agentai gali „atsiminti“ savo ankstesnius veiksmus ir iš to išplaukiančius rezultatus, ir jie gali naudoti šią informaciją norėdami valdyti savo būsimus sprendimus - tai reiškinys, vadinamas tiesioginiu abipusiškumu 12 . Be to, buvo pasiūlyti keli kiti bendradarbiavimo natūralios atrankos būdu atsiradimo mechanizmai 40, pavyzdžiui, giminaičių atranka 41, netiesioginis abipusiškumas 42, tinklo abipusiškumas 31, 43 ir grupės atranka 44 . Net ir įprastose žaidimų teorijose buvo oficialiai bandoma pakeisti IPD, kad bendradarbiavimas būtų gyvybingas, įtraukiant tokias sąvokas kaip ε-pusiausvyra 45, neišsami informacija 46, apribotas racionalumas 47, bendrų žinių apie žaidėjų racionalumą nebuvimas 48. ir 49 kartojimų skaičius 49 ir kt. Pastaruoju metu vis daugiau dėmesio skiriama bendradarbiavimo evoliucijai erdvėje išplėstose situacijose, kai agentai bendrauja tik su savo kaimynais, apibrėžtais pagrindinės ryšio topologijos 31, 50, 51, 52, 53 .

Šiame dokumente mes nagrinėjome klausimą, ar strategija, apimanti tiesioginį abipusiškumą, leidžianti palaikyti bendradarbiavimą, gali pasirodyti kaip racionalus IPD sprendimas. Nauja mūsų perspektyva apima agentų simetrijos pripažinimą - esminę sudedamąją vietą, kuriai taikoma bendradarbiavimo programa. Pasikartojančioje aplinkoje agentai sužino apie savo simetriją su kitais agentais per savo ankstesnių susitikimų veiksmus. Svarbiausias mūsų tyrimo rezultatas yra tai, kad bendradarbiaujant ir defektoriams kartu egzistuoja N- žaidėjo IPD sprendimas; be to, dauguma agentų bendradarbiauja. Tai yra nuostabu atsižvelgiant į įprastą išmintį, kad bendradarbiauti nepaprastai sunku savanaudiškų racionalių atstovų grupėje1 . Dviejų žaidėjų atveju bendras intelektinės nuosavybės teisių sprendimas atitinka gerai žinomą Pavlovo strategiją, patvirtintą gyvūnų elgesiu ir socialine sąveika 26 . Kiek mums yra žinoma, mūsų pateiktas požiūris yra vienintelis, kuris pateikia racionalų žaidimo teorinį pagrindą tokiai strategijai, o ne siūlo ją kaip ad hoc elgesio taisyklę. Tai taip pat leidžia apibendrinti Pavlovą atsižvelgiant į kelių ( N > 2) agentų situaciją.

Svarbus IPD tyrimų aspektas yra triukšmo, kuris gali atsirasti dėl agentų netinkamo numatytų veiksmų įgyvendinimo, vaidmuo 54, 55 . Toks triukšmas taip pat gali kilti dėl klaidingo kitų agentų veiksmų aiškinimo 56 . Pavyzdžiui, IPD TFT strategija yra jautri tokiam triukšmui, nes ji negali ištaisyti atsitiktinių agentų klaidų. Nors dviejų žaidėjų atveju yra žinoma, kad Pavlovo strategija (kuri yra bendro sprendimo priemonė, kai N = 2) yra stabili esant 57 triukšmui, nesunku pastebėti, kad net ir esant N > 2 agentų, bendradarbiavimo veiksmui nedaro didelės įtakos tarpininkų klaidos.

Čia nagrinėjama pasikartojanti žaidimo situacija atitinka 1 pakopos atmintį, kur agentai saugo tik informaciją apie kitų agentų veiksmus per praėjusį turą. Bendradarbiavimo koncepcija gali būti lengvai išplėsta į bendresnę ilgesnių prisiminimų agentų situaciją, kai bus išspręstas pagrindinis klausimas, kaip tokioje aplinkoje turi būti apibrėžta agentų simetrija. Viena galimybė yra ta, kad visi agentai, kurie praeityje yra bendradarbiavę tiek pat kartų, laikomi simetriškos padėties. Todėl jie patvirtins bendradarbiavimo strategiją kitame etape. Dviem agentams, turintiems ribotą atmintį, tai galiausiai paskatins juos abu bendradarbiauti. Jei yra daugiau nei du agentai, bendradarbiavimo principas rodo, kad tie, kurie turi panašų polinkį bendradarbiauti, ty praeityje yra bendradarbiavę tiek pat kartų, sudarys grupę, apibrėžtą visiška simetrija tarp ją sudarančių agentų. . Taigi, visą N agentų rinkinį galima suskirstyti į daugybę tokių „simetrijos grupių“. Tai nusako naują strateginės sąveikos klasę, kai „žaidėjai“ yra skirtingos simetrijos grupės (kiekviena susideda iš vieno ar daugiau agentų), žaidžiančios pagal Nash pusiausvyros pateiktas strategijas. Svarbu pabrėžti, kad dėl to ne visi agentai imsis trūkumų, kaip tikimasi įprastoje Nash sistemoje. Potencialiai ši nauja žaidimų klasė gali būti naudojama analizuoti daugelio agentų strategines sąveikas įvairiuose kontekstuose.

Įdomu svarstyti, kaip bendradarbiavimo strategija daro įtaką asmenų elgesiui realiame pasaulyje. Kaip mes parodome čia, stabilūs sprendimai yra tie, kuriuose bendradarbiauja dauguma agentų, o tai rodo, kad keli trūkumai nebūtinai atšauks bendradarbiavimą visuomenėje. Taip yra todėl, kad racionalūs agentai, kurie suvokia vienas kitą kaip panašų, nebus atgrasomi nuo bendradarbiavimo, jei jie gaus pakankamai abipusės paramos - bendradarbiavimo veiksmų forma - iš panašių agentų. Taigi bendradarbiavimo veiksmai reiškia, kad, priešingai nei įprasta išmintis, racionalių asmenų sąveikoje su intelektinės nuosavybės teisių apsauga panašiais atvejais bus pastebimas didelis bendradarbiavimo lygis. Buvo atlikta daugybė eksperimentų su žmonėmis, žaidžiančiais IPD (tiek 2 asmenų, tiek kelių žaidėjų versija, ty pakartotinis viešųjų gėrybių žaidimas). Ištyrus daugelio eksperimentų rezultatus, pateiktus per kelis dešimtmečius, paaiškėja, kad tiek dviejų asmenų IPD 39, tiek pakartotinių žaidimų dėl viešųjų gėrybių 58, 59 atveju, dauguma eksperimentinių asmenų nesielgia taip, kaip numato įprastas žaidimas. teorija. Kaip parodyta šiame dokumente, bendradarbiavimo veiksmų paradigma suteikia galimybę racionaliai paaiškinti intelektinės nuosavybės teisių eksperimentus, kurie neparodo visiško bendradarbiavimo nebuvimo. Tai taip pat gali padėti suprasti nesusijusių gyvūnų, kurie nesiskiria giminystės ryšiais, elgesį bendradarbiaujant 20 - reiškinį, kuris buvo eksperimentiškai ištirtas remiantis IPD, pvz., Su paukščiais 18 .

Parametrai, kuriuose aukščiau aptarėme bendradarbiavimo raidos problemą, atitinka idealizuotą visiškai racionalių atstovų, sąveikaujančių tarpusavyje, situaciją. Nors racionalumo prielaida yra plačiai naudojama situacijose, kuriose dalyvauja žmonės, tačiau galima paklausti, kaip bendradarbiavimo paradigma gali būti taikoma kitiems gyvūnams ar net vienaląsčių organizmų kolonijoms, kai pastebimas kooperatinio elgesio atsiradimas. 4, 5, 6, 7, 8 . Kadangi simetrija yra pagrindinė sudedamoji dalis norint, kad bendradarbiavimo programa būtų galiojanti, nėra neprotinga ją taikyti bendraujant vienalytės populiacijos nariams, kurie turi bendrą tapatybę. Šis homogeniškumas gali būti susijęs, pavyzdžiui, su genetine sudėtimi, fiziognomija ar net įgytais bruožais. Priklausomai nuo konkretaus konteksto, kuriame nagrinėjama bendradarbiavimo raida, viena ar kelios iš šių tapatybių galėtų būti svarbios, kad būtų taikoma bendradarbiavimo programa. Pavyzdžiui, pagal šią sistemą natūraliai gali kilti ženklų pagrindu sukurtas „panašių“ asmenų 60 bendradarbiavimas.

Pabaigai mes parodėme, kad bendradarbiavimo paradigma suteikia naują perspektyvą bendradarbiavimo raidai. Bendradarbiavimo koncepcija buvo parodyta anksčiau, norint išspręsti socialines dilemas vieno etapo simetriniuose žaidimuose. Čia parodoma, kaip bendro veiksmo idėja taikoma bendresnėms iteracinių žaidimo situacijų nuostatoms. Informacija apie ankstesnę sąveiką leidžia agentams nustatyti simetriją (arba jos nebuvimą) tarpusavyje, leidžiančią bendradarbiauti net tada, kai agentai iš pradžių pasirinko trūkumus. Bendradarbiavimo sistema taip pat suteikia racionalų Pavlovo strategijos, kuri buvo pasiūlyta dviejų asmenų IPD, pagrindą ir apibendrina tokią strategiją kelių agentų atveju. Apskritai, mes pastebime, kad bendradarbiai ir pralaimėtojai gali egzistuoti kartu su žaidėju „ N žaidžiamų kalinių dilema“, kuriame yra dauguma žaidėjų. Tai stebina savybė, atsižvelgiant į įprastą lūkestį, kad savanaudiški, racionalūs agentai visada gedės.

Papildoma informacija

Kaip cituoti šį straipsnį : Sasidevanas, V. ir Sinha, S. Bendradarbiavimas suteikia racionalų pagrindą evoliucinei Pavlovijos strategijų sėkmei. Mokslas. Rep. 6, 30831; „doi“: 10.1038 / srep30831 (2016).

Komentarai

Pateikdami komentarą jūs sutinkate laikytis mūsų taisyklių ir bendruomenės gairių. Jei pastebite ką nors įžeidžiančio ar neatitinkančio mūsų taisyklių ar gairių, pažymėkite, kad tai netinkama.