АВА: как вероятность и величина подкрепления влияют на совершение выбора.
Однажды я наткнулся на любопытное исследование, которое называется "The Δ–∑ hypothesis: How contrast and reinforcement rate combine to generate suboptimal choice". Исследование проведено учеными: Valeria V. González, Alejandro Macías, Armando Machado, Marco Vasconcelos.
Я перевел название работы следующим образом: "Дельта-суммарная гипотеза: Как сочетание контрастности и величины подкрепления приводят к совершению неоптимального выбора".
Статья содержит в себе довольно подробное описание предыдущих исследований (посвященных дельта-суммарной гипотезе, конечно же; а вы о чем подумали?), построенных примерно по похожему принципу, но с той разницей, что в них исследователи не пытались так яро манипулировать переменными от условия к условию эксперимента. Скажу честно, предыдущие исследования я не читал. В принципе, в данной статье выводы прошлых работ приведены вполне убедительно и понятно.
Так что же ученые пытались делать до того, как госпожа Гонсалез с друзьями не вступила в игру? Они пробовали понять - какую стратегию предпочтут животные для получения еды.
У испытуемых был выбор - какую мишень использовать в качестве стратегии добычи пищи: А или Б. У каждого выбора своя мишень. Обе мишени предлагаются одновременно. Если ты клюнул мишень, то она загорится либо одним цветом, либо другим. У каждого цвета есть вероятность появления мотивационного стимула. А дальше происходит хитрость, которая связана с возможностью выпадения еды. Если Крест все же загорелся красным, а не зеленым, то ты однозначно получишь еды. Если Круг загорелся желтым или синим, то не факт, что угощение будет. Еда выпадала (если повезет) всегда через 10 секунд.
Как вы думаете, что птицы предпочитали выбирать? Можете дать себе пару минут на раздумья и не смотреть сразу в ответ............ Запомните эти муки выбора, они ещё пригодятся. Не буду томить - птицы выбирали первую мишень.
Что изменили испаноязычные товарищи в эксперименте? Они попробовали динамично менять две переменные в течение эксперимента. Экспериментов, понятно дело, было два. В одном управляли вероятностью выпадения пищи, а в другом - вероятностью возгорания цвета. Описывать их муторно, а суть экспериментов просто лишний раз показывает - голуби совсем не дураки. Они умеют перестраиваться под более эффективные стратегии добывания пищи. Тем более, что в экспериментах были этапы, когда птицам чуть ли не специально показывали насколько эффективно вываливается еда из той или другой мишени.
Самое вкусное - это интерпретации результатов. Ученые по фамилиям Roper и Zentall считают, что дело именно в контрасте успешности попыток получить еду. Возможно, что они хотели таким образом сказать - стратегия А выглядит более конкретной, пусть даже и менее справедливой. Если уж загорелся красный, то всегда можно рассчитывать на еду. Стратегия Б выглядит слишком расплывчатой.
Очень интересное мнение высказал\высказала Мазур. Мол, дело не в вероятностях и не в контрасте, а во времени ожидания. Поскольку в стратегии А (то бишь Круг) нет толком никакой связи с цветом, то испытуемый "теряет терпение" в ожидании награды. Ведь ему приходится в среднем проверять себя на прочность как минимум два раза за 20, а то и больше секунд. Любопытно, но слабовато.
Fortes и товарищи предлагают модель величины подкрепления (RRM), чтобы объяснить поведение птиц. С точки зрения модели для животного при добывании пищи важны стимулы, которые к ней однозначно ведут. Возникновение красного цвета в стратегии А (Крест) означает для них "просто попробуй еще".
Cunningham и Shahan тоже считают, что дело в информации о еде. Стратегия А (Крест) в плане еды очень информативна, поэтому и кажется привлекательной. В общем авторы сходятся, что животные просто игнорируют стимулы, которые не ведут к еде, сосредотачиваясь лишь на ведущих. Еще авторы согласны между собой в том, что птицы любят конкретику и однозначность в появлении еды (100% - это по-нашему).
Теперь мои выводы. Вспомните, насколько вам было легко принять выбор? Я поймал себя на мысли, что далеко не сразу смог понять, как работает стратегия Б. Очень сильно смущает игра цветов. Только лишь когда я обратил внимание на саму вероятность выпадения, то все встало на свои места. В случае стратегии Б цвет вообще не важен. Важно лишь то, что у неё выше вероятность выигрыша. Думаю, что интеллект голубя ниже моего, поэтому ему было бы еще сложнее догадаться.
Что мы можем взять из исследования как практики? А то, что ученикам скорее всего будут нравится более последовательные и ясные условия получения наград. Даже если условия не слишком справедливые. Имеется в виду, что у них есть очевидный и наглядный выбор - каким именно образом добиваться подкрепления: А, Б или С. Если же мы скрываем условия и\или меняем условия последовательно, то выводы настоящего исследования будут неприменимы.
Кстати, можно сделать и более широкие выводы. Попробуйте поймать себя за хвост. Как часто вы предпочитали одни выборы другим только лишь потому, что они казались четкими, однозначными и надежными? Как часто сложность и неясность казались подозрительными в результате чего вы не хотели оценивать выигрышность дальше?
- Blanchard, R. (1975). The effect of S‐ on observing behavior. Learning and Motivation, 6( 1), 1– 10. https://doi.org/10.1016/0023-9690(75)90031‐4
- Case, J. P., & Zentall, T. R. (2018). Suboptimal choice in pigeons: Does the predictive value of the conditioned reinforcer alone determine choice? Behavioural Processes, 157( July), 320– 326. https://doi.org/10.1016/j.beproc.2018.07.018
- Cunningham, P. J., & Shahan, T. A. (2018). Suboptimal choice, reward‐predictive signals, and temporal information. Journal of Experimental Psychology: Animal Learning and Cognition, 44( 1), 1– 22. https://doi.org/10.1037/xan0000160
- Cunningham, P. J., & Shahan, T. A. (2019). Rats engage in suboptimal choice when the delay to food is sufficiently long. Journal of Experimental Psychology: Animal Learning and Cognition, 45( 3), 301‐ 310. https://doi.org/10.1037/xan0000211
- Fantino, E., Dunn, R., & Meck, W. (1979). Percentage reinforcement and choice. Journal of the Experimental Analysis of Behavior, 32( 3), 335– 340. https://doi.org/10.1901/jeab.1979.32-335
- Fortes, I., Machado, A., & Vasconcelos, M. (2017). Do pigeons (Columba livia) use information about the absence of food appropriately? A further look into suboptimal choice. Journal of Comparative Psychology, 131( 4), 277– 289. https://doi.org/10.1037/com0000079
- Fortes, I., Pinto, C., Machado, A., & Vasconcelos, M. (2018). The paradoxical effect of low reward probabilities in suboptimal choice. Journal of Experimental Psychology: Animal Learning and Cognition, 44( 2), 180– 193. https://doi.org/10.1037/xan0000165
- Fortes, I., Vasconcelos, M., & Machado, A. (2016). Testing the boundaries of “paradoxical” predictions: Pigeons do disregard bad news. Journal of Experimental Psychology: Animal Learning and Cognition, 42( 4), 336– 346. https://doi.org/10.1037/xan0000114
- Gipson, C. D., Alessandri, J. J. D., Miller, H. C., & Zentall, T. R. (2009). Preference for 50% reinforcement over 75% reinforcement by pigeons. Learning and Behavior, 37( 4), 289– 298. https://doi.org/10.3758/LB.37.4.289
- Kacelnik, A., Vasconcelos, M., Monteiro, T., & Aw, J. (2011). Darwin's “tug‐of‐war” vs. starlings' “horse‐racing”: How adaptations for sequential encounters drive simultaneous choice. Behavioral Ecology and Sociobiology, 65( 3), 547– 558. https://doi.org/10.1007/s00265-010-1101-2
- Kendall, S. B. (1974). Preference for intermittent reinforcement. Journal of the Experimental Analysis of Behavior, 21( 3), 463– 473. https://doi.org/10.1901/jeab.1974.21-463
- Laude, J. R., Beckmann, J. S., Daniels, C. W., & Zentall, T. R. (2014). Impulsivity affects suboptimal gambling‐like choice by pigeons. Journal of Experimental Psychology: Animal Learning and Cognition, 40( 1). https://doi.org/10.1037/xan0000001
- Mazur, J. E. (1995). Conditioned reinforcement and choice with delayed and uncertain primary reinforcers. Journal of the Experimental Analysis of Behavior, 63( 2), 139– 150. https://doi.org/10.1901/jeab.1995.63-139
- Mazur, J. E. (1996). Choice with certain and uncertain reinforcers in an adjusting‐delay procedure. Journal of the Experimental Analysis of Behavior, 66( 1), 63– 73. https://doi.org/10.1901/jeab.1996.66-63
- McDevitt, M. A., Dunn, R. M., Spetch, M. L., & Ludvig, E. A. (2016). When good news leads to bad choices. Journal of the Experimental Analysis of Behavior, 105( 1), 23‐ 40. https://doi.org/10.1002/jeab.192
- McDevitt, M. A., Spetch, M. L., & Dunn, R. (1997). Contiguity and conditioned reinforcement in probabilistic choice. Journal of the Experimental Analysis of Behavior, 68( 3), 317– 327. https://doi.org/10.1901/jeab.1997.68-317
- Roper, K. L., & Zentall, T. R. (1999). Observing behavior in pigeons: The effect of reinforcement probability and response cost using a symmetrical choice procedure. Learning and Motivation, 30( 3), 201– 220. https://doi.org/10.1006/lmot.1999.1030
- Smith, A. P., Bailey, A. R., Chow, J. J., Beckmann, J. S., & Zentall, T. R. (2016). Suboptimal choice in pigeons: Stimulus value predicts choice over frequencies. PLoS ONE, 11( 7), 1– 18. https://doi.org/10.1371/journal.pone.0159336
- Smith, A. P., & Zentall, T. R. (2016). Suboptimal choice in pigeons: Choice is primarily based on the value of the conditioned reinforcer rather than overall reinforcement rate. Journal of Experimental Psychology: Animal Learning and Cognition, 42( 2), 212– 220. https://doi.org/10.1037/xan0000092
- Spetch, M. L., Belke, T. W., Barnet, R. C., Dunn, R., & Pierce, W. D. (1990). Suboptimal choice in a percentage‐reinforcement procedure: Effects of signal condition and terminal‐link length. Journal of the Experimental Analysis of Behavior, 53( 2), 219– 234. https://doi.org/10.1901/jeab.1990.53-219
- Stagner, J. P., Laude, J. R., & Zentall, T. R. (2011). Sub‐optimal choice in pigeons does not depend on avoidance of the stimulus associated with the absence of reinforcement. Learning and Motivation, 42( 4), 282– 287. https://doi.org/10.1016/j.lmot.2011.09.001
- Stagner, J. P., Laude, J. R., & Zentall, T. R. (2012). Pigeons prefer discriminative stimuli independently of the overall probability of reinforcement and of the number of presentations of the conditioned reinforcer. Journal of Experimental Psychology: Animal Behavior Processes, 38( 4), 446– 452. https://doi.org/10.1037/a0030321
- Stagner, J. P., & Zentall, T. R. (2010). Suboptimal choice behavior by pigeons. Psychonomic Bulletin & Review, 17( 3), 412– 416. https://doi.org/10.3758/PBR.17.3.412
- Vasconcelos, M., Machado, A., & Pandeirada, J. N. S. (2018). Ultimate explanations and suboptimal choice. Behavioural Processes, 152, 63‐ 72. https://doi.org/10.1016/j.beproc.2018.03.023
- Vasconcelos, M., Monteiro, T., & Kacelnik, A. (2015). Irrational choice and the value of information. Scientific Reports, 5, 13874. https://doi.org/10.1038/srep13874
- Zentall, T. R. (2015). When animals misbehave: Analogs of human biases and suboptimal choice. Behavioural Processes, 112, 3‐ 13. https://doi.org/10.1016/j.beproc.2014.08.001
- Zentall, T. R., Andrews, D. M., & Case, J. P. (2017). Prior commitment: Its effect on suboptimal choice in a gambling‐like task. Behavioural Processes, 145( September), 1– 9. https://doi.org/10.1016/j.beproc.2017.09.008
- Zentall, T. R., Laude, J. R., Stagner, J. P., & Smith, A. P. (2015). Suboptimal choice by pigeons: Evidence that the value of the conditioned reinforcer rather than its frequency determines choice. Psychological Record, 65( 2), 223– 229. https://doi.org/10.1007/s40732-015-0119-2
- Zentall, T. R., & Stagner, J. P. (2011). Sub‐optimal choice by pigeons: Failure to support the Allais paradox. Learning and Motivation, 42( 3), 245– 254. https://doi.org/10.1016/j.lmot.2011.03.002