Ошибка конъюнкции вероятностей

From Wikipedia, the free encyclopedia

The conjunction fallacy (also known as the Linda problem) is an inference from an array of particulars, in violation of the laws of probability, that a conjoint set of two or more conclusions is likelier than any single member of that same set. It is a type of formal fallacy.

Definition and basic example[edit]

I am particularly fond of this example [the Linda problem] because I know that the [conjoint] statement is least probable, yet a little homunculus in my head continues to jump up and down, shouting at me—»but she can’t just be a bank teller; read the description.»

Stephen J. Gould[1]

The most often-cited example of this fallacy originated with Amos Tversky and Daniel Kahneman.[2][3][4]

Linda is 31 years old, single, outspoken, and very bright. She majored in philosophy. As a student, she was deeply concerned with issues of discrimination and social justice, and also participated in anti-nuclear demonstrations.

Which is more probable?

  1. Linda is a bank teller.
  2. Linda is a bank teller and is active in the feminist movement.

The majority of those asked chose option 2. However, the probability of two events occurring together (that is, in conjunction) is always less than or equal to the probability of either one occurring alone—formally, for two events A and B this inequality could be written as {displaystyle Pr(Aland B)leq Pr(A)} and {displaystyle Pr(Aland B)leq Pr(B)}.

For example, even choosing a very low probability of Linda’s being a bank teller, say Pr(Linda is a bank teller) = 0.05 and a high probability that she would be a feminist, say Pr(Linda is a feminist) = 0.95, then, assuming these two facts are independent of each other, Pr(Linda is a bank teller and Linda is a feminist) = 0.05 × 0.95 or 0.0475, lower than Pr(Linda is a bank teller).

Tversky and Kahneman argue that most people get this problem wrong because they use a heuristic (an easily calculated) procedure called representativeness to make this kind of judgment: Option 2 seems more «representative» of Linda from the description of her, even though it is clearly mathematically less likely.[4]

In other demonstrations, they argued that a specific scenario seemed more likely because of representativeness, but each added detail would actually make the scenario less and less likely. In this way it could be similar to the misleading vividness or slippery slope fallacies. More recently Kahneman has argued that the conjunction fallacy is a type of extension neglect.[5]

Joint versus separate evaluation[edit]

In some experimental demonstrations, the conjoint option is evaluated separately from its basic option. In other words, one group of participants is asked to rank-order the likelihood that Linda is a bank teller, a high school teacher, and several other options, and another group is asked to rank-order whether Linda is a bank teller and active in the feminist movement versus the same set of options (without «Linda is a bank teller» as an option). In this type of demonstration, different groups of subjects still rank-order Linda as a bank teller and active in the feminist movement more highly than Linda as a bank teller.[4]

Separate evaluation experiments preceded the earliest joint evaluation experiments, and Kahneman and Tversky were surprised when the effect was observed even under joint evaluation.[6]

In separate evaluation, the term conjunction effect may be preferred.[4]

Other examples[edit]

While the Linda problem is the best-known example, researchers have developed dozens of problems that reliably elicit the conjunction fallacy.

Tversky & Kahneman (1981)[edit]

The original report by Tversky & Kahneman[2] (later republished as a book chapter[3]) described four problems that elicited the conjunction fallacy, including the Linda problem. There was also a similar problem about a man named Bill (a good fit for the stereotype of an accountant — «intelligent, but unimaginative, compulsive, and generally lifeless» — but not a good fit for the stereotype of a jazz player), and two problems where participants were asked to make predictions for events that could occur in 1981.

Policy experts were asked to rate the probability that the Soviet Union would invade Poland, and the United States would break off diplomatic relations, all in the following year. They rated it on average as having a 4% probability of occurring. Another group of experts was asked to rate the probability simply that the United States would break off relations with the Soviet Union in the following year. They gave it an average probability of only 1%.

In an experiment conducted in 1980, respondents were asked the following:

Suppose Björn Borg reaches the Wimbledon finals in 1981. Please rank order the following outcomes from most to least likely.

  • Borg will win the match
  • Borg will lose the first set
  • Borg will lose the first set but win the match
  • Borg will win the first set but lose the match

On average, participants rated «Borg will lose the first set but win the match» more likely than «Borg will lose the first set».

Tversky & Kahneman (1983)[edit]

Tversky and Kahneman followed up their original findings with a 1983 paper[4] that looked at dozens of new problems, most of these with multiple variations. The following are a couple of examples.

Consider a regular six-sided die with four green faces and two red faces. The die will be rolled 20 times and the sequence of greens (G) and reds (R) will be recorded. You are asked to select one sequence, from a set of three, and you will win $25 if the sequence you choose appears on successive rolls of the die.

  1. RGRRR
  2. GRGRRR
  3. GRRRRR

65% of participants chose the second sequence, though option 1 is contained within it and is shorter than the other options. In a version where the $25 bet was only hypothetical the results did not significantly differ. Tversky and Kahneman argued that sequence 2 appears «representative» of a chance sequence[4] (compare to the clustering illusion).

A health survey was conducted in a representative sample of adult males in British Columbia of all ages and occupations.

Mr. F. was included in the sample. He was selected by chance from the list of participants.

Which of the following statements is more probable? (check one)

  1. Mr. F. has had one or more heart attacks.
  2. Mr. F. has had one or more heart attacks and he is over 55 years old.

The probability of the conjunctions is never greater than that of its conjuncts. Therefore, the first choice is more probable.

Criticism[edit]

Critics such as Gerd Gigerenzer and Ralph Hertwig criticized the Linda problem on grounds such as the wording and framing. The question of the Linda problem may violate conversational maxims in that people assume that the question obeys the maxim of relevance. Gigerenzer argues that some of the terminology used have polysemous meanings, the alternatives of which he claimed were more «natural». He argues that one meaning of probable («what happens frequently») corresponds to the mathematical probability people are supposed to be tested on, but other meanings («what is plausible» and «whether there is evidence») do not.[7][8] The term «and» has even been argued to have relevant polysemous meanings.[9] Many techniques have been developed to control for this possible misinterpretation, but none of them has dissipated the effect.[10][11]

Many variations in wording of the Linda problem were studied by Tversky and Kahneman.[4] If the first option is changed to obey conversational relevance, i.e., «Linda is a bank teller whether or not she is active in the feminist movement» the effect is decreased, but the majority (57%) of the respondents still commit the conjunction error. If the probability is changed to frequency format (see debiasing section below) the effect is reduced or eliminated. However, studies exist in which indistinguishable conjunction fallacy rates have been observed with stimuli framed in terms of probabilities versus frequencies.[12]

The wording criticisms may be less applicable to the conjunction effect in separate evaluation.[vague][7] The «Linda problem» has been studied and criticized more than other types of demonstration of the effect (some described below).[6][9][13]

In an incentivized experimental study, it has been shown that the conjunction fallacy decreased in those with greater cognitive ability, though it did not disappear.[14] It has also been shown that the conjunction fallacy becomes less prevalent when subjects are allowed to consult with other subjects.[15]

Still, the conjunction fallacy occurs even when people are asked to make bets with real money,[16] and when they solve intuitive physics problems of various designs.[17]

Debiasing[edit]

Drawing attention to set relationships, using frequencies instead of probabilities, and/or thinking diagrammatically sharply reduce the error in some forms of the conjunction fallacy.[4][8][9][18]

In one experiment the question of the Linda problem was reformulated as follows:

There are 100 persons who fit the description above (that is, Linda’s). How many of them are:

  • Bank tellers? __ of 100
  • Bank tellers and active in the feminist movement? __ of 100

Whereas previously 85% of participants gave the wrong answer (bank teller and active in the feminist movement), in experiments done with this questioning none of the participants gave a wrong answer.[18] Participants were forced to use a mathematical approach and thus recognized the difference more easily.

However, in some tasks only based on frequencies, not on stories, that used clear logical formulations, conjunction fallacies continued to occur dominantly, with only few exceptions, when the observed pattern of frequencies resembled a conjunction.[19]

References[edit]

  1. ^ Gould, Stephen J. (1988). «The Streak of Streaks». The New York Review of Books.
  2. ^ a b Tversky, Amos; Kahneman, Daniel (1981). Judgments of and by representativeness (Report). Stanford University.
  3. ^ a b Tversky, A.; Kahneman, D. (1982). «Judgments of and by representativeness». In Kahneman, D.; Slovic, P.; Tversky, A. (eds.). Judgment under uncertainty: Heuristics and biases. Cambridge, UK: Cambridge University Press. ISBN 0-521-28414-7.
  4. ^ a b c d e f g h Tversky, Amos; Kahneman, Daniel (October 1983). «Extension versus intuitive reasoning: The conjunction fallacy in probability judgment». Psychological Review. 90 (4): 293–315. doi:10.1037/0033-295X.90.4.293. Archived from the original on 2013-02-23.
  5. ^ Kahneman, Daniel (2000). «Evaluation by moments, past and future». In Kahneman, Daniel; Tversky, Amos (eds.). Choices, Values and Frames. Cambridge University Press. ISBN 0-521-62749-4.
  6. ^ a b Kahneman, Daniel (2011). «Linda: Less is More». Thinking, Fast and Slow. New York: Farrar, Straus and Giroux. pp. 156–165.
  7. ^ a b Gigerenzer, Gerd (1996). «On narrow norms and vague heuristics: A reply to Kahneman and Tversky». Psychological Review. 103 (3): 592–596. CiteSeerX 10.1.1.314.996. doi:10.1037/0033-295X.103.3.592.
  8. ^ a b Hertwig, Ralph; Gigerenzer, Gerd (1999). «The ‘Conjunction Fallacy’ Revisited: How Intelligent Inferences Look Like Reasoning Errors». Journal of Behavioral Decision Making. 12 (4): 275–305. CiteSeerX 10.1.1.157.8726. doi:10.1002/(sici)1099-0771(199912)12:4<275::aid-bdm323>3.3.co;2-d. S2CID 15453720.
  9. ^ a b c Mellers, B.; Hertwig, R.; Kahneman, D. (2001). «Do frequency representations eliminate conjunction effects? An exercise in adversarial collaboration» (PDF). Psychological Science. 12 (4): 269–275. doi:10.1111/1467-9280.00350. hdl:11858/00-001M-0000-0025-957F-D. PMID 11476091. S2CID 38522595.
  10. ^ Moro, Rodrigo (2009). «On the nature of the conjunction fallacy». Synthese. 171 (1): 1–24. doi:10.1007/s11229-008-9377-8. hdl:11336/69232. S2CID 207244869.
  11. ^ Tentori, Katya; Crupi, Vincenzo (2012). «On the conjunction fallacy and the meaning of and, yet again: A reply to Hertwig, Benz, and Krauss» (PDF). Cognition. 122 (2): 123–134. doi:10.1016/j.cognition.2011.09.002. PMID 22079517. S2CID 6192639. Archived (PDF) from the original on 2016-05-10.
  12. ^ See, for example: Tentori, Katya; Bonini, Nicolao; Osherson, Daniel (2004). «The conjunction fallacy: a misunderstanding about conjunction?». Cognitive Science. 28 (3): 467–477. doi:10.1207/s15516709cog2803_8. Or: Wedell, Douglas H.; Moro, Rodrigo (2008). «Testing boundary conditions for the conjunction fallacy: Effects of response mode, conceptual focus, and problem type». Cognition. 107 (1): 105–136. doi:10.1016/j.cognition.2007.08.003. PMID 17927971. S2CID 17197695.
  13. ^ Kahneman, Daniel; Tversky, Amos (1996). «On the reality of cognitive illusions». Psychological Review. 103 (3): 582–591. CiteSeerX 10.1.1.174.5117. doi:10.1037/0033-295X.103.3.582. PMID 8759048.
  14. ^ Oechssler, Jörg; Roider, Andreas; Schmitz, Patrick W. (2009). «Cognitive abilities and behavioral biases» (PDF). Journal of Economic Behavior & Organization. 72 (1): 147–152. doi:10.1016/j.jebo.2009.04.018.
  15. ^ Charness, Gary; Karni, Edi; Levin, Dan (2010). «On the conjunction fallacy in probability judgment: New experimental evidence regarding Linda». Games and Economic Behavior. 68 (2): 551–556. CiteSeerX 10.1.1.153.3553. doi:10.1016/j.geb.2009.09.003. hdl:10419/49905.
  16. ^ Sides, Ashley; Osherson, Daniel; Bonini, Nicolao; Viale, Riccardo (2002). «On the reality of the conjunction fallacy». Memory & Cognition. 30 (2): 191–198. doi:10.3758/BF03195280. PMID 12035881. S2CID 1650529.
  17. ^ Ludwin-Peery, Ethan; Bramley, Neil; Davis, Ernest; Gureckis, Todd (2020). «Broken Physics: A Conjunction-Fallacy Effect in Intuitive Physical Reasoning». Psychological Science. 31 (12): 1602–1611. doi:10.1177/0956797620957610. hdl:20.500.11820/ffe59a49-8a8b-4def-9281-baa4c7653fba. PMID 33137265. S2CID 220479849.
  18. ^ a b Gigerenzer, G. (1991). «How to make cognitive illusions disappear: Beyond ‘heuristics and biases.’«. European Review of Social Psychology. 2 (1): 83–115. CiteSeerX 10.1.1.336.9826. doi:10.1080/14792779143000033.
  19. ^ von Sydow, M. (2011). «The Bayesian Logic of Frequency-Based Conjunction Fallacies». Journal of Mathematical Psychology. 55 (2): 119–139. doi:10.1016/j.jmp.2010.12.001.

External links[edit]

  • Fallacy files: Conjunction fallacy

Ошибка конъюнкции заключается в том, что вероятность двух событий оценивается выше вероятности каждого из этих событий, происходящих отдельно. Фактически, вероятность ниже, потому что они являются продуктом этих отдельных, часто независимых событий. Это происходит в ситуациях, когда конъюнкция создает единое целое или выглядит более убедительно, чем отдельный элемент.

Ошибка конъюнкции — результаты тестов

1. Даниэль Канеман и Амос Тверский в 1982 году провели известный сегодня  эксперимент. Они дали респондентам такое описание молодой женщины:

«Линде 31 год, она не замужем, за словом в карман не лезет и очень сообразительная. Она училась на факультете философии. Студенткой много размышляла о дискриминации и социальной несправедливости, участвовала в демонстрациях против распространения ядерного оружия»

Затем они попросили оценить правдоподобность сказанного от наиболее до наименее вероятного:

                (А) Линда активный участник феминистского движения,

                (Б) Линда является банковским работником,

                (В) Линда является банковским работником и активист в феминистском движении.

85% респондентов указали, что с большей вероятностью Линда феминистка (А), чем феминистка и работает в банке (В).  Вероятность, что девушка будет феминисткой и работать в банке (В) оценили больше, чем просто работает в банке (Б). Когда респондентам оставили лишь 2 варианта для выбора (Б) и (В) – большинство склонялось  к последнему, целому варианту (В).

Математика, однако, неумолима: даже если вероятность того, что Линда является банковским служащим, небольшая (например, 5%), а вероятность того, что она является активной феминисткой, очень велика (например, 95%), то вероятность обоих случаев (работа в банке и активная феминистка) меньше вероятности  отдельного фактора с меньшей вероятностью (ровно 0,95 * 0,05 = 0,0475 или 4,75%).

Канеман и Тверский объяснили это явление ссылкой на эвристику репрезентативности — проще представить на основе описания Линду как активиста феминистского движения и сотрудника банка, а не просто сотрудника банка.

2. В другом исследовании (1982 г.) Канеман и Тверский спросили экспертов, что они считают более вероятными: полное приостановление дипломатических отношений между США и СССР или вторжение СССР в Польшу и полное приостановление дипломатических отношений между США и СССР? Эксперты оценили, что второй случай более вероятен, т. е. они оценили возникновение нескольких, событий (приостановка отношений и вторжение) как более возможное, чем вероятность одного события (разрыв отношений).

3. Что касается инвестиций, Эккехард Стефан и Гвидо Киел изучили ошибку конъюнкции на финансовых рынках. Группе из 142 институциональных и частных инвесторов они предложили четыре варианта событий (один из них вышел за рамки экономики). Они попросили участников оценить вероятность событий:

  • падение индекса Dow Jones / падение индекса Nikkei или падения индекса Дон-Джонса со снижением индекса Nikkei
  • повышение процентных ставок в США  или одновременное повышения цен и процентных ставок в США
  • увеличение акциза на нефть в Германии / падение потребления нефти в Германии или увеличением акциза на нефть в Германии с падением потребления нефти в Германии.

Во всех трех случаях инвесторы оценили, что с равной, либо большей вероятностью произойдут комбинированным события, нежели одно событие. Таким образом, они совершили ошибку конъюнкции.

Ошибка конъюнкции на практике

Большинство людей, скорее всего, не сомневаются, что вероятность двух явлений, происходящих одновременно, меньше, чем вероятность отдельного явления. Например, кажется очевидным, что шанс увидеть красный или зеленый автомобиль на улице больше чем появление красного – зеленого автомобиля. Однако понимание вероятности может быть искажено жизненным опытом и знаниями о мире, которые получает человек. Например, зная, что насморк и высокая температура часто возникают у детей одновременно, можно сделать вывод, что если у ребенка насморк, то с большой вероятностью, у него будет лихорадка. И все же, как показывает практика, гораздо чаще эти симптомы не пересекаются или встречаются в других конфигурациях. Оказывается, что наше мышление и оценка вероятности могут быть очень далеки от классических базовых правил теории вероятности и статистики.

В торговле ошибка конъюнкции может заставить инвестора вести себя нерационально. Например, инвестор оценит детальный прогноз с несколькими анализируемыми элементами, как более вероятный. Я подчеркиваю, что речь идет не о коррелированных показателях или многоинтервальном анализе, а о независимых событиях.

Можно ли избежать ошибки конъюнкции?

Скорее всего, это невозможно. Хуже того, результаты исследований и ежедневные наблюдения показывают, что поведение человека перестает быть рациональным, когда на принятие решения влияет эвристика, а не знание принципов вероятности, статистики и логического мышления. Поэтому стоит обращать внимание на свои мыслительные процессы и спрашивать себя: «каковы предпосылки для составления таких выводов?»

Оригинальное название: 

Additional Problems of Probabilistic Reasoning

Ошибка конъюнкции

Рассмотрим знаменитую “проблему Линды”:

Линде 31 год, она не замужем, за словом в карман не лезет и очень сообразительная. Она училась на факультете философии. Студенткой много размышляла о дискриминации и социальной несправедливости, участвовала в демонстрациях против распространения ядерного оружия.

Оцените эти утверждения по шкале от 1 (самое вероятное) до 8 (наименее вероятное):

  • a. Линда учитель в начальной школе ___;
  • b. Линда продавец в книжном магазине и посещает занятия по йоге ___;
  • c. Линда активно участвует в движении феминисток ___;
  • d. Линда социальный работник ___;
  • e. Линда состоит в лиге Защиты Прав Женщин ___;
  • f. Линда банковский служащий ___;
  • g. Линда менеджер по продажам ___;
  • h. Линда банковский служащий и активно участвует в движении феминисток ___;

Большинство людей при прохождении этого теста демонстрирует так называемую “ошибку конъюнкции”. Вариант “h” (Линда банковский служащий и активно участвует в движении феминисток) является соединением вариантов “c” и “f”, поэтому вероятность варианта “h” не может быть выше вероятностей “с” или “f”. Тем не менее, свыше 80% опрошенных присваивает варианту “h” более высокую вероятность, чем вариантам “c” или “f”

Такое часто случается благодаря эффекту “подстановки атрибута”. Он возникает, когда необходимо оценивать один атрибут предмета, а на деле оценивается другой атрибут, связанный с первым — по принципу “меньшего труда”. Например, в данном примере “участник движения феминисток” кажется ближе к Линде и “тащит” за собой “банковский служащий”, а сам по себе атрибут “банковский служащий” с описанием Линды никак не связан и его труднее принять во внимание. Логика, конечно же, диктует нам, что множество “феминистки И банковские служащие” является лишь частью множества “банковские служащие” и потому меньше его.

Инвертирование условных вероятностей

Инвертирование условных вероятностей — одна из тех ошибок в оценке вероятностей, которая часто отражается на реальной жизни, Речь о предположении, что вероятность события A при условии наступления события B – это то же самое, что вероятность события B при условии наступления события A. Это два совершенно разных случая часто принимаются за один. Конечно, иногда различие очевидно: например, вероятность беременности при условии сексуального контакта совсем не то же самое, что вероятность сексуального контакта при условии беременности. Но бывают и более сложные случаи.

Напомним определение условных вероятностей:

     P(A/B) = P(A и B)/P(B)
     P(B/A) = P(A и B)/P(A)

Когда вероятность события A намного больше условного события B, тогда P(A/B) будет намного выше, чем P(B/A).

В 1988 году в одной из калифорнийских газет была опубликована статья с результатами опроса студентов. Опрос, как казалось, подтверждал, что вероятность употребления тяжёлых наркотиков растёт, если человек курил марихуану. На самом деле опрос показал, что вероятность того, что человек курил марихуану, выше среди тех, кто употреблял тяжёлые наркотики. Это два совершенно разных случая. Вероятность того, что студент употребляет тяжёлый наркотик, попробовав перед тем марихуану, намного, намного меньше, чем вероятность того, что употребляющие тяжелый наркотик раньше курили марихуану.

Большинство курящих марихуану не пробовали тяжелых наркотиков, но большинство употребляющих тяжёлые наркотики раньше курили марихуану.

Для наглядности:

  употребляет тяжёлые наркотики не употребляет тяжёлые наркотики
курил марихуану 50 950
не курил марихуану 10 2000

Очень немногие (60 из 3010, меньше 2%) употребляют тяжёлые наркотики, зато примерно треть курили марихуану. Вероятность того, что употребляющие тяжёлые наркотики курили марихуану, весьма велика:

P(курили марихуану / употребляют тяжёлые наркотики) = 50/60 = 0,83

Тем не менее, вероятность того, что курящий марихуану перейдёт на тяжёлые наркотики, весьма мала:

P(употребляют тяжёлые наркотики / курили марихуану) = 50/1000 = 0,05

Важная область, в которой инвертирование условных вероятностей происходит особенно часто — диагнозы в медицине. Обнаружено, что как пациенты, так и врачи путаются, ошибочно считая, что вероятность болезни, сопровождаемой данным симптомом — это то же, что вероятность данного симптома при этой болезни.

Например, если я вам скажу, что некоторый тест обнаружил у вас рак, вы будете, мягко говоря, обеспокоены. Если я добавлю, что точность данного конкретного теста 90%, вы взбудоражитесь ещё больше. Однако если я вам скажу, что вероятность рака на самом деле меньше 20%, всё станет выглядеть намного лучше, правда?

Подробнее: предположим, этот тест проверили на 1000 человек. Рак нашли у ста из них. Для наглядности:

  рак действительно есть рака нет
положительный тест 90 500
отрицательный тест 10 400

Из таблицы видно, что точность теста в самом деле 90% — реальный рак он нашёл в 90 случаях из ста. Это вероятность P(положительный тест / рак действительно есть). Это очевидно не то, что нужно вам. Вам требуется вероятность P(рак действительно есть / положительный тест), а она равна лишь 90/590=15,3%.

К несчастью, это далеко не придуманный пример. Известен случай, когда врач порекомендовал превентивную терапию, спутав вероятность рака по показаниям теста, с вероятностью срабатывания теста при раке. Так как превентивная терапия заключалась в удалении молочных желез, вы теперь можете понять, насколько серьёзными могут быть последствия ошибок обсуждаемого вида.

Законы вероятности¶

Open in Colab

Следующая ячейка загружает файл utils.py, содержащий некоторую полезную функцию, которая нам понадобится:

In [1]:

from os.path import basename, exists

def download(url):
    filename = basename(url)
    if not exists(filename):
        from urllib.request import urlretrieve
        local, _ = urlretrieve(url, filename)
        print('Downloaded ' + local)

download('https://github.com/AllenDowney/BiteSizeBayes/raw/master/utils.py')

Следующая ячейка загружает файл данных, который мы будем использовать в этом блокноте.

In [2]:

download('https://github.com/AllenDowney/BiteSizeBayes/raw/master/gss_bayes.csv')

Если все установлено, то следующая ячейка должна работать без сообщений об ошибках:

In [3]:

import pandas as pd
import numpy as np

from utils import values

Вступление¶

В этом блокноте используется вычислительный подход к пониманию вероятности. Мы будем использовать данные Общего социального опроса (General Social Survey), чтобы вычислить вероятность таких предположений, как:

  • Если я выберу случайного респондента в опросе, какова вероятность, что это будут женщины?

  • Если я выберу случайного респондента, какова вероятность того, что он будет работать в банковской сфере?

Оттуда мы исследуем две взаимосвязанные концепции:

  • Конъюнкция, которая представляет собой совместную вероятность того, что оба утверждения верны; например, какова вероятность выбора женщины-банкира?

  • Условная вероятность, которая представляет собой вероятность того, что одно утверждение верно, при условии, что верно другое; например, учитывая, что респондент — женщина, какова вероятность того, что она банкир?

Я выбрал эти примеры, потому что они связаны с известным экспериментом Тверски и Канемана, которые задали следующий вопрос:

Линде 31 год, она незамужняя, искренняя и очень умная. По специальности философ. Будучи студенткой, она глубоко интересовалась проблемами дискриминации и социальной справедливости, а также участвовала в антиядерных демонстрациях. Что более вероятно?

  1. Линда — кассир в банке.
  2. Линда — кассир в банке и активный участник феминистского движения.

Многие люди выбирают второй ответ, предположительно потому, что он кажется более соответствующим описанию. Кажется маловероятным, что Линда будет просто кассиром в банке; если она кассир в банке, вполне вероятно, что она также будет феминисткой.

Но второй ответ не может быть «более вероятным», как задается вопрос. Предположим, мы найдем 1000 человек, которые подходят под описание Линды, и 10 из них работают кассирами в банке.

Сколько из них тоже феминистки? Максимум, их 10; в этом случае оба варианта равновероятны.

Скорее всего, только некоторые из них феминистки; в этом случае второй вариант менее вероятен. Но не может быть больше 10 из 10, поэтому второй вариант не может быть более вероятным.

Ошибка, которую совершают люди, выбирая второй вариант, называется ошибкой конъюнкции или когнитивным искажением.

Это называется заблуждением, потому что это логическая ошибка, и «конъюнкция», потому что «кассир в банке И феминистка» — это логическая конъюнкция.

Если этот пример вызывает у вас дискомфорт, значит, вы в хорошей компании. Биолог Стивен Дж. Гулд писал:

Мне особенно нравится этот пример, потому что я знаю, что [второе] утверждение наименее вероятно, но маленький гомункул в моей голове продолжает прыгать вверх и вниз, крича на меня, «но она не может быть просто кассиром в банке; прочитайте описание.»

Если человечек в вашей голове все еще недоволен, возможно, вам поможет этот блокнот.

Вероятность¶

Здесь я должен определить вероятность, но это оказывается на удивление трудным. Чтобы не увязнуть, прежде чем мы начнем, я начну с простого определения: вероятность — это доля (fraction) набора данных.

Например, если мы опрашиваем 1000 человек, и 20 из них являются кассирами в банке, доля работающих кассирами в банке составляет 0,02 или 2%. Если мы выберем человека из этой группы случайным образом, вероятность того, что он будет кассиром в банке, составит 2%.

Под «случайным образом» я подразумеваю, что каждый человек в наборе данных имеет одинаковые шансы быть выбранным, а под «они» я подразумеваю единственное, гендерно-нейтральное местоимение, которое является правильной и полезной особенностью английского языка.

Имея это определение и соответствующий набор данных, мы можем вычислять вероятности путем подсчета.

Для демонстрации я буду использовать набор данных из Общего социального опроса или General Social Survey (GSS).

Следующая ячейка читает данные.

In [4]:

gss = pd.read_csv('gss_bayes.csv', index_col=0)

Результатом является фрейм данных pandas с одной строкой для каждого опрошенного человека и одним столбцом для каждой выбранной мной переменной.

Вот количество строк и столбцов:

А вот и первые несколько строк:

Out[6]:

year age sex polviews partyid indus10
caseid
1 1974 21.0 1 4.0 2.0 4970.0
2 1974 41.0 1 5.0 0.0 9160.0
5 1974 58.0 2 6.0 1.0 2670.0
6 1974 30.0 1 5.0 4.0 6870.0
7 1974 48.0 1 5.0 4.0 7860.0

Столбцы:

  • caseid: идентификатор респондента (который является индексом таблицы),

  • year: год, когда респондент был опрошен,

  • age: возраст респондента на момент опроса,

  • sex: мужской или женский,

  • polviews: диапазон политических взглядов от либеральных до консервативных,

  • partyid: принадлежность к политической партии, демократическая, независимая или республиканская,

  • indus10: код отрасли, в которой работает респондент.

Давайте рассмотрим эти переменные более подробно, начиная с indus10.

Банковское дело¶

Код для «Банковской и связанной с ней деятельности» — 6870, поэтому мы можем выбрать таких банкиров:

In [7]:

banker = (gss['indus10'] == 6870)

Результатом является логическая серия, которая представляет собой серию pandas, содержащую значения True и False.

Вот несколько первых записей:

Out[8]:

caseid
1    False
2    False
5    False
6     True
7    False
Name: indus10, dtype: bool

Мы можем использовать values, чтобы узнать, сколько раз появляется каждое значение.

Out[9]:

counts
values
False 48562
True 728

В этом наборе данных 728 банкиров.

Если мы используем функцию sum в этой серии, она обрабатывает True как 1, а False как 0, поэтому общее количество — это количество банкиров.

Чтобы вычислить долю банкиров, мы можем разделить на количество людей в наборе данных:

In [11]:

banker.sum() / banker.size

Но мы также можем использовать функцию mean, которая вычисляет долю значений True в серии:

Около 1,5% респондентов работают в банковской сфере. Это означает, что если мы выберем случайного человека из набора данных, вероятность того, что он банкир, составляет около 1,5%.

Задание: Значения sex в столбце кодируются следующим образом:

1    Male
2    Female

Следующая ячейка создает логическую серию, которая имеет значение True для респондентов-женщин и False в противном случае.

In [13]:

female = (gss['sex'] == 2)
  • Используйте values для отображения количества True и False значений у female.

  • Используйте sum, чтобы подсчитать количество респондентов-женщин.

  • Используйте mean, чтобы вычислить долю респондентов-женщин.

Политические взгляды¶

Значения polviews оцениваются по семибалльной шкале:

1   Extremely liberal (Чрезвычайно либеральный)
2   Liberal (Либерал)
3   Slightly liberal (Слегка либеральный)
4   Moderate (Умеренный)
5   Slightly conservative (Слегка консервативный)
6   Conservative (Консервативный)
7   Extremely conservative (Чрезвычайно консервативный)

Вот количество ответивших:

Out[17]:

counts
values
1.0 1442
2.0 5808
3.0 6243
4.0 18943
5.0 7940
6.0 7319
7.0 1595

Я определю liberal как True для любого, чей ответ «чрезвычайно либеральный» («Extremely liberal»), «либеральный» («Liberal») или «слегка либеральный» («Slightly liberal»).

In [18]:

liberal = (gss['polviews'] < 4)

Вот количество значений True и False:

Out[19]:

counts
values
False 35797
True 13493

И доля «либералов» («liberal»).

Если мы выберем случайного человека в этом наборе данных, вероятность его либеральности составит около 27%.

Функция вероятности¶

Подводя итог тому, что мы сделали на данный момент:

  • Чтобы представить логическое утверждение вроде «этот респондент придерживается либеральных взглядов», мы используем логическую серию (Boolean series), которая содержит значения True и False.

  • Чтобы вычислить вероятность того, что утверждение истинно, мы используем функцию mean, которая вычисляет долю значений True в серии.

Чтобы сделать это вычисление более явным, я определю функцию, которая принимает логическую серию и возвращает вероятность:

In [21]:

def prob(A):
    """Computes the probability of a proposition, A.
    
    A: Boolean series
    
    returns: probability
    """
    assert isinstance(A, pd.Series)
    assert A.dtype == 'bool'

    return A.mean()

Операторы assert проверяют, является ли A логической серией. В противном случае отображается сообщение об ошибке.

Использование этой функции для вычисления вероятностей делает код более читабельным.

Вот вероятности утверждений, которые мы уже вычислили.

Упражнение: значения partyid кодируются следующим образом:

0   Strong democrat (Сильный демократ)
1   Not str democrat (Не строгий демократ)
2   Ind,near dem (Независимый, ближе к демократам)
3   Independent (Независимый)
4   Ind,near rep (Независимый, ближе к республиканцам)
5   Not str republican (Не строгий республиканец)
6   Strong republican (Сильный республиканец)
7   Other party (Другая партия)

Я определю democrat, чтобы включить респондентов, которые выбрали «Strong democrat» или «Not str democrat»:

In [25]:

democrat = (gss['partyid'] <= 1)
  • Используйте mean, чтобы вычислить долю демократов в этом наборе данных.

  • Используйте prob для вычисления той же доли (fraction), которую мы будем рассматривать как вероятность.

Конъюнкция¶

Теперь, когда у нас есть определение вероятности и функция, которая ее вычисляет, давайте перейдем к конъюнкции.

«Конъюнкция» — это еще одно название логической операции and. Если у вас есть два утверждления, A и B, конъюнкция A and B будет True, если и A и B равны True, и False в противном случае.

Я продемонстрирую использование двух логических серий, созданных для перечисления каждой комбинации True и False:

In [28]:

A = pd.Series((True, True, False, False))
A

Out[28]:

0     True
1     True
2    False
3    False
dtype: bool

In [29]:

B = pd.Series((True, False, True, False))
B

Out[29]:

0     True
1    False
2     True
3    False
dtype: bool

Чтобы вычислить конъюнкцию A и B, мы можем использовать оператор &, например:

Out[30]:

0     True
1    False
2    False
3    False
dtype: bool

Результатом является True, только если A и B равны True.

Чтобы более наглядно показать эту операцию, я помещу операнды и результат во фрейм данных:

In [31]:

table = pd.DataFrame()
table['A'] = A
table['B'] = B
table['A & B'] = A & B
table

Out[31]:

A B A & B
0 True True True
1 True False False
2 False True False
3 False False False

Такой способ представления логической операции называется таблицей истинности.

В предыдущем разделе мы вычислили вероятность того, что случайный респондент является банкиром:

И вероятность того, что респондент — демократ:

Теперь мы можем вычислить вероятность того, что случайный респондент — банкир и демократ:

Как и следовало ожидать, prob(banker & democrat) меньше, чем prob(banker), потому что не все банкиры — демократы.

Упражнение: Используйте prob и оператор & для вычисления следующих вероятностей.

  • Какова вероятность того, что случайный респондент окажется банкиром и либералом?

  • Какова вероятность того, что случайный респондент — женщина, банкир или либерал?

  • Какова вероятность того, что случайным респондентом окажется женщина, банкир и либеральный демократ?

Обратите внимание, что чем больше мы добавляем союзов, тем меньше вероятность.

Упражнение: Мы ожидаем, что конъюнкция будет коммутативной; то есть A & B должно быть таким же, как B & A.

Чтобы проверить, вычислите эти две вероятности:

  • Какова вероятность того, что случайный респондент окажется банкиром и либералом?
  • Какова вероятность того, что случайный респондент будет либералом и банкиром?

Если они не совпадают, что-то пошло не так!

Условная вероятность¶

Условная вероятность — это вероятность, которая зависит от условия, но это может быть не самое полезное определение. Вот некоторые примеры:

  • Какова вероятность того, что респондент является демократом, учитывая его либеральность?

  • Какова вероятность того, что респондент — женщина, учитывая, что это банкир?

  • Какова вероятность того, что респондент является либералом, учитывая, что она женщина?

Начнем с первого пункта, который мы можем интерпретировать так: «Из всех респондентов, которые являются либералами, какая фракция — демократы?»

Мы можем вычислить эту вероятность в два этапа:

  1. Выберите всех респондентов-либералов.

  2. Вычислите долю выбранных респондентов-демократов.

Чтобы выбрать либеральных респондентов, мы можем использовать оператор квадратных скобок [], например:

In [40]:

selected = democrat[liberal]

Результатом является логическая серия, содержащая подмножество значений в democrat. В частности, он содержит только те значения, где liberal равно True.

Чтобы убедиться в этом, давайте проверим размерность результата:

Если все пошло по плану, это должно быть таким же, как количество значений True в liberal:

Хорошо.

selected содержит значение democrat для респондентов-либералов, поэтому среднее значение selected — это доля либералов, которые являются демократами:

Чуть больше половины либералов — демократы. Если результат оказался ниже ожидаемого, имейте в виду:

  1. Мы использовали несколько строгое определение понятия «Democrat», исключая независимых, которые «склоняются к демократии».

  2. Набор данных включает респондентов еще с 1974 г .; в начале этого периода совпадение политических взглядов и партийной принадлежности было меньше, чем в настоящее время.

Давайте попробуем второй пример: «Какова вероятность того, что респондент — женщина, учитывая, что это банкир?»

Мы можем интерпретировать это следующим образом: «Какая доля из всех респондентов, которые являются банкирами, составляют женщины?»

Опять же, мы будем использовать оператор скобок, чтобы выбрать только банкиров:

In [44]:

selected = female[banker]
len(selected)

Как мы видели, в наборе данных 728 банкиров.

Теперь мы можем использовать mean для вычисления условной вероятности того, что респондент — женщина, учитывая, что это банкир:

Около 77% банкиров в этом наборе данных — женщины.

Мы можем получить тот же результат, используя prob:

Помните, что мы определили prob, чтобы упростить чтение кода. Мы можем сделать то же самое с условной вероятностью.

Я определю функцию conditional, чтобы взять две логических серии, A и B, и вычислить условную вероятность A с учетом B:

In [47]:

def conditional(A, B):
    """Conditional probability of A given B.
    
    A: Boolean series
    B: Boolean series
    
    returns: probability
    """
    return prob(A[B])

Теперь мы можем использовать conditional для вычисления вероятности того, что либерал является демократом:

In [48]:

conditional(democrat, liberal)

И вероятность того, что банкир — женщина:

In [49]:

conditional(female, banker)

Результаты такие же, как выше.

Упражнение: Используйте conditional, чтобы вычислить вероятность того, что респондент является либералом, учитывая, что он женщина.

Подсказка: ответ должен быть меньше 30%. Если ваш ответ составляет около 54%, вы допустили ошибку (см. Следующее упражнение).

Упражнение: В предыдущем упражнении мы видели, что конъюнкция коммутативна; то есть prob(A & B) всегда равно prob(B & A).

Но условная вероятность НЕ коммутативна; то есть conditional(A, B) не то же самое, что conditional(B, A).

Это должно быть ясно, если посмотрим на пример. Ранее мы вычисляли вероятность того, что респондент — женщина, учитывая, что это банкир.

In [51]:

conditional(female, banker)

Результат показывает, что большинство банкиров — женщины. Это не то же самое, что вероятность того, что респондент — банкир, учитывая, что она женщина:

In [52]:

conditional(banker, female)

Лишь около 2% респондентов-женщин — банкиры.

Упражнение: Используйте conditional для вычисления следующих вероятностей:

  • Какова вероятность того, что респондент является либералом, учитывая, что он демократ?

  • Какова вероятность того, что респондент является демократом, учитывая его либеральность?

Тщательно продумайте порядок серий, которые вы передадите в conditional.

In [53]:

conditional(liberal, democrat)

In [54]:

conditional(democrat, liberal)

Условия и конъюнкции¶

Мы можем комбинировать условную вероятность и конъюнкцию. Например, вот вероятность того, что респондент — женщина, учитывая, что это либеральный демократ.

In [55]:

conditional(female, liberal & democrat)

Почти 57% либерал-демократов — женщины.

И вот вероятность того, что они либеральные женщины, учитывая, что это банкир:

In [56]:

conditional(liberal & female, banker)

Около 17% банкиров — либеральные женщины.

Упражнение: Какая часть женщин-банкиров принадлежит к либеральным демократам?

Подсказка: если ваш ответ меньше 1%, значит, вы получили его наоборот. Помните, что условная вероятность не коммутативна.

Резюме¶

На этом этапе вы должны понять определение вероятности, по крайней мере, в простом случае, когда у нас есть конечный набор данных. Позже мы рассмотрим случаи, когда определение вероятности более спорно.

И вы должны понимать конъюнкцию и условную вероятность. В следующих блокнотах мы исследуем взаимосвязь между конъюнкцией и условной вероятностью и используем ее для получения Теорема Байеса, лежащая в основе байесовской статистики.

Ошибка конъюнкции (связывания) Буква О

Ошибка конъюнкции (связывания) — тенденция считать, что вероятность возникновения двух событий одновременно больше, чем вероятность возникновения каждого из этих событий по отдельности.

Пример

Мы оцениваем вероятность того, что наш друг выиграет лотерею. Если мы добавим деталь, что он купил билет в определенном магазине, мы можем ошибочно считать, что вероятность его выигрыша увеличилась, хотя это не так.

Примечание

Необходимо помнить, что вероятность двух событий происходить одновременно всегда меньше или равна вероятности каждого из этих событий по отдельности. Также полезно использовать логический подход при рассуждениях и анализировать каждое событие отдельно.

Понравилась статья? Поделить с друзьями:
  • Ошибка концевой выключатель тормоза калина
  • Ошибка концевой выключатель двери водителя шкода рапид
  • Ошибка концевой выключатель двери водителя шкода октавия а7
  • Ошибка концевой выключатель двери водителя туарег
  • Ошибка концевой выключатель двери водителя тигуан