ほとラボ

It works!

統計的仮説検定でクロバットVの封入率の偏りを暴く

先週発売されたポケカの新弾「ムゲンゾーン」の注目カードといえばこれです。

「デデンネGX」「ワタシラガV」などと並ぶ汎用カード。 確実につよい。 4枚は欲しい。

ええ、我が家では 3Box 買いました。(※ このツイートの後もう 1Box 買い足した)

しかし!
ノークロバット!!!

は?????

こんだけ買って出ないとかさすがに何かの間違いではないか。 ハッサムVは死ぬほど出たのに。

ちなみに同じく 4Box 買った同僚に聞いてもクロバットVは1枚しか出なかったとのこと。

合計 7Box も開けてクロバットVが1枚しか出ていないのは、果たして本当に偶然だろうか? もしや「汎用カードのクロバットVだけ封入率を低くしておけばたくさん買ってくれるじゃろ、ぐへへ」みたいなポケカ公式の思惑があるのではないか???

仮説検定をしてみる

というわけで、一応データ分析屋のはしくれとして、統計的仮説検定を用いて「クロバットVの封入率に偏りがあるかどうか」を考えてみる。

統計的仮説検定
データに基づいて何らかの仮説の真偽を客観的かつ合理的に判断するための方法。 仮説の設定、検定統計量の選択と算出、有意性の評価の3つの要素からなる。

23-1. 検定とは | 統計学の時間 | 統計WEB

詳しくはインターネット上にさまざまな解説があるので割愛するとして、さっそくやっていく。

まずはじめに前提となる条件を確認する。

  • 「ポケモンV」と言う用語にはポケモンVMAXは含まない 1
  • 「ムゲンゾーン」には 1Box あたりポケモンVは5枚封入されている 2
  • 「ムゲンゾーン」に収録されているポケモンVは8種類である

次に、仮説を設定していく。

  • 対立仮説: 「ムゲンゾーン」のポケモンVのカードの封入率には偏りがある
  • 帰無仮説: 「ムゲンゾーン」のポケモンVのカードの封入率には偏りがない

今回は「実際の観測値」と「帰無仮説の下における頻度の期待値(理論値)」との乖離を検定したいので、カイ二乗分布を用いた適合度検定を行う。

まず、前提条件より「7Box 開ける」=「ポケモンVを35枚サンプリングする」ことと考えられるので、標本数は  n = 35 となる。 このとき、「クロバット1が出る (観測度数: 1)」「クロバットV以外が出る (観測度数: 34)」の2つの属性について期待確率と期待度数を考えていく。

 i 属性  S_i 観測度数  ν_i 期待確率  p_i 期待度数  np_i
1 クロバットV 1 1 / 8 4.375
2 クロバットV以外 34 7 / 8 30.625

これをもとに、カイ二乗検定統計量を求める。

 \chi^{2} = \sum_{i} \frac{(ν_i − np_i)^{2}}{np_i}

(手計算は面倒なので Python でやっていく)

from scipy.stats import chisquare

# 前提条件
v_per_box = 5  # 「ムゲンゾーン」1ボックスあたりのポケモンV封入数
v_types = 8  # 「ムゲンゾーン」に収録されているポケモンVの種類数

# 事象
box = 7  # 購入したボックス数
crobat = 1  # クロバットが出た枚数

# カイ二乗検定統計量を求める
n = v_per_box * box
chisquare([crobat, n - crobat], f_exp=[n / v_types, n - (n / v_types)])

計算すると  \chi^{2} = 2.976 で、自由度1のカイ二乗分布を見てみると、今回の観測値が理論値とこの程度乖離する確率は 8.5% であることがわかる。 この確率は一般的に用いられる有意水準 5% よりも高く、帰無仮説は棄却されない。

結論として、「ポケモンVのカードの封入率には偏りがあるとは言えない」となる。

つまり?

ただ運が悪かっただけ ということです!!!

\( ‘ω’)/ウオオオオアアアーーーッ

ポケカ公式さん疑って大変申し訳ありませんでした。

物事を合理的に考えて判断するのは大切なことですね。 などとそれっぽいことを言って雑にまとめておく


  1. ポケカ公式用語としては VMAX は V の一種だが、V と VMAX はカードとしては別のレアリティであり、今回は VMAX については考える必要がないので忘れたい

  2. ポケモンVの封入率が 5枚/Box というのは例外があるかもしれないが、今回は固定ということにしておきたい