1. はじめに
ポストクロッシングというポストカードを送りあうオンラインサービスがある。コンピューターによってランダムで抽出された会員にポストカードを送ると、ランダムで引いた世界のどこかの別の会員からポストカードが送られてくるシステムである。
本記事では、日本からアメリカへ発送するポストカードの到着と未着の状況を集計し、分析によってポストカードが未着となる要因を探ることにする。
2. アメリカのポストカードについて
2.1 アメリカから発送されたポストカードのバーコード
アメリカから送られてきたポストカードは、下部にバーコードが印字されてくる。ポストカードに予めそのための空白が設けられている。
図1 アメリカから来たポストカード
図2 ポストカードのバーコード用に確保されている空白
ほとんどのバーコードは、ハガキに直接印字されている。しかし、時には印字されたシールが貼りつけられていることもある。このシールはきれいに剥がれるため、ハガキに損傷はない。
図3 バーコード印字のシールが貼られたポストカード
マスキングテープの上に印字されたバーコードもある。
図4 マスキングテープの上から印字されたバーコード
2.2 アメリカへ発送したポストカード
今回は私がアメリカに発送したポストカードのデータを使う。
最近は、下部にバーコード用の空白を残している。字は上手くはないが、配達を困難にするほどではない。
図5 バーコード用の空白があるポストカードの例
最初の頃は、図6および図7のようにバーコードの位置にシールを貼ってしまっていた。
図6 バーコードの位置にシールを貼ったポストカードの例
図7 バーコードの位置にシールを貼ったポストカードの例
シール以外にも、マスキングテープも貼っていた。図8は、マスキングテープとシールの両方を貼っている。
図8 マスキングテープとシールを貼ったポストカードの例
これらのように、バーコードの位置に空白があるもの、シールを貼ったもの、マスキングテープを貼ったもの、その両方を貼ったもの、文字(メッセージ)を書き込んだもの、様々なパターンのポストカードを送っている。
3. 基礎集計
3.1 アメリカ宛ポストカード到着数と未着数
本記事では、2023年4月から2025年3月までに私がアメリカ宛に送ったポストカードのデータを使う。今回使用したデータについて、オフィシャルおよびフォーラム経由でアメリカへ発送したポストカードの到着数と未着数を集計した。その結果を図9に示す。
図9 アメリカに発送した経由別ポストカード到着数と未着数
オフィシャル経由のポストカードの未着は1通である。このポストカードは下部にマスキングテープを貼っていた。
フォーラム経由で送ったポストカードは、15通中8通が未着であった。半数近くである。但し、オフィシャルとは違い、フォーラムでは到着の連絡は必須ではないため、未着の中に実際には到着しているハガキが含まれている可能性が高い。オフィシャルの到着率が高いことを考慮すると、フォーラムの未着の多くは実際には到着している可能性も考えられなくはない。
3.2 バーコードスペース有無別ポストカード未着到着数と割合
バーコードのためのスペース有無別でポストカード到着数と未着数を集計した結果を図10に示す。また、スペース有無別の到着と未着の割合を図11に示す。
図10 バーコードのスペースの有無別ポストカード到着数と未着数
図11 バーコードのスペースの有無別ポストカード到着率と未着率
バーコードが印字されるだろう部分を空けたポストカードは、到着率92.3%でほとんどのポストカードが到着している。一方、空けなかったポストカードは、到着4通に対して未着が6通だった。60%が未着である。3.1の図9より、フォーラム経由の未着は8通である。受け取りの連絡がないのではなく、実際に相手に届いていない疑惑が浮かび上がってくる。
3.3 バーコードスペース有無別未着到着数~オフィシャルとフォーラム比較
オフィシャルとフォーラムにおけるバーコードスペース有無別でポストカード到着数と未着数を集計した。その結果を図12に示す。
図12 バーコードスペースの有無別到着未着数(オフィシャルとフォーラムで比較)
フォーラム経由のポストカードは、バーコードスペースがあったポストカードの未着が3通、スペースを空けなかったポストカードの未着が5通だった。一方、オフィシャル経由では、スペースを空けたポストカードは全て届いている。
オフィシャルの結果を元に、バーコードスペースを設けたポストカードが極めて高確率で届くと仮定すれば、フォーラムの未着8通のうち3通は、受け取りの連絡なしと推測できなくはないだろう。
3.4 宛名表記別ポストカード未着数と到着数
オフィシャルとフォーラム毎に、手書きの宛名と印刷した宛名で比較した。それらのポストカード到着数と未着数を集計した結果を図13に示す。
図13 宛名表記別到着未着数(オフィシャルとフォーラムで比較)
印刷した宛名で送ったポストカードの未着はフォーラム経由1通だった。手書きの宛名で送ったポストカードは、フォーラムでは到着12通に対し、未着は7通であった。オフィシャル経由の未着1通は手書き宛名だった。印刷した宛名は高確率で到着している。
4. ロジスティック回帰分析
4.1 目的
アメリカ宛に発送したポストカードは、バーコード部分に空白がないポストカードや手書きの宛名のポストカードの未着が多かった。空白がないポストカードには、マスキングテープ、シール、書き込みのいずれかがあったもの、またはそれらが複数あったものがある。どのような条件下だと未着が発生するのか。未着が起こりやすい要因を推定することを目的とする。
4.2 方法
アメリカ宛に発送した52通のデータを使用し、未着が起こりやすい要因を特定するために、ロジスティック回帰分析を用いた。ロジスティック回帰分析は、「到着する」か「到着しない(未着)」といった二値変数の結果の要因を予測する分析手法である。要因となる変数を説明変数、結果の変数を目的変数と言う。目的変数を「未着1」、「到着0」とし、説明変数をマスキングテープ、シール、(バーコード部分への)書き込み、宛名手書きとした。宛名を印刷したポストカードの未着はなかったため、説明変数から宛名印刷を除外した。
説明変数間に強い相関があると、分析を実行する上で問題が生じる。そのため、強い相関がある変数を除いて分析を実行しなければならない。各説明変数間の相関だけでなく、ひとつの説明変数と残りの全部の変数の間の相関も調べることができる分散拡大要因と呼ばれる指標で確認した。
得られた分析結果から、未着が起こる要因となる説明変数を特定した。
4.3 結果
4.3.1 基礎集計
用いたデータの内訳を表1に示す。
表1 アメリカに発送したポストカードの発送数とその内訳
発送数52通のうち、未着が9通で手書きの宛名が38通である。バーコード部分に空白を設けなかった10通のうち、マスキングテープが6通、シールが8通、書き込みが8通である。
4.3.2 多重共線性の確認
説明変数における多重共線性の指標であるVIF(分散拡大要因)の計算結果を表2に示す。
(※スマホを縦にすると表が崩れます)
表2 VIF(分散拡大要因)の計算結果
----------------------------------------------------------------
マスキングテープ シール 書き込み 宛名手書き
----------------------------------------------------------------
1.831955 2.686244 1.795339 1.197285
----------------------------------------------------------------
表2の通り、全ての説明変数が10以下で、強い相関のある変数はなかった。したがって、分析を実行する際に削除する必要がある説明変数はなく、最初に設定した全ての説明変数を用いて実行した。
4.3.3 ロジスティック回帰分析実行結果
ロジスティック回帰分析の実行結果を表3に示す。
(※スマホを縦にすると表が崩れます)
表3 ロジスティック回帰分析実行結果
-------------------------------------------------------
Coefficients 係数:
Estimate Std. Error z value Pr(>|z|)
推定値 標準誤差 Z値 P値
-------------------------------------------------------
(Intercept)定数項 -2.5649 1.0377 -2.472 0.0134 *
マスキングテープ 3.3829 1.7588 1.923 0.0544 .
シール -0.1037 1.7356 -0.060 0.9523
書き込み 2.0357 1.4827 1.373 0.1697
宛名手書き -0.1565 1.2896 -0.121 0.9034
-------------------------------------------------------
P値は、目的変数に影響を与えているかを判断するための指標である。一般的に、P値が0.05より小さい場合は統計的に差があると言える。マスキングテープのP値の小数第3位を四捨五入すれば0.05となり、マスキングテープが統計的に差がある変数となった。
各説明変数とオッズ比と対応する信頼区間の計算結果を表4に示す。また、表4のグラフを図14に示す。
表4 オッズ比推定値
変数名 | 調整オッズ比 | 信頼区間下限 | 信頼区間上限 | |
---|---|---|---|---|
(Intercept) | 0.077 | 0.07692308 | 0.004234138 | |
マスキングテープ | 29.455 | 29.45465851 | 1.719190402 | |
シール | 0.901 | 0.90147919 | 0.015399472 | |
書き込み | 7.658 | 7.65761740 | 0.451443637 | |
宛名手書き | 0.855 | 0.85514029 | 0.070264192 |
図14 説明変数のオッズ比と対応する信頼区間
オッズ比から、説明変数がどの程度目的変数に影響を与えるかがわかる。オッズとは、ある事象が起こる確率と起こらない確率の比である。また、オッズ比は、未着が発生するオッズが、特定の条件を持つ群と持たない群でどの程度異なるかをあらわす指標である。さらに、95%信頼区間とは、集団から無作為にひとつ選んだ時、95%の確率でその値になる区間のことである。95%信頼区間下限と95%信頼区間上限で信頼区間が1を跨がない場合に、統計的に有意な差があると言える。
表4の計算結果では、1より大きいオッズ比はマスキングテープ、1より小さいオッズ比はシールと宛名手書きであった。
図14では、信頼区間が1を跨がない変数が視覚的にわかりやすいように、オッズ比1の位置に赤線を入れた。赤線を跨いでいない変数が有意な差がある変数となる。
4.4 考察
ロジスティック回帰分析を用いて、マスキングテープ、シール、バーコード部分への書き込み、手書きの宛名とポストカード未着の間の関係を分析した。p値によって有意な差が得られた説明変数は、マスキングテープであった。また、信頼区間によって有意な差が得られた説明変数は、マスキングテープ、シールおよび宛名手書きであった。したがって、p値、信頼区間、共に有意な差が得られた説明変数は、マスキングテープとなる。
オッズ比が1より大きい場合は事象に対して促進方向に作用し事象が起こりやすく、1より小さい場合は抑制方向に作用し事象が起こりにくくなる。つまり、オッズ比が1より大きかったマスキングテープは未着が起こりやすい変数となる。
これらのことから、バーコード印字部分にマスキングテープを貼ると、未着が起こりやすい傾向があることがわかった。
4.5 最後に
アメリカ宛のポストカードでは、バーコードが印字される部分にマスキングテープを貼ると未着が起こりやすい傾向があることがわかった。マスキングテープが貼られていても到着することはある。しかし、マスキングテープを貼らない方が到着率が上がると言えよう。
わざわざ分析などしなくても、経験上マスキングテープを貼っていると期限切れになることが多いとわかっているポストクロッサーはいるだろうと思う。かくゆう私も、今思い返せば、マスキングテープを購入して使い始めてからアメリカ宛の未着が増えてきた。
次回はインドについて集計した結果を記事にする。
<過去のポストクロッシングに関する集計や分析の記事>
ポストクロッシングの国別登録数および活動状況(1) ~基礎集計 - 言語マニア系ポストクロッサー
ポストクロッシングにおける国別活動状況(2) ~平均発送数と登録者割合の関係 - 言語マニア系ポストクロッサー
ポストクロッシングにおける国別活動状況(3)~インターネット環境および国民総生産との関係 - 言語マニア系ポストクロッサー
ポストクロッシングにおける国別活動状況(4) ~ポスクロにおける日本の位置づけ - 言語マニア系ポストクロッサー
ポストクロッシングにおける国別活動状況(5)~ポストカード到着率 - 言語マニア系ポストクロッサー