MTurkを使った研究はもう信用できないものなのか

はじめに

こんにちは、@kuri8iveです。

新年早々ですが、MTurkから得られるデータの信憑性についての論文をいくつか読んだメモを残します。（※画像は紹介する論文内のものになります。）

はじめに
MTurkお前もか
MTurkの広い普及
既にあった不吉な匂い
TwitterだけじゃないBotによる危機
MTurkの危機は実際に起きているか？
MTurkで人の回答は得られるのか？
ではどうすれば
- プラットフォーマー側
- 利用者側
おわりに

MTurkお前もか

昨年末、以下のツイートが話題になっていました。

Mechanical Turk plays a big role in research & it worked well for years… but there are ominous signs:
📉Invalid data in MTurk only happened in ~10% of answers 2015-2017, but that went to 62% in 2018 & 38% in 2019.
🤖2022: out of a sample of 529 MTurk workers, only 14 were human pic.twitter.com/Sk8DTpi7sa
— Ethan Mollick (@emollick) 2022年12月27日

MTurkというのはAmazon Mechanical Turkの略称で、クラウドソーシングのプラットフォームのことです。MTurkをはじめとするクラウドソーシングの興隆のおかげで、これまで参加者を募り小規模で行うしかなかった人による評価を安価で大規模に行うことができるようになったため、今では幅広い領域の研究で活用されるようになっています。そのMTurkで得られるデータの信憑性が怪しいぞ、という（論文を紹介する）ツイートだったわけなので、「これはかなりまずいのでは…？」ということで注目を集めたわけです。

特に近年では再現性に関する問題があちこちで露見しています。例えば、心理学において再現性の危機が取り立たされていたり、行動経済学では「予想通りに不合理」で有名なアリエリーの研究不正が発覚したり、ちょっと角度は違いますがコンピュータサイエンスでもちゃんとチューニングした古典的手法が最先端手法とされているものより優れた精度を出していたり、などです。

MTurkは本当にかなり多くの研究で利用されているので、プラットフォーム自体の信頼性が揺らぐというのは大変なことです。ちょっと気になってしまったので、当該ツイートが紹介していたAn MTurk Crisis? Shifts in Data Quality and the Impact on Study Results [Chmielewski and Kucker 2019]とToo Good to Be True: Bots and Bad Data From Mechanical Turk [Webb and Tangnery 2022]、それから関係しそうないくつかの論文を読んでみたのでメモを残します。

MTurkの広い普及

前述の通り、MTurkは非常に幅広い研究領域で利用されています。2014年7-12月のJournal of Personality and Social Psychology（※JPSP、心理学のトップジャーナルの1つ）ではおよそ半分の研究で1つ以上のMTurkを使った調査が含まれていたり、2014年から2018年までの主要なマーケティングジャーナルの論文のおよそ3割がMTurkを利用していたり、枚挙にいとまがないほどです。人の判断で手法の評価や分析が必要な論文を読んでいる方であれば、目にする機会も多いのではないでしょうか。

それほどまでに普及した要因はいくつか考えられますが、何よりも「安価でありながら調査会社や研究室実験で集めた場合と同等以上の品質のデータが得られる*1 *2」点にあります。また、学生のサンプルよりも一般的な人々を代表していること、報酬水準が結果に影響を与えないことなどもあり、資金力があまりない研究者にも手を出せることが後押しになったと思われます。

既にあった不吉な匂い

そんなクラウドソーシングを活用した研究群ですが、突然信頼性が怪しくなったのかというとそうでもなく、以前から不吉な匂いは漂っていそうでした。まず、回答が妥当であるかチェックすることは長年推奨されている*3一方で、2014年から2018年までの主要なマーケティングジャーナルのMTurkを利用していた論文のうち16%ほどしか品質確保のための手順を記載していない、JPSPに掲載された論文で「ほとんどの研究者がデータをスクリーニングする試みを報告しない」と言及されているように、望ましくない慣習がありました。環境変化で十分な質のデータが簡単には手に入らなくなったとき、その変化に気付きやすくまた頑健な体制は取れていなかったということがありそうです。

TwitterだけじゃないBotによる危機

Twitterを買収し世間を大きく賑わせているイーロン・マスクですが、彼の目標の一つに（スパム）botの撲滅があります。この騒動を通してbotがTwitterの信頼性に影響を及ぼしていそう、少なくともオーナーはそう考えていることが周知の事実となりましたが、実は数年前からMTurkにおいてもbotによる悪影響が危惧されており、botパニックと呼称するメディアもあったほどです。つまり、人に評価してもらいたくてMTurkを使っているのに、実際には金稼ぎ目的でひたすら適当な内容を入力するbotの回答を得ていただけ、という状況が懸念されていました。この懸念について実際に調べてみよう、と取り組んだのが冒頭ツイート1本目の研究です。

MTurkの危機は実際に起きているか？

ChmielewskiとKuckerは、⑴低品質なデータを提供する参加者が増えたか、⑵MTurkを利用した結果が悪化しているか、⑶回答妥当性指標と事前スクリーニングがデータの質を改善するか、の3点を検証しました。この検証は、確立された知見を再現できるか？という形で行います。具体的には、ビッグファイブインベントリー（BFI）の信頼性と内部妥当性の検証、精神病理において確立された結果との関連が再現するかのテスト、で評価しています。また、事前スクリーニングで妥当性の指標において失敗した頻度の集計も行っています。妥当でない回答というのは、例えば質問文の指示を無視した回答や、論理的にあり得ない回答などです。

データはもちろんMTurkで収集しました。収集タイミングは4回ほどあり、最初の2回はMTurkへの懸念が表面化する2018年夏より前のもの（①2015年末、②2017年春）、3回目は③2018年夏のもの、4回目に④2019年春に、それぞれ全く同じ調査に対する回答を集めました。

色々と端折って主要な結果を書きます。

事前スクリーニングでは、①2015年末と②2017年春に比べて、③2018年夏と④2019年春では妥当でない回答をする参加者の割合が有意に高かった。（①10.4％、②14.8%、③62%、④38.2%）
①2015年末と②2017年春のデータではスクリーニングをせずとも過去の研究結果とクロンバックのアルファが一致したが、③2018年夏と④2019年春では一致しなかった。（クロンバックのアルファは、類似の内容を評価する項目に対する参加者の反応の一貫性を示す指標。デタラメな回答が入ると低下する。）
スクリーニングをした／していないデータを比較すると、①2015年末と②2017年春では特に有意な差はなかったが、③2018年夏と④2019年春ではスクリーニングによりクロンバックのアルファが改善された。
①2015年末と②2017年春では収集した回答の神経症、外交性、良心性とうつ病や気分障害との有意な相関が予想された大きさで存在したが、④2019年春では存在しなかった。（③2018年夏では存在した。）
他のビッグファイブの指標について、①2015年末と②2017年春では概ね精神病理において確立された結果と一致する結果となったが、③2018年夏と④2019年春では相反する結果が一部見られた。

つまり、⑴低品質なデータを提供する参加者が増えた、⑵MTurkを利用した結果が悪化した、⑶回答妥当性指標と事前スクリーニングがデータの質を改善した、という結論を得ています。MTurkの危機は実際に起きていました。

MTurkで人の回答は得られるのか？

続いて2本目の論文を紹介します。論文中に詳しくは言及されていないのですが、著者は元々この論文とは関係ない研究を行うため、MTurkを使ったデータを集めていたようです。ところが、色々なチェックで不適当な回答を弾いているうちにほとんどいなくなってしまい、これはやばいぞというような流れでこの論文を書き始めたよう。最終的には14人の結果が生き残っていますが、最初にいたはずの529人はどこにいってしまったのでしょうか。

結論はツイートにもあった上の図の通りですが、簡単に並べます。

MTurkが提供する有料フィルター機能の不備
- 当初予定していた研究では18-24歳の英語話者が対象であったため、それに近い18-25歳のフィルターを利用し、さらに年齢と言語を尋ねたようです。（25歳が無効になってしまうのは承知の上。）しかし、118人（22%）の参加者が18歳未満または25歳より上と回答し、中には0歳、100歳といった回答もあったようです。この時点で既に64%になってしまいました。どうして…。
同意書に関するクイズへの適当な回答
- 続いてインフォームド・コンセント、つまり参加を中止してもいいですよ、秘密は守りますよといったテストに関する周知がなされたのち、その周知に関するクイズを3問出しました。2問不正解の人がここで脱落したわけですが、その結果残ったのは200人（38%）となり、半分を割ってしまいました。
途中でやめちゃった
- 今回の調査は45分あったようなのですが、60人が途中で離脱し、完了した人のうち16人が同意書に関するクイズ以外には答えず最後まで行っていたことが分かりました。結果、残っていたのは140人（26%）となるに至りました。
注意チェックに引っかっかった
- クラウドソーシングに投げる際は注意チェックという、脳死でぽちぽちしていたら見過ごすタイプのクイズを間に挟むことが通例となっています。（例えば、問題文の最後に「4つ目の選択肢を必ず選んでください」と書いてある。）タスクの25%, 50%, 75%の3カ所で行われた検問の結果、16人（11%）が脱落し、124人（23％）が残りました。
速すぎる回答、著者でなきゃ見逃しちゃうね
- 実施前のパイロットテストで45〜50分かかると見積もられていたため、20分以下の回答をここでカットしました。どうやらちゃんと考えて回答してくれたのは77人（15％）のみのようでした。
お前は誰だ？
- 「あなたは誰ですか？」「1週間後の自分を想像して以下の文章を書いてください。⑴…」といった質問を投げたところ、意味をなさない回答があったり、参加者の回答内で矛盾があったり（例：自分のことを男性としたり女性としたり）した場合は無効となりました。ここで残っていた回答の82%にあたる63人が離脱し、最終的に得られたのは元のわずか2.6%ほどの14人の結果でした。

手順5までの減り方もどうかとは思いますが、最後の手順での減り方はあまりに急でショッキングな結果となりました。元ツイートは書き方がミスリードといいますか、529人中14人だけが人間で他は全てBot確定という印象を与える書き方はちょっと望ましくない（ふざけていたり割に合わないと感じてやる気なくしたり適当にぽちぽちしていた人間も十分含まれうるため）とは思いますが、それはそれとして減りすぎではありますよね。データの質への懸念を伝えたところ、Amazonからは返金があったようですが…。

ではどうすれば

とはいえ、人の評価を比較的容易に集められるクラウドソーシングの利用は避けがたいものだとも思います。MTurk以外のプラットフォームがこうなるのも時間の問題ではないでしょうか。そうだとしたら、これからどうすればよいでしょう。

プラットフォーマー側

MTurkを運営するAmazonは参加者に関する情報をあまり提供しておらず、参加者の性質を外から探ることは依然困難です。売上等が推測できる情報を出せないのは分かりますが、それでも回答者の性質がプラットフォームの信頼性に大きく影響する以上、なんらかの統計情報等を出すことはもはや責務といってもよいのではないでしょうか。コロナによるロックダウン中に回答者層が変化したという研究結果も報告されていますが、こういった情報が公式から出てくれば、今回のように後から信頼性の疑義が生じるといった事態は起きにくくなるように感じます。

また、2本目の論文で言及されているような、公式で提供している機能が正しく動いているか、一度精査するべきだと感じます。特に今回の論文で言及された機能は有料機能であり、お金を払って18-25歳に絞ったはずなのにそれ以外が22%もいるというのは、消費生活センターに相談が行くレベルではないでしょうか。

利用者側

まず、ChmielewskiとKuckerは以下の点を提案しています。

プロファイルと相関を示す重要な妥当性指標である項目ごとの秒単位の回答時間（SPI）の導入（※SPIの提案前に研究が始まったためこれを考慮できなかったとのこと。）
データ収集日、タスク要件、妥当性指標、スクリーニング判定、脱落者数などの詳細情報を著者が報告し、査読者が要求すること
研究者は、研究対象サンプルにおける尺度の心理測定特性を報告し、可能であれば先行研究との比較を行うべき

ほかに、第三者機関を活用するという手もありそうです。Hauserらの研究によると、CloudResearchという研究者がMTurkを使って研究することを支援する第三者があり、彼らが独自にMTurkの参加者を評価して選別した高品質参加者グループではより信頼性の高い結果が得られたようです。MTurkはこれまで参加者の評価制度によって品質管理を試みてきましたが、もはやその制度が有効ではないということで、第三者による選抜に頼ろうということです。

また、どうやらbotはVPNを使って国境を超えてくるようです。そのような場合、プラットフォーム側で弾くのは難しそうに思えます。例えばですが、その地域の人なら誰もが分かるけど調べてもパッとは答えが見つからないクイズを注意チェックに取り込むべきかもしれません。

おわりに

以上を踏まえると、MTurkを使った2018年以降の研究は、参加者を十分に選別したかによく気をつけながら読む必要がありそうです。また、昨年非常に盛り上がったChatGPTのような存在も鑑みると、「人の答えか」の判別はますます難しくなってきていそうですね。騙す側と見破る側のいたちごっこの先では、何が私たちの回答を「人によるもの」たらしめているのでしょうか。

*1:The viability of crowdsourcing for survey research [Behrend et al. 2011]

*2:Separate but equal? A comparison of participants and data gathered via Amazon’s MTurk, social media, and face-to-face behavioral testing [Casler et al. 2013]

*3:Crowdsourcing user studies with Mechanical Turk [Kittur et al. 2008]ほか多数