さらに分析すると、「使用状況」ファイルには「アプリ開封」「マッチ」「受信メッセージ」「送信メッセージ」「右スワイプ」「左スワイプ」に関するデータが、「メッセージ ファイル」にはユーザーが送信したすべてのメッセージと時間/日付スタンプおよびメッセージ送信者の ID が含まれていました。 想像できると思いますが、これはかなり面白い読み物になりました。
奇跡的に、8人の友人を説得して、データを提供してもらうことができました。 彼らはベテランのユーザーから、「退屈なときに使う」ような散発的なユーザーまで、さまざまなユーザー タイプの妥当な横断面を与えてくれたと感じています。 最大の成功は?
もうひとつ厄介なのは、「成功」を定義することです。 相手から数字をもらうか、2人のユーザーがデートに行くかのどちらかである、という定義に落ち着きました。 その後、質問と分析を組み合わせて、各会話を成功かどうかに分類しました。
問題 3: 次は何でしょうか。 データサイエンスのコースでは、Python でのデータサイエンスと機械学習に焦点を当てましたので、Python (私は anaconda/Jupyter notebooks を使用しました) にインポートしてクリーニングすることは、論理的な次のステップのように思われました。 データサイエンティストに話を聞くと、データのクリーニングは彼らの仕事の中でa)最も退屈な部分であり、b)彼らの仕事の80%の時間を占める部分である、と言うでしょう。
私はフォルダを作成し、そこに 9 つのデータ ファイルをすべてドロップし、これらを循環させて環境にインポートし、各人の名前をキーとする辞書に各 JSON ファイルを追加する小さなスクリプトを作成しました。 また、「使用状況」データとメッセージ データを 2 つの別々の辞書に分割し、各データセットを別々に分析しやすくしました。
Tinder にサインアップすると、大多数の人は Facebook アカウントを使ってログインしますが、より慎重な人は電子メールアドレスだけを使っています。 残念なことに、私のデータセットにはこれらの人々のうちの1人が含まれており、彼らのために2セットのファイルを持っていることを意味します。 これは少し面倒でしたが、全体的にはそれほど難しいことではありませんでした。