機械学習で配信中の映像からゲームを推定する機能を開発しています🎮

おはようございます、機械学習エンジニアのハヤシです。

本稿では現在テスト中の配信中の映像からゲームを自動で設定する機能についてご紹介します。

背景

Mirrativには「マイアプリ」や「おすすめ」といったタブがあり、そのタブにいろいろな配信が表示されています。視聴者さんはこれらのタブから自分の見たい配信をタップして、視聴を開始します。

また、配信者さん向けの機能として「現在遊んでいるアプリを設定する」という機能があります。配信開始時や配信中にアプリ名を選択し、「いまこのゲームの配信をしているよ」と表明する機能です。(以下「アプリ設定をする」と表現します)

「マイアプリ」や「おすすめ」にどの配信が表示するか判断するロジックに、このアプリ設定の情報を使用しています。つまり、アプリ設定がされている配信は、上記のタブで紹介される確率が高まり、視聴者さんが来やすくなり、コメントも付きやすくなります。

f:id:namagon:20190307080955p:plain — アプリ選択画面。

一方でアプリ設定をしていない配信者さんはアプリ設定をしている配信者さんより配信への入室率や1回以上コメントが送られる割合が下がる傾向にあります。それゆえ配信を続けるモチベーションを保つのが難しく、次回以降の配信の継続率が下がってしまう事象が観測されていました。

コメントがない配信、喋る内容がわからなくなりがちです。私も経験があります……配信してるのに……無言でゲームしてしまいます……つらい……

視聴者さんと配信者さんの適切なアプリのマッチング（見たい・コメントしたい・配信したい）をすることで配信体験の UX を向上させたいと思いました。

Mirrativ は配信プラットフォームであると共にSNSです。配信者さんと視聴者さん共に Mirrativ のプラットフォーム上で配信を通じたコミュニケーションを通じてわかりあってもらうことを願っております。

ゆえに、配信を続けてもらえる配信者さんを少しでも増やすことを目的として当機能を開発することにしました。

しかしながら、iOS/Android ともに OS の仕様上、バックグラウンドで動いている Mirrativ のプロセスから実際にフォアグラウンドで動いているアプリ情報を取得するのは非常に難しいです。

ですが、配信のキャプチャ画像をクラス分類することである程度の精度が出せそうなため、機械学習による配信中のゲームの自動推定機能を開発するに至りました。

f:id:namagon:20190311191922p:plain — イメージ図

対象タイトル

まずは全ゲーム配信中、約70%を占めるゲームにのみに適用して検証して結果が良ければ対象タイトルを拡大していきます。

仕様検討

画像分類で解く以上アプリ推定の精度が100%になることはまずありえません。それゆえはじめは確からしいアプリが推定された際にプレイ中のゲームは hogehoge ですか？ [はい] [いいえ] という通知ダイアログを出してユーザーに選ばせる仕様で想定していました。

ところで、ゲームの内容とは無関係の通知ダイアログが出てきたとしてタップしますか？少なくとも僕はしません。

配信者さんから見て自動でアプリが設定されることにネガティブな感情を持つことはほぼ無い上、仮にアプリ設定が間違ったとしても重大な問題につながる可能性は非常に低いと判断したため、アプリ未設定の場合はメッセージを出した上で自動で設定することにしました。

プロトタイプ

現在配信者さんが選択しているアプリと画像から推定されたアプリが異なる場合、slack に推定結果を画像つきで投稿するプロトタイプのbotを*1作りました。

f:id:namagon:20190311235832p:plain — ユーザーが設定したアプリと推定したアプリが違うとき投稿されるチャンネル

f:id:namagon:20190307053943p:plain — 沸き立つ社内slack

現状のモデルで精度十分でしたが、1枚あたりの推定処理が遅いという課題を抱えていました。

パフォーマンス要件

アプリ未設定の配信者さんに対し可能な限り早く正確な推定をしたいため、現在放送されている全配信の画面キャプチャを1分ごとに画像認識モデルに通すスケジュールバッチを実装することにしました。

この段階でバッチ処理の単位時間と処理件数が算出できたため、あとは実際に運用するインフラの選定に移れます。

今回、モデルの学習処理には Google Compute Engine の GPU インスタンスを利用しています。

しかし、GPU インスタンスを本番運用するとなると CPU インスタンスと比較して利用料金が非常に高価である上リソース監視にGPUも入れる必要があります。ゲーム推定機能は単位時間あたりの処理件数が膨大な量ではなく、モデルの精度もある程度妥協できるため*2 CPU インスタンスの並列処理で対応可能と判断しました。