kuri8iveにいきてこ。

仮面ライダーになりたい。

Gunosyリサーチインターン参加記録

るいすです.株式会社Gunosyのリサーチインターンに参加したので記録を残します.
期間は2019年12月26日〜2020年3月31日のうちの1ヶ月間です.

Gunosyと研究

Gunosyは近年多くの研究成果を上げています.昨年だけでもKDD'19, WI'19, RecSys'19にFull / Short paperが採択されており,今CSの研究で存在感のある日本企業の1つであると言えます.元々学会のスポンサーや国内学会の研究発表などは行われていましたが,研究専任チームが誕生したことによって加速度的に研究成果が増えてきています.その他,毎週論文読み会を開いておりその資料は随時GunosyDMで公開されています.

data.gunosy.io

data.gunosy.io

data.gunosy.io

参加した経緯

論文化を前提に企業で研究を行ってみたいと考えたのが大きな理由です.特に,現時点での私の研究のモチベーションは応用寄りであるため,自社サービスにユーザーを抱えている企業で研究を行えればと思っていました.加えて,まだ研究能力が貧弱であるためメンターをつけてもらえて,既に研究のサイクルが回っている企業であることも望んでいました.

また,卒業研究では主体的に取り組んだとは言えテーマ自体は指導教員から降ってきたものであったため,テーマ決めの部分からチャレンジをしてみたかったというのも理由の1つです.もしそれでさっぱり何もできずに終わったら,それはそれで自分が研究に不向きと分かっていいだろうしと考えていました.

さらに,KDD'19の筆頭著者がインターン生であることも後押しになりました.KDDデータマイニング系のトップカンファレンスで,採択率が2割を切ることもあり非常に論文採択の壁が高いため,このニュースにはとても驚きました.筆頭著者のしゅんけーさんの研究力が原動力であるのは確かだとしても,それをKDDレベルまで引き上げられる環境もすごいと感じ,非常に魅力的に映りました.

そしてちょうどGunosyがリサーチインターンの募集を始めたため,乙女座の私はセンチメンタリズムな運命を感じ,応募しました.書類審査を通過したのち,プロポーザル審査を受けました.これはGunosy側から提供された取り組みたいテーマリスト or 自分がやりたいテーマについて,こういった背景からこういう研究をしたいという研究プロポーザルを書いて提出するというものです.1ヶ月程度の間に論文を読むなどして情報を集め,最終的にIPSJ全国大会のフォーマットで参考文献込み3ページにまとめ提出しました.(IPSJのものを使った理由は特にないです.)

プロポーザル審査を通過すると面接があります.ここでは主にプロポーザルに記載した研究計画に関しての質疑などが行われます.といっても,プロポーザルの計画そのものの完成度・緻密さが求められているわけではなく,研究に対するモチベーションや研究を立案・実行する基礎体力が備わっているかを見ているようです.実際,私のインターン成果であるJSAI論文は研究プロポーザルとは全然別物になっています.この面接を通過すると晴れて研究インターン参加となります.

研究の進め方

基本的には自分でデータを集めコードを書き実験を行います.と同時に適宜メンターさん(私の場合は関さん)にメンタリングをしていただきます.その他,Slackに自分のチャンネルができるので,そこに困ったことなど書いて社員さんに助けていただくことも多々ありました.

やったこと

チュートリアル

SQL課題をやります.元々データ分析のインターン生向けのもののようですが,研究でもデータを引っ張ってくる時に必要であることから用意されてるのだと思います.SQLの使用経験が浅くSQL力が貧弱な私はこれに1日以上費やしてしまいました.

ボツ研究テーマ

プロポーザルをもとに,チュートリアル終了直後から半日程度とりあえず色々案出しをしていました.この段階で一度関さんと打ち合わせをして方向性などについて検討をしました.そして,〜の背景から〜というリサーチクエスチョンが考えられるので〜を確認して検証する,といった研究草案をここで一気に固めました.スタンスを取るとアドバイスする側もアドバイスしやすくなると考えていたため,早期に一旦まとめた選択は良かったと思います.そこからアドバイスをいただいたり関連しそうな論文を読んだりして計測すべき指標リストを決めました.結果的にこのテーマを論文にはしませんでしたが,スピード感を持って進めたことでアドバイスを多く引き出すことができテーマの深掘りができました.

ここからデータ収集・指標の計測に入りましたが,前者で大苦戦してしまいました.ほしいデータがどこにあるのかといった情報だけでなく,計測結果が奇妙な時の要因がなかなか分からず,もちろん質問して解決していたとはいえ随分時間を費やしてしまいました.加えて私がSQLについて何も分かっておらず,大きいデータを引っ張ってくるのに実行時間が遅くなる書き方をしていたこともあり,自身の力不足を痛感しました.

ここで,計測結果そのものは良さそうだが論文としての落とし所がいまいちだと感じたため,関さんに相談をお願いしました.そこで「元々どういうモチベーションなんだっけ」というところに立ち戻って検討を行い,その結果テーマを変えることにしました.

JSAI論文テーマ

「ニュース閲覧行動を用いた選挙の争点分析」というテーマに後半は取り組みました.先のボツテーマや相談を踏まえて今一度目的や方法などを整理してから始動し,以降は上記と同じくデータ収集・指標の計測に取り掛かりました.

今回は社内Wikiに早めに現状まとめを作成したことやJSAI論文執筆と並行しながらの作業だったことから,論文としての物語を常に意識しながら作業できたのが良かったと思います.また,ある程度良さそうな結果が出たところで関さんにメンタリングしていただき,「主張したい内容を適切に示すにはどういう実験結果が必要だろうか?」という観点から実験について練り直せたのでボツ案の時の失敗を上手く活かせたかなと思いました.

また,手法の提案はなく分析だけの研究にはなりましたが,その分普段読むことのない政治学の論文を読み,分析結果からの示唆を充実させられるように努力しました.(論文に入れるのが間に合わなかった話が多いのは反省です.)

最終的に,このテーマで人工知能学会全国大会に論文を投稿するところまで持っていくことができました.提出直前も関さんにめちゃくちゃ助けていただき,良い感じに肉付けできるよう導いてもらいながらなんとか間に合わせられました.もし私が書いた素の状態であればなかなか見苦しいものになっていただろうと思われます.

f:id:kuri8ive:20200331231057j:plain
鯖落ちにより提出失敗かと思われたがセーフ

終わりに

充実したインターンでした.しゅんけーさんもしばしば言及されているように関さんのメンタリングが素晴らしく,議論しながらアイデアを膨らませたり落としどころを探したりするのが楽しかったです.研究チームは小さいもののその分距離感も近く,またデータ分析のエンジニアは多数在籍しているためサポートは十分あります.もちろん自走力は必要ですが面接を突破できる程度あればやっていけるはずです.求人にも記載があるように研究を行う人のモチベーションがとても重要視されているので,そこまで詳細な研究案を思いつけずともモチベーションがあってGunosyのデータや研究に興味がある方は是非飛び込んでみると良いと思います.

hrmos.co

私は一旦終了することにしましたが,目安として1ヶ月の間に国内外査読有無を問わず論文にまとめられればその後も続行できるので,研究成果を継続的に出していきたい方にもぴったりです.