※論文よりも、この動画の最初の2分を見るのをおすすめ
目次
地図を作るためには、GeoStyleデータセットから770万枚の画像を使用した。これらはInstagramとFlickerからのもの
ただ、服装の属性を判定する必要があるため、2万7000枚の小さなデータセットを作り、マルチタスクなCNNを訓練する。
770万枚のすべての画像に対し、CNNの最後から2番目のレイヤーの特徴量を使い、クラスタリングをする。具体的にはK=400の混合ガウスモデルを使った。クラスタリングで得られた$I_i$に対するクラスを$\mathbf{s}_i\in[1, K]$とする。
場所は場所で同心円上の集合$T(\mathbf{x})$を作る。これは$x$の属する集合を示す。$r$はハイパーパラメーターで、大きく設定するとサンプル数を増やせ、信頼度の高い分布になる。信頼度と局所的な特徴を捉えるかのトレードオフになる。
$$T(\mathbf{x})={I_i:|\mathbf{l}_i-x|_2 < r}$$
→ 隣接する領域のIoUの和が0.5となるように$r$を決めた。
この手法はファッションのスタイルに対して、ヒストグラム$\mathbf{h}_x$を作るのがポイント。
この論文がわかりづらいのは、同心円の集合とグリッドの集合を同時に語っていること。これは独立した別手法ではなく、グリッドとして可視化している集合は、実は同心円の集合と考えられる。
地図全体を2Dのグリッドで敷き詰める。最終的に作りたいのはこういうもの
ここで$(W, H)$は都市全体のBounding Boxのサイズで、$w, h$はBounding Boxの位置である。
$$\mathbf{x}_{ij}=(w+di, h+dj)\qquad \forall i\in\Bigl[0, \lfloor\frac{W}{d}\rfloor\Bigr], j\in\Bigl[0, \lfloor\frac{W}{d}\rfloor\Bigr]$$
この各グリッドに属する画像をすべて集めたものを$T(\mathbf{x}_{ij})$とし、このヒストグラムを$\mathbf{h}_{x_{ij}}$よする。このヒストグラムに対してK-Meansをかけ、各グリッドのラベルを得る。
各ヒストグラムの合計は1なので、L1距離をK-Meansの更新に使っている。
論文の表記があまり明確に定義されておらず、よく理解できなかったので省略
ファションからの地下地図は、従来の伝統的な分割(ダウンタウン、ミッドタウンなど)では捉えられなかった形質を捉えている。
ドジャースタジアムの周辺では、チームカラーにマッチするような特にユニークな服装が見られる。ボゴタはハイキングとアウトドアの旅行者による服装。