SIGNATEの個人情報要求がすごかったので経済産業省に電話した話
https://commons.wikimedia.org/wiki/File:Keizaisangyosho1.jpgより CC 表示-継承 3.0
アメリカにはKaggleというデータサイエンスのコンペティションがある。これはNASAやGoogle、エアバスといった大手企業と提携し、データを提供してもらい、参加者はそのデータを元に予測モデルを構築し、最も良い予測ができるよう競い合うという、データサイエンスの競技プログラミングみたいなものだ。
日本にも最近そういったものがあり、SIGNATEというサイトである。経済産業省やNEDO、JRなどがデータを提供し、保線のデータや新幹線の積雪など非常に面白いデータを使ってコンペが開催されている。
目次
個人情報要求しすぎじゃない?🤔
まずメールアドレスを登録して、本登録画面に行って思った。
https://signate.jp/register/completed/認証URL より引用
認証URLはランダムな英数字
すごい個人情報要求してる!!!?🤔🤔
Kaggleではコンペに参加する段階ではSMS認証だけでOKだ。SMS認証ならまだわかるが、これだけの個人情報を登録時に要求するWebサービスというのは早々ない。賞金の本人確認のためならまだわかるが、登録時にこれだけを「必須事項」として要求するのはちょっと疑問がある。
プロフィールが全世界に公開されていた🤔
プロフィールの一部情報が全公開されていた。これは非常にびっくりしたのだが、コンペのランキングから飛べるプロフィールから、「職業」「社会人歴」「専門分野」「現職種」が全世界に向けて公開されていたのだ(スクリーンショットは11/27時点のもの)。
https://signate.jp/users/ユーザーID より引用
ユーザーIDは任意の数字
これはあるコンペのランキングから飛んだあるユーザーのプロフィールなのだが(具体的な記載事項については、こちらで自主的にマスクした)、この通り、そのURLを入力すれば全世界に筒抜けになってしまっていた。
しかもこれをユーザー側が任意に非表示にできる機能は、2018年11月末時点ではなかった。つまり、任意記載ではなく、強制的に表示されていた。任意に情報を開示するのと、強制的に開示するのは大きく違う。例えば、仮にツイッターアカウントと同じ名前で登録したとしたら、本人の個人情報が本人が意図しない形で特定されてしまうという重大な問題につながる。さらに例えば、強制的に公開されているプロフィールをもとに、本人の勤務先から賞金のあるコンペに参加していることを特定されたら、なにか問題がおきる可能性はないだろうか? 賞金のあるコンペを開催するのが悪いのではなく、むしろそれは良いと思ってはいる。しかし、個人を特定できかねない情報を強制的に全世界に向けて公開するなど、プライバシー上の配慮をしないのは極めて問題があると思う。
そのリスクに関してSIGNATEからの説明は一切ない。
なお、このプロフィール表示は11/30の22時ごろに確認したら全てのユーザーに対して非表示になっていた。同30日のSIGNATE運営(以下、運営)からの返答では(これは11/29の経済産業省からの返答をもとに、11/30に相違点を問い合わせた際の運営からの返答である)、「暫定的にプロフィールを非表示にした。これからどの項目を公開するか再検討していく」とのこと。
ここは非常に大事なところなので慎重に検討してほしい。ほとぼりが冷めるまで非公開にして、特に説明もなくしばらくしたら元通りにするなど安易な対応を取らないでいただきたい、と思う。
その他疑問点のある記述も
例えばこの記事、企業表示『実質開発工数=1案件40人月以上! 1人が何度もトライするコンペティション形式だから圧倒的なコストパフォーマンスを実現』とある。
https://signate.co.jp/#ai_development より引用
http://archive.is/Tp9lm
そもそもコンペの参加者は雇用契約結んでいないんだから、それを人月に含めるってどうなの? 工数の概念壊れる。ただのフォーラムに投稿をしている人たちを人月に含めたら、GitHubやStackOverFlowは何万人月になるの?🤔🤔
12/4追記:トップページを12/4に確認したところ、「実質開発工数」の表記が消えていた。なんで消えたんだろう? 悪いと思ってなければ別に消さなければいいのに。
https://web.archive.org/web/20181204111209/https://signate.co.jp/
あまりにも唖然として退会
まずデータサイエンス以前に個人情報の収集について不明瞭な点が多すぎるので、自分は退会することにした。ただ、あくまで扱っているデータは面白いと思う。扱っているデータが面白いだけに、自分としてはかなり残念だなと思う。やるなとは言わないが、個人情報のリスクは知った上でやるべきだと思う。
経済産業省に問い合わせ(一度目)
コンペの主催者に経済産業省がいくつかあったので、そこに問い合わせてみることにした。官庁はこういった個人情報の取扱かなりシビアなはずだ。しかも個人情報の保護についてのガイドラインを出しているは経産省だ。そのお膝元でこれだけ個人情報を要求するのはずいぶん度胸があるな、と思った。
表になっている情報から担当の局を探し出し、そこの総務課に電話した。これが2018/11/27の火曜日だ。
自分「SIGNATEで開催されている、このコンテストについて経済産業省に問い合わせたいことがあるのですが、この局のお名前があったので、こちらに電話するのが適切かと思い、お電話をいたしました。担当の課を教えていただけないでしょうか」
総務課「担当は××課になります」
自分「ありがとうございました」
そこで担当の課の電話を聞き、同27日にそちらの課に電話をした。担当課や担当者の名前については、対応してくださった方のプライバシーや名誉のためにここでは伏せさせていただきたい(課については総務課に問い合わせれば教えてくれる情報である)。問い合わせたのは次の点だ。
- 「生年月日」「職業」「社会人歴」「専門分野」「出身大学」「現職種」「大学の専門分野」「学部名」「学科名」「学位」などのように、個人をほぼ特定できてもおかしくないような情報を大量に要求している。この情報は任意登録ではなく、会員登録画面では「*必須事項」と記されている。情報収集は、賞金の受け取り時ではなく、コンペの参加前から行われている。この点について主催者である経済産業省としては認識しているか?
担当者が不在のため、後日の返答となった。29日に電話があった。それによると、
- このコンペ自体がNEDOの公募によるものである
- 個人情報の収集はサービス向上のために行っていると、表に出すつもりはない、Pマークを取得しており個人情報は適切に管理している、SIGNATE側は回答した
- 個人情報を要求していることは、事業者(SIGNATE)がやっていることで、経済産業省が意図したものではない
- 今後改善を提案していく
とのこと。同時に「もし、この個人情報が理由で、今回コンペ参加をやめるのでしたら大変申し訳ない」との謝罪の声もあった。いえいえ、経済産業省の方が平謝りすることではないです。
運営に照らし合わせと返答(一度目)
次に、運営に経済産業省に問い合わせたものをベースに、29日にメールで問い合わせを行った。
- 個人情報を収集していることは主催者である経済産業省が意図したものではないと言っていたが、主催者の意図に反した個人情報を収集が行われている
- 個人情報を表に出すつもりはないと経済産業省に対して言ったと聞いたが、プロフィール見たら誰にでも閲覧できる形で公開されている。経済産業省に対しての回答が虚偽だったのか?
という趣旨だ。これについては同日(29日)に返信が返ってきた。個人情報の取得目的は2点あるとのこと。
- クライアント(経産省を含む)のデータを預かり、賞金を出すコンペで、匿名で参加可能な性質上、不正抑止の施策として利用する
- プロフィールに表示されているのは5点の情報で、「職業」「社会人歴」「専門分野」「現職種」「自己紹介」である。これらは個人を特定できる(いわゆる個人情報)ではない
- プロフィールの公開は世界的に不足しているAIの人材の交流・流動化を1つの目的としており、可能な限り参加者には自身をPRしてほしい。気になるのだったら退会等してほしい。退会と同時に全ての情報は破棄される。
「退会と同時に全ての情報は破棄される」という言質はもらえるそうだ。ただ、2点気になる点はある。
- 本当に個人情報を収集することが不正抑止として機能しているのだろうか? 例えば、入試のカンニングなんか実名というより強い個人情報があるが、それでも不正は起こる。
- 経産省の人が「個人情報が理由で参加を断念されるのなら申し訳ない」と言っていたが、運営の態度は「嫌なら退会してほしい」とかなり強硬だ。そこは主催者の趣旨と反するのではないか。
再度運営に問い合わせ(二度目)
この2点について29日夜に再度問い合わせをメールで運営に送った。この2点についての質問だ。
- まずSIGNATEでは掲示板やチャットなど参加者間の交流を図るようなシステムがないと存じている。プロフィールを公開するという点と、交流を図るという目的の間に何ら根拠がないように思えるがそこはどう考えるか?
- 不正対策は、コンペの結果の審査段階で(現にルールを見ればソースコードを提出する、再現性の確認をするといったことが)要求され、担保されている。不正対策が「職業」「社会人歴」「専門分野」「出身大学」「現職種」「大学の専門分野」「学部名」「学科名」「学位」といった事細かな個人情報を収集することを正当化するものではないと考えるが、その点はどう考えるか? もし不正対策だったら主催者である経済産業省は「意図していた」はずではないか?
また経済産業省に問い合わせ(二度目)
運営と経産省の間で相違点が見つかったので、30日にまた経産省に問い合わせてみた。以下の3点だ。
- 昨日の電話で「経済産業省としてはこれらの大量の個人情報収集は意図していない」と言ったが、運営に問い合わせた所不正抑止のためにやっていると答えた。不正抑止だと主催者である経産省としても意図していないわけではないと思えるが、改めて、これらの個人情報収集は経済産業省としては意図していないのか?
- SIGNATEのユーザープロフィール上で、会員登録時に入力した個人情報が強制的に公開されており、(11/30の経産省への問い合わせ)現在それをオフにする機能はない。この点について、運営は「職業」「社会人歴」「専門分野」「現職種」は個人情報ではないと主張している。
- 昨日の電話では「個人情報を理由に参加を断念されるのなら申し訳ない」ということだったが、一方で運営は「プロフィールを公開するのが嫌なら退会を検討してほしい」と強硬な態度で、運営の態度は経済産業省の言っていた趣旨とは違う。運営の主張している公開の強制が、本当に経済産業省としての趣旨なのか?
これは担当者につながり即日回答をもらえた。
- 不正対策(ソースコードや検証できるようにすること)は指示したが、個人情報を収集しろとは言っていない
- 3つ目については答えられない。このコンテストがNEDOの公募によるもので、経済産業省はNEDOに予算を出して委託している立場である。一応オブザーバーとして参加しているが、事業者の選定はNEDOや有識者会議を通じて選定されており、その中でSIGNATEのプレゼンが一番良かったから。ただ、そのプレゼンや、選定や有識者会議の中で個人情報という話はなかったと記憶している。個人情報やプロフィールの話は後で知った。
こちらが2点目のプロフィール強制公開の話をしているときに、経産省の方の言葉がかなり青ざめたような、言葉が詰まったような反応だったのを記憶している。
つまり、主催者としての経済産業省の立ち位置は、経済産業省がNEDOに予算を出し委託し、NEDOがその予算で公募しSIGNATEに委託しているという立場だ。つまり、経済産業省から見たSIGNATEは孫の関係ということになる。その方が何度も申し訳ないと言って、真摯に対応してくれた(2回目の電話は15分程度だった)。また、Kaggleの存在も知っていて、Kaggleに委託すると「データを国外に出すことになるのか」というような議論になってややこしい、また経済産業省が独自にシステムを作ろうとすると税金をいっぱい使ってしまうことになるとような背景まで説明していただけた。なので、私個人の意見ではあるが、多少経産省の方に落ち度があっても、そこを責めるのは酷なような感じはする。
その上で、どのように改善していけばいいか?というような意見も聞いていただけた。突然のことだったので、思っている通りの回答ができなかったが、今もし改善案を聞いていただけるのなら、「不正対策なら個人情報を要求するのではなく、機械学習やディープラーニングに詳しい人を監修につけてほしい」「個人情報の取扱には慎重になって、必要以上に要求したり安易に転用したりしないでほしい」というのがまっさきに思い浮かぶだろう。少なくとも、プロフィールが全世界に強制公開されているようでは信頼できない。もしこの記事を経産省の担当の方が見ていたら参考にしてほしい。
改善意見については「もし今回のようなことが気になる人が多ければ、参考意見として聞いていく」とのことだったので、もし個人情報や主催者としての立場を聞いてみたい方がいれば、気軽に省のほうに問い合わせてみればよいのではないだろうか。民間企業ではなく官庁がやっていることであり、税金が出処になっているので、そこは国民が聞けばちゃんと教えてくれる。
運営から返事がきた(二度目)
経産省への2度目の問い合わせが終わって、30日夜に運営からメールの返事がきた。初回の回答はかなりテンプレのような印象を受けたが、2回目は裏で何があったのかは知らないが、そこそこ丁寧な説明があった。1回目は「弊社クライアント(経産省を含みます)」とあくまで省庁をクライアントの1つのような書き方をしていたが、2回目は「経産省様」と様がついていた。
- 現在全てのコンペにおいて掲示板やチャットはないが、一部コンペにおいてフォーラム機能を試験的に実装しており、ここを更に強化していく
- 一時対応として、プロフィールすべてを非公開とした。そのうえで改めてどの項目を公開すべきなのか再検討する。
- 不正抑止は、登録やコンペ参加へのハードルを上げることで、コンペ参加目的以外の目的で公開されているデータのダウンロードを抑止するためのもの
- あくまでSIGNATEとしては、個人情報を取得している
とのことだ。まだ個人情報は諦めていないらしい。あれ、経産省や自分は不正は「ソースコードや再現性の検証」とかコンペの成績上の不正の話をしたのに、いつの間にかデータの利用のほうに不正の論点がすり替わっていない?🤔
あくまでその主張で仮定するとして、個人情報はあくまで自己申告なので本当にハードルが上がっているかというと疑問がある。「それ別に個人情報いらなくてSMS認証でもよくない?」という感はある。ユーザー側の善意に頼り過ぎであり、本当に悪意のあるユーザーは個人情報があってもダウンロードしたりする。例えばKaggleの場合だと、コンペが終わったデータはそのままダウンロードできることも多く、ダウンロードされても構わないようなデータを使っている。しかし、その一方でデータのダウンロードで不正が起こり得るという話をするなら、その点に関してはだいぶユーザーの善意に依存しているようだ。オープンにできない情報でコンペをするのは無理があるのではないだろうか。もし不正なダウンロードを抑止するために個人情報を要求するのなら、何のためのコンペ参加規約だという話しになるし、そもそも経産省は「不正は抑止しろとは言ったが、個人情報を集めろとは言っていない」ので、データの不正ダウンロードについてなら、やはり主催者の意図する範囲だろう。
先程も見たように、「工数のコストパフォーマンスが高い」などあくまで業務データのように主張しているが、コンペで不特定多数に参加してもらう以上、業務データとコンペのデータを同一に語るのは無理があるのではないか、と自分は思う。もし不特定多数に参加してもらうコンペでやるのなら、オープンにされても構わないデータでやるべきだし、そこで個人情報を要求してハードルを上げたつもりになっているのはおかしい。ハードルを上げたければ、データを経済産業省の本庁に行って取り寄せる、書類を書いて入手するのほうがまだ信頼できる。そして本当にデータをオープンにされたくなければ、コンペ参加者を勝手に人月扱いせずに、賃金を払って雇用契約すべきではないだろうか。コストパフォーマンスが良いとは運営側の理屈ではないだろうか。
経産省の方の官僚ながら丁寧な返答の一方で、運営の返信を見ると、「返信が遅くなって申し訳ない」と遅くなったことに対しては謝りつつも、主張が二転三転しており、今回の問題の本質についての謝罪や訂正もなく、個人的にはかなり疑問を感じざるを得ない。謝罪を強要するつもりは一切ないが、NEDOの公募やプレゼン時に、個人情報の収集やその目的をどの程度説明していたかを明らかにしていただければこれに越したことはない。経産省の話では、その資金の出処はもともと税金なんじゃなかった?🤔
また、先程も書いたように、一時的にプロフィールを非公開にしてしのいでいるが、ほとぼりが冷めたら特に説明もなく、再度戻しますというだけはしないよう期待したい。データサイエンス以前に個人情報の扱いは注意しましょうという当たり前の話。
SIGNATEは扱っているデータは非常に面白いが、個人情報のリスクや疑問点が多いので、やるなとは言わないが、そのリスクを承知の上でやってほしいなと思う。
聞き方のコツ
省庁というと意外と遠い存在のように聞こえるが、予想よりも親切に教えてくれるということがわかった。ただし聞くのにはコツがいる。
担当の局、課を明らかにすること
省庁は良くも悪くも縦割りで、それが強みである。逆に言えばその分責任の所在ははっきりしやすい。つまり、「このことを聞くにはどこが管轄ですか?」と局や課まで明らかにしていくのがポイントである。中の人もそれはわかっていてこれは「委託がどうです」などと無意識に責任の所在を有耶無耶にしようとする。これは悪いことではなく、それが霞が関の作法だ。そこに活用できるチャンスがある。
「○○省はこう言っていたのですが、××が言っていたことと違いますよね。どういうことなんですか?」と聞いて突き合わせていけば、自ずと論点やダメな原因が見えてくる。今回はこれがうまく効いて、芋づる式に出てきていろいろと知ることができた。
省としての立場や、主催者・指導側としての立場を聞くこと
省庁はクレームセンターではないので、単に会社がこんなことやってるんですけどと言われても「担当のところに言ってください」「それは会社のほうに問い合わせてください」と門前払いされるのが関の山だ。今回は主催者の中に経済産業省の名前があったので、「○○省が主催になっているんですが、省としてどういう認識なのですか」という切り口から聞くことで、うまく聞き出すことができた。縦割りゆえに当事者意識には敏感らしい。
ということだ、あくまで一般論であるが、国民はもっと行政を活用してもよいのではないだろうか。これだけ1週間もたたないスピードで事が動いたことに対して、経済産業省の担当の方には深い感謝の意を表したい。ありがとうございました。これからももっと多彩な形で日本のAIが発展することを楽しみにしているし、自分も何らかの形でそれに携われたらなと思う。
Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内
技術書コーナー
北海道の駅巡りコーナー