GeminiのアプリケーションとGeminiのAPIは全然出力が違うので気をつけましょうという話
Gemini AdvancedやGeminiのようなアプリケーションとしてのGeminiと、Google Cloud上のモデル/LLMとしてのGeminiは全く異なる出力をします。最初アプリケーション側を出力がモデル本来の性能と錯覚したので、検証の際の注意喚起として書いておきます。
目次
結論
Geminiのアプリケーション(Gemini Advanced上のGemini)と、API上のGemini(Google Cloudの)は全然違う出力をするので気をつけましょうという話。検証に使うならAPIを使いましょう。
GeminiのAPI
Google Cloud上で利用できる。2024/2/16現在、Gemini Pro/Pro VisionのAPIのみ公開されている。論文では、Gemini(というモデル)は、Ultra、Pro、Nanoの3バージョンがあることが記されている。APIとして公開されているのは、真ん中のPro版。
APIとして公開されているのは、他の外部ツールの影響がない、LLM/マルチモーダルLLMの純粋な出力と考えられる。
Geminiのアプリケーション(Gemini Advanced)
Bardからの移行版として開発されたアプリケーション。GeminiとGemini Advancedの2バージョンがあり、Gemini Advancedは「Google One AI Premium Plan」を契約すると利用できる。
Gemini Advancedを使うと、Gemini Ultraを利用できることが明記されている。
本日発表する Gemini Advanced は、高性能かつ最大の AI モデルである Ultra 1.0 を搭載しています。サードパーティの評価者によるブラインド調査では、Ultra 1.0 を搭載した Gemini Advanced は、主要な他サービスと比較して、最もパフォーマンスの高い会話型 AI のひとつと評価されています。
また、Gemini Advancedのアプリ中でも以下のように書かれている。
Ultra 1.0 搭載の Gemini Advanced は英語の回答に対してのみ最適化されていますが、対応している限り他の言語でも回答できます。
アプリケーション2バージョンあるのは、アプリケーションにUIから、「Gemini」と「Gemini Advanced」の2つを選択できる点から。
APIの出力と、アプリケーションの出力を比較するには
Gemini AdvancedはUltraを使用しているのに対し、UltraのAPIは公開されていないので、Ultra同士は直接比較しようがない。
そこで、Gemini Advancedの中でモードを「Gemini」に切り替えて、内部でProが使われているとして、APIのPro版と出力を比較する。
ChatGPTのアプリが、有料版のPlusだとGPT-4を使えるのに対し、無料版だとGPT-3.5になるアナロジーからも考えて、ノーマルのGeminiの内部でPro版を使っていると考えるのは自然である。いくつか記事を見ると、ノーマルのGeminiはProを使っていると断定しているものをある。
また、Geminiの公式アップデートノートを見ると、以下のような記述がある
2024.02.01
Gemini Pro 搭載 Bard の対応言語を拡大
・更新内容: Gemini Pro 搭載 Bard が、Bard を利用できるすべての言語新しいウィンドウで開くに対応し、世界中でご利用いただけるようになります。
このアップグレードにより、理解、要約、推論、記述、ブレインストーミング、プランニングなどをより効率的に行えるようになります。
・理由: Gemini Pro により、Bard を使った新たなクリエーション、インタラクション、コラボレーションが実現します2024.02.08
Bard が Gemini になりました
更新内容: Gemini では、Google AI に直接アクセスすることができます。従来の機能は引き続き利用可能で、今後は Gemini としてさらに使いやすく進化していきます。また、注意をそらす視覚要素を減らし、読みやすさを向上させ、操作をシンプルにするために UI もアップデートしました。
理由: Google では、誰もが Google AI に直接アクセス可能になるよう取り組んでいます。今週から、対象の国と言語のすべてのユーザーに、Google の最も高性能な AI モデルをご利用いただけるようになりました。この取り組みをよりよく反映するために、Bard の名前を Gemini に変更しました。
つまり、BardにGemini Proが搭載されて、BardがGemini(アプリケーション)になったので、Gemini(アプリケーション)に搭載されているLLMはGemini Pro(モデル)であるという考え方である。これは理にかなっている。
したがって、ノーマルのGemini(アプリケーション)に搭載されているLLMはGemini Pro(モデル)であるのはほぼほぼ正しいだろう。
アプリケーションのGeminiと、APIのGemini Pro/Pro Visionを比較すれば、両者の比較は正当にできるということになる。
Gemini 1.5が発表
更に2024/2/16に、Gemini 1.5が発表された。Vertex AI上で利用を試してみたが、私の環境だと利用できなかった。
Advancedのアップデート履歴には1.5が反映されていることが書いてなかったが、現段階では1.0ということなのだろうか。ここらへんが本当にブラックボックスである。
アプリケーションとAPIの出力の比較結果
VQAタスクで比較する。以下の3点
- VertexAI(API)で、
gemini-pro-vision
を選択し、画像に対して質問を行う - VertexAI(API)で、
gemini-1.0-pro-vision
を選択し、画像に対して質問を行う - Gemini(アプリケーション)で、ノーマルのGeminiを選択し、画像に対して質問を行う
※2024/2/16現在、1.5はAPIでは使用できなかった
質問
質問は全て:画像投稿→「この画像を詳しく説明して」にする。
1枚目:霞が関ポンチ絵
環境省『地域循環共生圏(日本発の脱炭素化・SDGs構想)』
霞が関ポンチ絵として有名なもの
Vertex AI(gemini-pro-vision)の回答
これは、地域循環共生圏構想の全体像を示した図です。
地域循環共生圏構想とは、サイバー空間とフィジカル空間の融合により、地域から人と自然のポテンシャルを引き出す生命系システムを構築し、脱炭素化とSDGsの実現を目指す構想です。
この構想では、地域を「自立分散」「相互連携」「循環・共生」の3つの要素で構成し、それぞれに重点を置いた取り組みを進めていきます。
「自立分散」では、地域のエネルギーや食料、水などの資源を地産地消し、地域の経済を循環させる取り組みを進めます。
「相互連携」では、地域間や都市と農村の連携を強化し、地域の課題を共同で解決する取り組みを進めます。
「循環・共生」では、人と自然が共生できる環境づくりを進め、地域の生態系を守りながら経済発展を実現する取り組みを進めます。
この構想の実現に向けて、政府、企業、自治体、市民が一体となって取り組んでいきます。
Vertex AI(gemini-1.0-pro-vision)の回答
これは、地球温暖化の原因となる温室効果ガスの排出量を、2030年度までに2013年度比で46%削減し、2050年度には実質ゼロにするという目標を掲げた「カーボンニュートラル」の実現に向けた、日本の取り組みを示した図です。
図の中央には、カーボンニュートラルを実現するための9つの重点分野が示されています。
1.エネルギー
2.産業
3.運輸
4.建築物
5.農業
6.林業
7.廃棄物
8.水素
9.CCS
これらの重点分野ごとに、現状と目標、および目標達成に向けた取り組みが示されています。
例えば、エネルギー分野では、現状として、日本の一次エネルギー供給構成は、化石燃料が約8割を占めています。目標としては、2030年度に化石燃料依存度を50%以下に削減し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、再生可能エネルギーの導入拡大や、原子力発電所の再稼働などが挙げられています。
産業分野では、現状として、日本の産業部門のエネルギー消費量は、全体の約4割を占めています。目標としては、2030年度に産業部門のエネルギー消費量を2013年度比で30%削減し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、省エネルギー対策の推進や、再生可能エネルギーの導入拡大などが挙げられています。
運輸分野では、現状として、日本の運輸部門のエネルギー消費量は、全体の約2割を占めています。目標としては、2030年度に運輸部門のエネルギー消費量を2013年度比で25%削減し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、電気自動車や燃料電池自動車の普及促進や、公共交通機関の利用拡大などが挙げられています。
建築物分野では、現状として、日本の建築物のエネルギー消費量は、全体の約1割を占めています。目標としては、2030年度に建築物のエネルギー消費量を2013年度比で30%削減し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、省エネルギー基準の強化や、再生可能エネルギーの導入拡大などが挙げられています。
農業分野では、現状として、日本の農業部門のエネルギー消費量は、全体の約1%を占めています。目標としては、2030年度に農業部門のエネルギー消費量を2013年度比で10%削減し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、省エネルギー対策の推進や、再生可能エネルギーの導入拡大などが挙げられています。
林業分野では、現状として、日本の林業部門のエネルギー消費量は、全体の約1%を占めています。目標としては、2030年度に林業部門のエネルギー消費量を2013年度比で10%削減し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、省エネルギー対策の推進や、再生可能エネルギーの導入拡大などが挙げられています。
廃棄物分野では、現状として、日本の廃棄物処理に伴うエネルギー消費量は、全体の約1%を占めています。目標としては、2030年度に廃棄物処理に伴うエネルギー消費量を2013年度比で10%削減し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、リサイクルの推進や、廃棄物のエネルギー化などが挙げられています。
水素分野では、現状として、日本は水素の輸入国です。目標としては、2030年度に水素の自給率を10%に引き上げ、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、水素の製造技術の開発や、水素の貯蔵・輸送技術の開発などが挙げられています。
CCS分野では、現状として、日本はCCSの実証試験を実施しています。目標としては、2030年度にCCSの商用化を実現し、2050年度には実質ゼロにすることを目指しています。この目標達成に向けた取り組みとして、CCSの技術開発や、CCSの導入拡大などが挙げられています。
なんか全然違う回答をしている
Geminiアプリケーションの回答
はい、もちろんです。
この画像は、環境省が作成した「地域循環共生圏」の概念図です。地域循環共生圏とは、2018年に閣議決定された第五次環境基本計画で提唱された、日本発の脱炭素社会とSDGsの実現を目指す考え方です。
具体的には、各地域が以下の3つのポイントを軸に、自立・分散型の社会を形成しつつ、地域資源等を補完し支え合うことで、環境・経済・社会の統合的な向上を目指します。
* **自立分散(オーナーシップ)**:地域が主体的に課題解決に取り組む
* **相互連携(ネットワーク)**:地域間で連携し、資源やノウハウを共有する
* **循環・共生(サステイナブル)**:地域資源を活用し、持続可能な社会を築く
図では、これらのポイントに基づいて、地域循環共生圏を構成する5つのテーマが示されています。
**1. 自立分散型の「エネルギー」システム**
* 地域で調達した再生可能エネルギーを活用する
* エネルギーの地産地消を進める
* 災害に強いエネルギーシステムを構築する
**2. 「災害」に強いまち**
* 防災インフラと自然の力を活用する
* 地域住民の防災意識を高める
* 災害時の復旧・復興を迅速に進める
**3. 人に優しく魅力ある「交通・移動」システム**
* 公共交通機関の利用を促進する
* 次世代モビリティを導入する
* 歩行者や自転車に配慮したまちづくりを進める
**4. 健康で自然とのつながりを感じる「ライフスタイル**
* 地域の食材を活かした食生活を送る
* 自然の中で過ごす時間を増やす
* 健康増進のための活動に取り組む
**5. 多様な「ビジネス」の創出**
* 地域資源を活用したビジネスを展開する
* 地域間連携によるビジネスを創出する
* イノベーションを起こす
これらのテーマを推進することで、地域から質の高い生活をもたらす「新たな成長」につなげていくことが期待されています。
なお、この画像の詳細は、環境省のホームページで確認することができます。
* 環境省 - 地域循環共生圏:[[無効な URL を削除しました]]([無効な URL を削除しました])
* 環境省 - 地域循環共生圏づくりハンドブック:[[無効な URL を削除しました]]([無効な URL を削除しました])
以上、ご参考になりましたでしょうか。
→そもそも環境省のホームページの情報なんか一切与えてないのに補完している。裏で検索など走っているのではないか。
2枚目:ホームページのスクショ
Vertex AI(gemini-pro-vision)の回答
これは、アイドルマスターシャイニーカラーズに登場する小宮果穂というキャラクターです。彼女は12歳の小学6年生で、東京都出身です。身長は163cm、体重は45kgです。血液型はA型で、誕生日は7月29日です。趣味は特撮モノ鑑賞で、将来の夢はヒーローになることです。
Vertex AI(gemini-1.0-pro-vision)の回答
これは、アイドルマスターシャイニーカラーズの小宮果穂の画像です。彼女は、12歳の小学6年生で、身長は163cm、体重は45kgです。血液型はA型で、誕生日は7月29日です。特撮モノが大好きでヒーローに憧れており、将来はヒーローアイドルになりたいと思っています。
→1.0とバージョン指定なしでほとんど差はない。
Geminiアプリケーションの回答
このファイルは処理できません
→人の写真を避ける傾向があり、コンプラ的にだめらしい
3枚目:漫画(ラーメン三銃士)
「アットダイム」の記事の写真がラーメン三銃士にしか見えないと話題に フリー素材だから好きに使えるぞ!
Vertex AI(gemini-pro-vision)の回答
この画像には、ラーメン三銃士と呼ばれる3人の男性が描かれています。左から、スープの専門家である出川実、チャーシュー、メンマなどの具の専門家である多木康、麺の専門家である乃士勇造です。3人は、ラーメン評論家の栗田と、その娘の麻里と一緒にいます。栗田は、3人にラーメンの食べ方を指導しています。
→栗田が食べ方を指導しているというのがおかしい。麻里はどこから出てきた?
Vertex AI(gemini-1.0-pro-vision)の回答
この画像には、ラーメン三銃士と呼ばれる3人の男性が描かれています。左から順に、スープの専門家である出川実、チャーシューなどの具の専門家である多木康、麺の専門家である乃士勇造です。3人は、ラーメン評論家の栗田と、彼の娘である麻里と一緒にいます。栗田は、3人にラーメンの食べ方を指導しています。
→結果は変わらない
Geminiアプリケーションの回答
確かに、これは漫画「美味しんぼ」の第38巻から抜粋したページです。このシーンでは、主人公の山岡士郎と栗田ゆう子が、ラーメン店「軒」を訪れています。
画像は次のとおりです。
**左上:**
* 栗田ゆう子が、山岡士郎に対して「顔に似合わず意地悪だね!」と言っている。
**中央:**
* 山岡士郎が、ラーメン三銃士を連れて来たと言っている。
**右上:**
* ラーメン三銃士が、それぞれ自己紹介をしている。
* チャーシューの専門家、多木康。
* スープの専門家、出川実。
* 麺の専門家、乃士勇造。
**中央:**
* ラーメン三銃士が、チャーシュー、スープ、麺にそれぞれ注目している。
**左下:**
* 店主が「お待ち」と言っている。
**背景:**
* 店の名前が「軒」と書かれている。
**その他:**
* 画像の右上には、「おいしんぼ 38」と書かれている。
* 画像の右下には、ページ番号「67」と書かれている。
このシーンでは、山岡士郎と栗田ゆう子が、ラーメン三銃士と共に、ラーメン店「軒」を訪れています。ラーメン三銃士は、それぞれチャーシュー、スープ、麺の専門家です。彼らは、それぞれの専門分野の知識を生かして、ラーメンを評価するようです。
このシーンは、ラーメンに対する山岡士郎の情熱と、ラーメン三銃士の専門知識が対比されているように思います。山岡士郎は、ラーメンを単なる食べ物としてではなく、文化として捉えています。一方、ラーメン三銃士は、ラーメンを科学的に分析しています。
このシーンは、ラーメンに対する異なる視点を提示しており、読者に考えさせるものがあります。
→ 山岡士郎の情報はこの画像から読み取れないのに、勝手に知識を外挿している。何らかの外部ツール(検索類)が走っている。このエピソードがどうとかは聞いていない。また、栗田の下の名前もこの画像からだけではわからないのに入れている。
4枚目:ソシャゲの画面(ブルーアーカイブ)
Yostarの新作「ブルーアーカイブ -Blue Archive-」は日常的に銃火器を持ち歩く美少女たちとの学園生活ゲーム
Vertex AI(gemini-pro-vision)の回答
この画像には、美少女のキャラクターが描かれています。彼女は、ピンクの髪と緑の目をしており、制服を着ています。机に座って、何かを考えているようです。背景には、黒板と本棚があります。
→何かを考えているというのは違う気がする。背景描写は間違っている
Vertex AI(gemini-1.0-pro-vision)の回答
これは美少女ゲームのホーム画面です。画面左上にプレイヤーのレベルと名前、所持しているお金とジュエルが表示されています。中央にはメインキャラクターの一人である「星野きらり」が表示されており、その下には現在開催中のイベントが表示されています。画面右下にはメニューボタンが表示されており、そこからゲーム内の様々な機能にアクセスすることができます。
→「星野きらり」という謎のキャラクターが登場しているが、説明としては正しい。
Geminiアプリケーションの回答
このファイルは処理できません。
→コンプラNGらしい
5枚目:中華料理のメニュー
スマホで撮ったもの
Vertex AI(gemini-pro-vision)の回答
料理長のおすすめメニュー
酸菜魚羊鮮 2,300円(税込)
ラム肉と白身魚の酸辣煮込み
身体を温めてくれる羊肉(ラム肉)と白身魚・エノキを高菜漬けと数種類の唐辛子で酸辣味に煮込みました。程よい酸味が辛さを引きたて、後味をさっぱりさせます。
干爆炒牛肚 1,980円(税込)
→説明が正しい
Vertex AI(gemini-1.0-pro-vision)の回答
この画像には、中国語で書かれたメニューが写っています。メニューには、「酸菜魚羊鮮」という料理が掲載されており、ラム肉と白身魚の酸辣煮込みであると説明されています。また、この料理は、身体を温めてくれる効果があるとも書かれています。
→概ね正しい
Geminiアプリケーションの回答
はい、画像の説明をします。
画像に写っているのは、中華料理店のメニューです。メニューには、2つの料理の写真と説明が掲載されています。
左側の料理は、「酸菜魚羊鮮(サンチャイユイヤンシェン)」という、ラム肉と白身魚の酸辣煮込みです。高菜漬けと数種類の唐辛子で煮込んであり、程よい酸味が辛さを引き立て、後味をさっぱりさせているとのことです。価格は2,300円(税込)です。
右側の料理は、「专干爆炒牛肚(ズェンガンバオチャオニュウドゥ)」という、干し牛肚の炒め物です。牛肚は、牛の胃袋を干したもの、コリコリとした食感が特徴です。唐辛子やネギなどの香辛料で炒めてあり、ピリ辛の味付けとのことです。価格は1,980円(税込)です。
メニューの左上には、「料理長のお勧めメニュー」と書かれています。この2つの料理は、お店のおすすめ料理ということのようです。
画像の撮影場所は、神奈川県横浜市です。撮影日は、2024年2月16日です。
以上、画像の説明でした。
→右上の料理なんてないのに情報を補完している。切れているが、おそらく検索でとってきたのだろうか。撮影場所はExifで入れていないが、現在のWiFiの場所から推定したのだろうか。この仕様はトラブルになりそう。
6枚目:ガチャのティザー写真
Vertex AI(gemini-pro-vision)の回答
これは、ガンダムシードフリーダムとガンダムOOのコラボレーションを記念したガチャ画面です。
排出されるキャラクターは、
★6キラ・ヤマト&ラ・フォンタム
★6バナージ・リンクス&「ユニコーンガンダム (NT-D)」
★6シン&デスティニーガンダム Spec II
★6アスラン&インフィニットジャスティスガンダム弐式
★6キラ&ラクス &マイティーストライクフリーダムガンダム
★5以上キャラの排出確率12%
です。
→あってるようで微妙に違う
Vertex AI(gemini-1.0-pro-vision)の回答
これは、ガンダムSEEDとガンダム00のコラボレーションを記念したガチャ画面です。
排出されるキャラクターは、キラ・ヤマト、アスラン・ザラ、シン・アスカ、カミーユ・ビダン、刹那・F・セイエイ、バナージ・リンクスなどです。
これはまあまあ無難
Geminiアプリケーションの回答
送信された画像には、機動戦士ガンダムシリーズのキャラクターとモビルスーツが描かれています。
画像の上部には、ゲーム「機動戦士ガンダム 戦場の絆」のタイトルと、2024年2月16日の日付が記載されています。
画像の中央には、ゲームに登場するキャラクターとモビルスーツが描かれています。
左上には、キラ・ヤマトとラクス・クラインが搭乗するフリーダムガンダム、アスラン・ザラとカガリ・ユラ・アスハが搭乗するジャスティスガンダム、シン・アスカとルナマリア・ホークが搭乗するデスティニーガンダムが描かれています。
右上には、アムロ・レイとシャア・アズナブルが搭乗するνガンダム、カミーユ・ビダンとフォウ・ムラサメが搭乗するZガンダム、刹那・F・セイエイとマリナ・イスマイールが搭乗するダブルオーライザーが描かれています。
画像の左下には、ゲームのロゴと、公式サイトのURLが記載されています。
画像の右下には、ゲームの発売日と、対応プラットフォームが記載されています。
この画像は、ゲーム「機動戦士ガンダム 戦場の絆」の最新情報を伝えるために作成されたものと考えられます。
画像に記載されている情報によると、ゲームは2024年2月16日に発売予定で、PlayStation 4、PlayStation 5、Xbox One、Xbox Series X/S、Nintendo Switchに対応する予定です。
ゲームには、機動戦士ガンダムシリーズの歴代キャラクターとモビルスーツが登場する予定です。
プレイヤーは、これらのキャラクターやモビルスーツを操縦して、戦いに挑むことができます。
ゲームには、ストーリーモード、対戦モード、協力プレイモードなどのモードが搭載される予定です。
ストーリーモードでは、機動戦士ガンダムシリーズのストーリーを追体験することができます。
対戦モードでは、他のプレイヤーと対戦することができます。
協力プレイモードでは、他のプレイヤーと協力して、敵と戦うことができます。
ゲームの詳細については、公式サイトで確認することができます。
→えっ??戦場の絆??? 違うでしょ
結論
- Geminiのアプリケーション(Gemini Advanced上のGemini)と、API上のGemini(Google Cloudの)は全然違う出力をするので気をつけましょう。本来の性能はAPIなので、検証するならAPIで
- Geminiのアプリケーションの裏で何が動いているのかよくわからない。一応以下のように拡張機能は選択できるが、裏でGoogle検索やその他が動いているのはほぼほぼ濃厚なので、何が正しいのかよくわからない
所感
- この動いているツールを明記すればまだ別だったかもしれないが、GeminiのアプリケーションをGeminiのLLMの性能と錯覚させるようにPRしているのは技術的に不誠実である。
- 結局は、MS&OpenAI連合からシェアを引き剥がしたいのだろうが、正直これはインチキ以外の何物でもないし、「何が正しいのかわからない」状態は検索サイトとしては終わっているので、自分は今のGemini Advancedは嫌いである。日本語OCR性能が高そうなので、モデル単体だったら使うと思うが、アプリケーションの方はそろそろ解約しようかなと思っている。
- このへんの「アプリケーション側で何使っているのかわからない」問題は、Geminiモデルのバージョンアップによる性能向上で有耶無耶になりそうな気がするので、「最初はこうだった」というのを記録しておく
- Geminiのインチキといえば、Geminiの登場時に公式サイトで最初以下のようにPRしていた
- Gemini UltraとGPT-4の比較で、CoT@32と5-shotで比較するのはインチキじゃないですかという話。32shotもしていたらそりゃ良くなるに決まっている
- ちなみに論文の方は32shotと5shotの両方を書いているので、うーんこの感
https://japan.googleblog.com/2023/12/gemini.html、魚拓
- OpenAI一強になってしまうと独占の問題が発生するので、Geminiはヒール役として頑張ってほしい
Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内
技術書コーナー
北海道の駅巡りコーナー