Shikoan's ML Blog

論文まとめ：WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

2024-02-01

694{icon} {views} タイトル：WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models 著者：Hongliang […]...

2024-01-31

1.1k{icon} {views} OpenAIの新しいEmbedding APIを試してみました。Embedding APIをテキスト分類のバックボーンとして使用し、ロジスティック回帰を行います。Livedoorニュ […]...

2024-01-30

307{icon} {views} RAGのための評価データセットの構築として「GPTの素の知識で解けない問題のデータセット」というのが必要性を増している。RAGの性能評価（特にBingチャットのような検索エンジンのRA […]...

2024-01-18

491{icon} {views} タイトル：Gemini: A Family of Highly Capable Multimodal Models 著者：Gemini Team（(842 additional aut […]...

2024-01-16

309{icon} {views} re:Invent2023で発表された、AWSのS3の新機能である「S3 Express One Zone」を使って、定期削除をしようとしたら結構ハマったのでメモを書いておきます。内 […]...

2024-01-15

1.6k{icon} {views} 1つのドメイン直下にサブディレクトリを作り、複数のGradio、Streamlitのアプリを配置するパターンをコンテナベースで実装してみます。nginxによるリバースプロキシを使いま […]...

2023-12-21

467{icon} {views} タイトル：Weak to Strong Generalization: Eliciting Strong Capabilities with Weak SUPERVISION 著者：O […]...

2023-12-20

768{icon} {views} PDFMinerというMITライセンスで利用できる、PythonベースのPDFパーサーを並列化する方法を紹介します。このライブラリ、パースが遅いというデメリットがあるのですが、並列化が […]...

2023-12-15

751{icon} {views} タイトル：Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets 著者：Stab […]...

2023-12-14

2.1k{icon} {views} 英語を日本語に翻訳するというタスクから、Amazon TranslateやDeepLのような翻訳APIと、GPTやClaudeのようなLLMを比較します。BLEUによる翻訳性能と、コ […]...