LangChainのRecursiveCharacterTextSplitterの動作がおかしいので自作する
1.4k{icon} {views}LangChainのRecursiveCharacterTextSplitter.from_tiktoken_encoderの動作が思ってたのと違ったので、それに相当するものを自作して […]...
PDFMinerを並列化して読み込みを高速化する
531{icon} {views} PDFMinerというMITライセンスで利用できる、PythonベースのPDFパーサーを並列化する方法を紹介します。このライブラリ、パースが遅いというデメリットがあるのですが、並列化が […]...
img2pdfを使ってPDFにカラープロファイルを確実に埋め込む
1.1k{icon} {views} 画像のカラープロファイルは印刷の際に重要なことが多いですが、img2pdfを使ってPDFにICCプロファイルを確実に埋め込む方法を見ていきます。入稿データにPDFが指定されている場合 […]...
PythonでPDFをトリミングする方法
12.8k{icon} {views} 印刷用の原稿では「塗り足し」に気をつける必要があります。印刷用と表示用でページサイズが変わり、表示用のPDFを作るのに印刷用のPDFをトリミングする必要が出てきます。この変換をPy […]...
PDFのフォント埋め込み問題(T3フォント問題)を回避しながら入稿データを作るのに苦労した話
13.9k{icon} {views} PDFは便利ですが、フォントの埋め込みが大きな問題になることがあります。T3フォント問題を回避しつつ印刷所に入稿できるデータを作るのにはどうすればよいのか、変換時に画質劣化を起こさ […]...