✂テキスト分割
読み込み中...
ログファイル、CSVの1行、リスト形式のデータなどを、指定した区切り文字でバラバラに分解します。空行の削除や重複のカットも簡単に行え、最終的に別の区切り文字で繋ぎ直したりJSONにしたりできます。
使い方
- 1テキストを入力
分割したい内容を貼り付けます。
- 2区切り文字を選択
改行、カンマ、タブなどを選ぶか、「カスタム」で任意の文字を指定します。
- 3加工オプション
前後の空白削除、空項目の除去、重複の削除などを必要に応じてチェックします。
- 4結果を活用
リスト形式で結果を確認し、検索フィルタで絞り込んだ後、JSON配列等としてコピーします。
ヒント
- 💡重複削除を使えば、一瞬でユニークな値のリストが手に入ります。
- 💡JSON配列としてコピーすれば、そのままコード内に貼り付けて使えます。
- 💡フィルタ機能を使って、大量のデータの中から特定のキーワードを含む行だけを抽出できます。
よくある質問
- Q. テキスト分割がLLMで重要な理由は?
- A. LLM(大規模言語モデル)は一度に処理できるトークン数に上限(コンテキストウィンドウ)があります。RAGシステムで長い文書を適切なサイズに分割する必要があります。
- Q. チャンクサイズはどう決めますか?
- A. 一般的には256〜1024トークンのサイズで分割します。小さすぎると文脈が途切れ、大きすぎると無関係な情報が混在します。
- Q. オーバーラップとは何ですか?
- A. 連続するチャンク間で一部の内容を重複させるオプションです。チャンク境界で文が途切れても次のチャンクで文脈を継続でき、検索品質が向上します。