前回に引き続き、最近書いているOSSの話です。
前回↓
https://zenn.dev/ushironoko/articles/7001411d4dca41
コードをインデックスする際の問題点
普通にコンテンツを読み込んでチャンクに分割する時は、指定されたチャンクサイズとチャンクオーバーラップの値を見て、単純な文字数で分割されます。この際、オーバーラップに指定した数値の分だけ隣り合うチャンクは文字が重複するように分割されます。
const chunks = chunkText(text, {
size: 50, // characters per chunk
overlap…
Source link
Views: 0