概要
この記事の対象者:LLMの内部処理をコードレベルで具体的に理解し、自分で簡易的なモデルを動かしてみたいエンジニアや研究者。
この記事の内容:Raschka著『作りながら学ぶLLM入門』第2章をベースに、トークン化からサブワード分割、特殊トークン付与、データローダー作成、埋め込みまでの前処理工程をPythonコード付きで解説。
この記事を読んでできること:前処理の各ステップを自力で実装し、英語・日本語を問わずLLMの学習データを準備するパイプラインを構築できる。
序説
(長いので、お急ぎの方はスキップしてください)
MCP、AIエージェント等盛り上がりを見せてますが、
そ…
Source link
Views: 0