概要
この記事は、Google NotebookLMの音声概要機能を他の音声合成ソフトで再現するプロジェクトの第一弾です。
音声ファイルの話者分離と文字起こしをローカル環境で実行するPythonプログラムを紹介します。
話者分離には、Hugging Faceで公開されている pyannote/speaker-diarization-3.1モデルを利用します。
https://huggingface.co/pyannote/speaker-diarization-3.1
文字起こしには、OpenAIの Whisperモデル(例: whisper-large-v3)を利用し、分離さ…
Source link
Views: 0