🧠 概要:
概要
この記事では、データ分析者が「Duration」「Heart_Rate」「Age」の3つの特徴量だけを用いてXGBoostモデルを作成し、カロリー消費量の予測を行った結果について説明しています。高い評価指標(R²約0.989)を達成し、少数の特徴量でも予測が可能であることを示しています。さらなる分析にはSHAP解析を用いる予定としています。
要約の箇条書き
- Playgroundシリーズのデータから、最初の10,000件を使用。
- 利用した特徴量は「Duration」「Heart_Rate」「Age」の3つ。
- カテゴリ変数(例:「Sex」)は数値に変換。
- モデルの評価指標R²は約0.989と高い精度。
- 3つの特徴量でもカロリー消費量予測に効果的であることが示された。
- 他の参加者はさらなる特徴量や高度な手法を使用しているため、さらなる改善を目指す意向。
- 今後はSHAP解析を活用して、特徴量の影響を詳細に調査する計画。
Photo by ready_iguana6493
今回、Playgroundシリーズのデータを使って「Duration」「Heart_Rate」「Age」の3つの特徴量だけでXGBoostモデルを作成し、カロリー消費量の予測を試みました。
-
データは最初の10,000件を使用
-
「Sex」などのカテゴリ変数は数値に変換
-
モデルの評価指標 R² は約0.989と高い精度を達成!
この結果は、わずか3つの特徴量でもカロリー消費量の予測に大きな影響を与えることを示しています。一方で、他の参加者はさらに多くの特徴量や高度な手法でより高精度なモデルを作っているため、自分ももっと頑張って精度を上げていきたいと思います。
今後は、SHAP解析を活用して特徴量の影響を詳細に探りながら、モデル改善に取り組みます。
元教員。教育×データ分析に関心があり、KaggleやPythonで学んだことを言語化してまとめることで実力をつけつつ、誰かの参考にもなればと思ってを使っています。 Twitterでも日々の進捗を発信中です📡 → @https://x.com/kaggle_katu
Views: 1