予測パイプライン運用手順

オークション・セール前に必要なデータ最新化、特徴量更新、モデル作成、予測レポート作成の依存関係を整理した引き継ぎ資料です。 重い学習は毎回必須ではなく、直近のモデルが十分新しい場合は予測レポート作成だけで運用できます。

基本フロー

データ最新化
JBISレース、関連馬、血統、オークション、セール、写真を更新。
サマリ再構築
収支、馬主別サマリ、スピード指数、休養系などを更新。
特徴量生成
CLIP、コメントembedding、血統、祖先貢献度を作成・更新。
モデル作成
必要なときだけCatBoostモデルを再学習し、評価CSVを更新。
予測HTML作成
新規オークション・セールの比較レポートを生成。

入口コマンド

通常はPowerShellで以下を使います。

cd D:\coconara\keiba-jp
.\tools\run_prediction_pipeline.ps1 -Help
.\tools\run_prediction_pipeline.ps1 -Smoke
.\tools\run_prediction_pipeline.ps1 -Reports
.\tools\run_prediction_pipeline.ps1 -ExternalAuctionPrediction

モデル再学習を含める場合は -TrainModels -Reports を指定します。 データ取得は対象期間や対象サイトを間違えると時間がかかるため、明示オプションを入れたときだけ実行します。 外部オークション予測は対象データ次第で長時間化するため、通常の評価資料再生成とは分けています。

処理分類

分類主な処理残す理由
データ更新 import_jbis_races, refresh_related_horses_from_jbis_races, import_jbis_pedigree_snapshots, refresh_jbis_pedigree_snapshots 最新レース、競走馬、5代血統を予測・画面表示へ反映するため。
オークション取込 import_thoroughbred_auction_range, import_sat_auction_range, import_auction_bids_range, download_auction_photos 新しいオークション候補、入札履歴、写真特徴量に必要。
セール取込 import_sale_listings, import_sale_photos, import_hba_archive_catalogs, import_hba_catalog_photos セール候補と写真を予測対象にするため。
サマリ再構築 calculate_new_finance, rebuild_unified_horse_finance_summaries, rebuild_unified_horse_owner_account_summaries, rebuild_owner_horse_feature_summaries, rebuild_race_time_baselines 画面表示、損益、スピード、休養、馬主別検索の基礎データ。
特徴量生成 run_clip_photo_only_2015_2020.py, prepare_auction_comment_sentence_embeddings_for_range.py, create_pedigree_ancestor_contribution_report.py, run_pedigree_only_extended_feature_experiments.py CLIP画像特徴量、コメントembedding、血統・祖先貢献度をモデルへ渡すため。
モデル作成 run_auction_owner_prediction_phase10_multiview.py, run_auction_owner_prediction_phase10_1_deep_model_comparison.py, run_auction_owner_prediction_phase10_2_view_model_comparison.py, run_auction_owner_prediction_phase10_money_targets.py, create_sale_linked_phase5_multiview_holdout_report.py 最新版のCatBoost系モデルと評価CSVを更新するため。
予測・レポート create_auction_owner_prediction_phase11_catboost_pages.py, create_external_auction_catboost_prediction_list.py, create_sale_linked_phase5_catboost_pages.py オークション・セール前に見るHTMLを生成するため。

通常運用の目安

毎回やる

対象オークション/セールの取込、対象馬のJBIS・血統補完、予測HTML作成。

必要なときだけやる

CLIP再抽出、コメントembedding再作成、CatBoost再学習。直近モデルで十分なら省略できます。

重い処理

画像embedding、コメントembedding、大量のモデル比較はCPUでも可能ですが時間がかかるため、クラウドGPU/DOKへ切り出し候補です。

必要なローカル資産

phase11オークションレポートは docs/assets/auction_owner_prediction_phase10* の評価CSV/モデル資産を使います。 セールphase5はDBから学習用base frameが作れない場合、dataTARGET_shared/sale_linked_prediction_analysis.csv にフォールバックします。 これらは納品版でモデル再学習やレポート再生成を行う場合の運用資産です。

退避したもの

旧phase、単発分析、過去検証、写真レビュー、raw再解析系は archive/research_legacy_20260623/ に退避しました。 最新予測の依存に入る旧名モジュールは、内部部品として scripts/ に残しています。 現在の残存スクリプトは33本、退避済みスクリプトは116本です。