基本フロー
JBISレース、関連馬、血統、オークション、セール、写真を更新。
収支、馬主別サマリ、スピード指数、休養系などを更新。
CLIP、コメントembedding、血統、祖先貢献度を作成・更新。
必要なときだけCatBoostモデルを再学習し、評価CSVを更新。
新規オークション・セールの比較レポートを生成。
入口コマンド
通常はPowerShellで以下を使います。
cd D:\coconara\keiba-jp .\tools\run_prediction_pipeline.ps1 -Help .\tools\run_prediction_pipeline.ps1 -Smoke .\tools\run_prediction_pipeline.ps1 -Reports .\tools\run_prediction_pipeline.ps1 -ExternalAuctionPrediction
モデル再学習を含める場合は -TrainModels -Reports を指定します。
データ取得は対象期間や対象サイトを間違えると時間がかかるため、明示オプションを入れたときだけ実行します。
外部オークション予測は対象データ次第で長時間化するため、通常の評価資料再生成とは分けています。
処理分類
| 分類 | 主な処理 | 残す理由 |
|---|---|---|
| データ更新 | import_jbis_races, refresh_related_horses_from_jbis_races, import_jbis_pedigree_snapshots, refresh_jbis_pedigree_snapshots |
最新レース、競走馬、5代血統を予測・画面表示へ反映するため。 |
| オークション取込 | import_thoroughbred_auction_range, import_sat_auction_range, import_auction_bids_range, download_auction_photos |
新しいオークション候補、入札履歴、写真特徴量に必要。 |
| セール取込 | import_sale_listings, import_sale_photos, import_hba_archive_catalogs, import_hba_catalog_photos |
セール候補と写真を予測対象にするため。 |
| サマリ再構築 | calculate_new_finance, rebuild_unified_horse_finance_summaries, rebuild_unified_horse_owner_account_summaries, rebuild_owner_horse_feature_summaries, rebuild_race_time_baselines |
画面表示、損益、スピード、休養、馬主別検索の基礎データ。 |
| 特徴量生成 | run_clip_photo_only_2015_2020.py, prepare_auction_comment_sentence_embeddings_for_range.py, create_pedigree_ancestor_contribution_report.py, run_pedigree_only_extended_feature_experiments.py |
CLIP画像特徴量、コメントembedding、血統・祖先貢献度をモデルへ渡すため。 |
| モデル作成 | run_auction_owner_prediction_phase10_multiview.py, run_auction_owner_prediction_phase10_1_deep_model_comparison.py, run_auction_owner_prediction_phase10_2_view_model_comparison.py, run_auction_owner_prediction_phase10_money_targets.py, create_sale_linked_phase5_multiview_holdout_report.py |
最新版のCatBoost系モデルと評価CSVを更新するため。 |
| 予測・レポート | create_auction_owner_prediction_phase11_catboost_pages.py, create_external_auction_catboost_prediction_list.py, create_sale_linked_phase5_catboost_pages.py |
オークション・セール前に見るHTMLを生成するため。 |
通常運用の目安
毎回やる
対象オークション/セールの取込、対象馬のJBIS・血統補完、予測HTML作成。
必要なときだけやる
CLIP再抽出、コメントembedding再作成、CatBoost再学習。直近モデルで十分なら省略できます。
重い処理
画像embedding、コメントembedding、大量のモデル比較はCPUでも可能ですが時間がかかるため、クラウドGPU/DOKへ切り出し候補です。
必要なローカル資産
phase11オークションレポートは docs/assets/auction_owner_prediction_phase10* の評価CSV/モデル資産を使います。
セールphase5はDBから学習用base frameが作れない場合、dataTARGET_shared/sale_linked_prediction_analysis.csv にフォールバックします。
これらは納品版でモデル再学習やレポート再生成を行う場合の運用資産です。
退避したもの
旧phase、単発分析、過去検証、写真レビュー、raw再解析系は
archive/research_legacy_20260623/ に退避しました。
最新予測の依存に入る旧名モジュールは、内部部品として scripts/ に残しています。
現在の残存スクリプトは33本、退避済みスクリプトは116本です。