コンテンツにスキップ

2025年9月13日

今週の活動

  • 中間発表をした
    • フィードバック
      • 時系列分析の定義が曖昧であり、一般的な時系列分析手法との違いが不明確なので混乱を招いている
      • 最終的な目標とこれまでの成果を対比させて研究過程を分かりやすく説明すると良い

得られた成果

  • 従来の時系列分析との違い
    • 従来の手法
      • データ: 株価や気温などの等間隔で観測された数値データ
      • 予測の種類:主に回帰問題を扱い、トレンドを分析
      • 代表的なアルゴリズム: ARIMA/SARIMA、LSTM、Prophet
    • 本研究の提案手法(JITソフトウェア欠陥予測の一種)
      • データ: コミットなどの不規則な間隔で発生するイベントデータ(点過程データ)
      • 予測の種類: 主に分類問題を扱い、イベントの属性を予測
      • 代表的なアルゴリズム: ランダムフォレスト(非線形データ)、ロジスティック回帰(線形データ)
    • 「時系列」の定義
      • ある現象の時間的な変化、連続的または一定間隔を置いて不連続的に観測して得られた値の系列
      • 時間順にインデックス付けされたデータポイントの系列
      • 一般的には等間隔の時点で取得された離散時間データの系列
    • 「時系列分析」の定義
      • 時系列を解釈し、データの背後にある理論を見出したり、予測したりすること
      • 時間の経過順に並んだデータを基に、変動の要因を長期的な傾向、周期的な変動、不規則な変動などの要素に統計的な手法を用いて分解し、将来の値を予測すること

直面した課題

  • どうして従来の時系列分析手法を適用できないのか?
    • 従来の時系列分析手法は周期的に観測されるデータを対象とする
    • しかし、OSSなどのソフトウェア開発において、コミット時刻は開発者の生活パターンに依存し、プロジェクトの活動期と休止期が不規則に存在
    • さらに、複数の開発者が非同期的に作業するため周期的な活動が困難

来週の計画

  • Just-in-Time Quality Assuranceについての論文を読む