AutoODC: Automated generation of orthogonal defect classifications

アブストラクト¶

ソフトウェア欠陥の分類と分析において最も影響力のあるフレームワークであるOrthogonal Defect Classification（ODC）は、システム開発と保守に貴重なフィードバックを提供
既存のODC分類は人的リソースを必要とし、ODCとシステムドメインの両方に関する専門家の知識が必要
この論文では、ODC分類を教師ありテキスト分類問題として捉え、自動化する手法であるAutoODCを紹介
標準的な機械学習フレームワークをこのタスクに単に適用するのではなく、新しい関連性アノテーションフレームワークを提案することで、専門家のODC経験とドメイン知識を学習プロセスに統合し、より優れたODC分類システムの構築を目指す
この論文では、ナイーブベイズとサポートベクターマシンを用いてAutoODCを学習し、ソーシャルネットワークドメインの産業欠陥レポートと、オープンソースシステムであるFileZillaの欠陥追跡ツールから抽出した大規模な欠陥リストの両方で評価
産業欠陥レポートではナイーブベイズで82.9%、サポートベクターマシンで80.7%の精度を達成
オープンソース欠陥リストではナイーブベイズで77.5%、サポートベクターマシンで75.2%の精度を達成

はじめに¶

欠陥データの体系的な分類と分析は、原因分析と統計的品質管理の溝を埋め、システム開発や保守に貴重なフィードバックを提供するとともに、システムとソフトウェアの品質を保証し、改善するのに役立つ
体系的な欠陥分類に基づく分析結果により、システム欠陥の主な影響の種類を理解し、焦点を絞った問題解決と品質改善のために特定の問題領域を正確に特定できる
ODCはIBMで開発された、ソフトウェア欠陥の分類と分析のためのフレームワーク
ODCは問題領域を特定し、ソフトウェア製品の品質を改善するために、様々な種類の組織で使用されている
既存の欠陥分類手法とそのプロセスは人的資源を集中的に必要とし、ドメイン専門家は過去のプロジェクトとODC分類の両方に関する高度な知識を求められる
既存手法では、アナリストが各欠陥の説明をODC分類として分類する必要がある
AutoODCは、特定のソフトウェアドメインにおける欠陥の概要と説明を含む既存の欠陥リポジトリから、ODC欠陥分類を自動的に生成するために開発された
ほとんどの場合、欠陥データはシステムの開発・運用・保守中にユーザーや開発者によって報告され、欠陥リポジトリに保存される
これらの欠陥リポジトリは、多くの場合、バグレポート、バグトラッカー、イシューリストと呼ばれる
ソフトウェア・システムの欠陥分類における課題を克服するために、欠陥レポートからODCを自動生成する手法であるAutoODCを開発した
ODCの分類問題を教師ありテキスト分類問題として捉え、欠陥レポート内の欠陥記録を機械学習技術を用いて自動分類する分類器を学習することを目標とする
レポート内のすべての単語から学習すると学習プロセスにノイズが入り込み、分類システムの性能が低下
- そこで、人間がレポート内の単語やフレーズを特定のカテゴリーに分類し、それを注釈として利用
- さらに、ODC分類に関連しないテキストを削除するためのテキスト分析も追加
- これにより、分類器の相対エラーが14〜29%削減された
AutoODCを2つの異なる欠陥データセットに適用した
- 1つはP社の産業欠陥レポートに含まれる403件の欠陥記録
- もう1つはオープンソースシステムであるFileZillaの公開されている欠陥追跡システム（イシューリスト）から報告された1,250件の欠陥記録
両方のデータセットを用いた実験では、「impact」属性について、AutoODCと手動ODC分類のパフォーマンスを比較した
各欠陥タイプにおけるパフォーマンスを測定するために、再現率と適合率という2つの一般的な指標を使用
ナイーブベイズとサポートベクターマシンを使用して、2つのデータセット（403件の欠陥レコードを含むものと1,250 件の欠陥レコードを含むもの）でAutoODCを評価
データセットはサイズが異なるだけでなく、クラス分布の点でも異なり、大きいデータセットの方が小さいデータセットよりもクラス分布が均衡している
- AutoODCは、手動による欠陥分類を評価基準として使用した場合、小規模データセットで80.7〜82.9%、大規模データセットで75.2%〜77.5%の正解率の分類結果を生成した
- これらの結果は、データセットの基礎となるクラス分布が偏っているか比較的均衡が取れているかに関係なく、AutoODCが堅牢なパフォーマンスを提供することを示している

動機付けの例¶

欠陥レポートやイシューリストの主な特徴
- ID、概要、説明、優先度、重大度、ステータスなどの一連のフィールドが含まれる場合がある
- ただし、ODC分類は主に概要と説明に依存する
AutoODCの利点
- 関連性アノテーションを用いて自動欠陥分類の精度を向上させられること
  - 関連性アノテーションとは、ODCの専門アナリストが欠陥記録のODC分類を決定する際に頼りにするテキスト領域（通常は単語やフレーズ）
関連性アノテーションが分類精度向上に役立つ可能性を理解するための例
- 例1
  - ODCのimpact属性のうち、Requirementsカテゴリーは現在の製品やリリースの要件として認識、理解、優先順位付けされていない機能に関する顧客の期待を示す
  - 一方、ODCのimpact属性のうち、Capabilityカテゴリーは顧客が他のカテゴリーのいずれにも影響を受けない場合に、ソフトウェアが意図された機能を実行し、既知の要件を満たす能力を定義する
  - Requirementsカテゴリーに属するレポートでは、would beというフレーズが使われる可能性が高く、これは現在システムに欠けている望ましい要件を示している
  - しかし、欠陥データセットは通常、クラス分布が偏っており、欠陥レコードの約70%がCapabilityカテゴリーに属している
  - この不均衡なクラス分布により、機械学習アルゴリズムは、提示された証拠がそのデータを他のカテゴリーに割り当てるのに不十分な場合、この最も頻度の高いカテゴリーに文書を割り当てる傾向がある
  - この例では、would beというフレーズは有用な証拠であるが、欠陥の説明が長いため、この証拠の影響力が弱まり、このレポートが誤分類される可能性がある
  - 一方、would beを関連性アノテーションとして使用することで、その重要性が強調され、機械学習アルゴリズムがこの証拠に焦点を当てる可能性が高まる
- 例2
  - installという単語があることは、その欠陥がinstallabilityというカテゴリーに属する可能性が高いことの強力な証拠だが、実際にはReliabilityカテゴリーに属する
  - Installabilityは顧客がソフトウェアを準備して使用できる場所に配置できる能力と定義されており、ユーザビリティーは含まれない
  - Reliabilityは予期しない中断なしに意図された機能を一貫して実行するソフトウェアの能力と定義されており、abendやwaitなどの重大な中断は常にReliabilityと見なされる

手法¶

概要¶

欠陥の「概要」と「説明」が含まれる半構造化データを受け取り、サポートベクターマシンとナイーブベイズを使用してODC分類を行い、分類と分類の信頼度を出力
基本的な欠陥分類システムは、（1）欠陥レポートの前処理、（2）ODC分類の学習、（3）分類という3つのステップで開発される
本研究で導入するアノテーション関連性フレームワークは、関連性アノテーションを4つの方法で活用することで、基本分類システムを拡張
- 具体的には、（1）分類器の学習用疑似インスタンスの生成、（2）追加の特徴の生成、（3）ドメイン知識の追加、（4）談話分析の実行である

基本的な欠陥分類システム¶

ステップ1: 欠陥レポートの前処理
- 各欠陥レポートにはテキストによる「説明」とオプションの「概要」が含まれる
- 各欠陥レコードをトークン化し、WordNet語彙知識ベースに付属するステマーを用いて各単語の語幹を抽出
- 各欠陥レコードを2値ベクトルとして表す
- 各要素はトレーニングセットに出現する個別の単語に対応
  - 具体的には、要素がレコードに出現する単語に対応する場合、その値は1になり、そうでない場合、値は0になる
  - 言い換えると、ベクトルは対応するレコードに単語が存在するかどうかを示す
- 予備実験でストップワードを削除すると結果がわずかに悪化したため、ベクトルからストップワードを削除しなかった
- ベクトルにはクラス値も関連付けられている
  - これは、対応するレコードにアナリストが割り当てたODCカテゴリーである
- 最後に、ベクトルに1が多数含まれる可能性のある長い欠陥レコードが学習プロセスに悪い影響を与えないように、各ベクトルを正規化し、各特徴の値を定数で除算して2ノルムで測定された結果のベクトルの長さが1になるようにする
ステップ2: ODC分類の学習
- 2値ベクトルで構成される前処理済みのトレーニングセットが完成した後は、機械学習アルゴリズムを適用して未知のレコードを定義ズムの欠陥カテゴリーのいずれかに分類できる分類器を学習する
- 実験では、分類器の基盤となる学習アルゴリズムとして、サポートベクターマシンとナイーブベイズを使用している
- 実験では、各クラスに対して1つの分類器を訓練する。one-versus-others訓練スキームを採用
  - 例えば、欠陥記録がReliabilityに属するかどうかを判断する分類器を1つ訓練し、記録がUsabilityに属するかどうかを判断する別の分類器を訓練する
  - 各分類器は正確に1つのODCクラスを表し、訓練する分類器の数は欠陥クラスの数に等しい
  - 各分類器を訓練するための訓練セットを用意する際は、各訓練インスタンスのクラス値を変更し、訓練インスタンスがそのクラスに属する場合は1を割り当て、そうでない場合は-1を割り当てる
ステップ3: 分類
- トレーニング後は、得られた分類器を適用してテストセット内の各欠陥レコードを分類できる
- テストインスタンスはトレーニングインスタンスと同じ方法で作成される
  - 具体的には、分類する欠陥レコード（テストインスタンス）が与えられ、得られた分類器をそれぞれ個別に適用してインスタンスを分類する
- 各分類器は実数値を返し、値が大きいほど、インスタンスが特定のクラスに属する信頼度が高くなる
  - 結果として、全ての分類器によって返された値のセットの中で最も大きい値を返したクラスが欠陥レコードに割り当てられる

評価¶

RQ1: 4つの拡張機能を含む注釈関連性フレームワークは、基本的な欠陥分類システムと比較してODC分類をどの程度改善し、全ての拡張機能が性能向上に貢献するのか？
RQ2: 注釈関連性フレームワークは、基本的な欠陥分類システムと比較して分類エラーをどの程度削減できるのか？
RQ3: 関連性アノテーション以外の欠陥レコード部分は、全体的な分類性能にどの程度貢献しているのか？
RQ4: 注釈関連性フレームワークの有効性は、少量のトレーニングデータでも維持されるのか？
RQ5: AutoODCの分る精度をさらに向上させるための改善点は何か？
RQ6: AutoODCは労力削減のアナリストの信頼性向上の観点から、どの程度費用対効果が高いのか？

実験の準備¶

データセット¶

使用したデータセット
- P社のデータ: 産業会社のソーシャルネットワークプロジェクトから403件の欠陥記録を得た
- FileZillaのデータ: オープンソースシステムの3つのサブシステムから1,250件の欠陥記録をランダムに選んだ
アノテーション作業
- 2名の専門アナリストが独立して欠陥記録を分類
- P社のデータ: 初期合意率90%
- FileZillaのデータ: 初期合意率92%
- 分類の不一致については相互検証と話し合いで解決

評価指標¶

正解率、適合率、再現率

評価方法¶

5分割交差検証を採用
各データセットを5つの均等サイズのサブセット（フォールド）に単ダムに分割
毎回1フォールドをテスト用、残り4フォールドをトレーニング用として使用
5回の実験結果を平均して最終的なパフォーマンスを算出

基本システムと注釈関連フレームワークに関する実験結果（RQ1）¶

基本的な欠陥分類システム¶

基本システムの構成
- 各レコードを1,089個の固有語による2値ベクトルで表現
- サポートベクターマシン: 75:25で訓練データを分割し、最適なCパラメーターを選択した後に、全データを用いて再度訓練
- ナイーブベイズ: Wekaの実装を使用
基本システムの性能
- P社のデータ: ナイーブベイズで正解率79.7%、サポートベクターマシンで正解率74.2%
- FileZillaのデータ: ナイーブベイズで正解率68.2%、サポートベクターマシンで正解率71.2%

基本システムへの4つの拡張の有効性¶

P社のデータ: 個別拡張機能の追加では統計的に有意な改善が見られなかった
FileZillaのデータ: ナイーブベイズでは全ての拡張機能で有意な改善が見られた

基本システムと完全システムの違い（RQ2）¶

基本システムと完全システム（4つの拡張機能を全て適用したシステム）の分類エラーの違いを明らかにするために、混同行列と統計的有意性検定を実施
各カテゴリーについて、両システム間のFスコアの差が統計的に有意かどうかをt検定で判定
- P社のデータにおける改善効果
  - ナイーブベイズ: 1つのカテゴリーで有意な改善を確認
  - サポートベクターマシン：2つのカテゴリーで有意な改善を確認
- FileZillaのデータにおける改善効果
  - ナイーブベイズ: 7つのカテゴリーで有意な改善を確認
  - サポートベクターマシン: 2つのカテゴリーで有意な改善を確認

学習曲線（RQ4）¶

少量の訓練データでも注釈関連フレームワークがODC分類を改善できるかを検証するために、異なる訓練データ量での学習曲線を分析
注釈関連フレームワークは、訓練データが少量の場合でもAutoODCを効果的に改善でき、データ量に関係なく一貫した性能向上を提供

エラー分析（RQ5）¶

AutoODCの精度向上と将来の拡張機能の特定のために、分類器でご分類された欠陥の分布と根本原因を分析
タイプ1エラー: 曖昧な特徴による誤分類
- 別の欠陥クラスの用語と重複する用語がテキストに含まれていたことで、曖昧な特徴ベクトルが生成されていた
タイプ2エラー: 異なるクラスの関連性アノテーションの混入
- 本来のクラス以外の欠陥クラスの関連性アノテーションが含まれる

労力の節約と信頼性の構築（RQ6）¶

労力¶

P社のデータ: 手動分類の場合は18時間、注釈関連フレームワークの場合は最大11時間
FileZillaのデータセット: 手動分類の場合は40時間、注釈関連フレームワークの場合は最大28時間

信頼の構築¶

AutoODCは人手によるODC生成を代替するものではなく、補完するもの

考察¶

AutoODCの限界
- ODCのImpact属性のみを評価対象としたこと
- 結果の一般化可能性
  - P社とFileZillaのデータで得られた適合率、再現率、Fスコア、カテゴリーごとのデータの分布は、他のデータセットには必ずしも適用できない

結論と今後の課題¶

他のソフトウェアエンジニアリングタスクへの一般化可能性¶

注釈関連フレームワークはODC以外のテキスト分類問題にも適用できる

今後の課題¶

機械学習アルゴリズムやテキストマッチング手法を改良
異なる特徴表現が分類精度に与える影響を比較
ODCのTrigger属性における談話接続詞の効果を調査

引用情報¶

著者: LiGuo Huang, Vincent Ng, Isaac Persing, Mingrui Chen, Zeheng Li, Ruili Geng, Jeff Tian
タイトル: AutoODC: Automated generation of orthogonal defect classifications
雑誌 / 会議名: Automated Software Engineering
巻号: vol. 22
ページ: pp. 3-46
出版日: June 2014
DOI: https://doi.org/10.1007/s10515-014-0155-1

AutoODC: Automated generation of orthogonal defect classifications

アブストラクト¶

はじめに¶

動機付けの例¶

関連研究¶

ODC欠陥分類¶

ODCベースの欠陥分析¶

手法¶

概要¶

基本的な欠陥分類システム¶

関連性アノテーションの活用¶

評価¶

実験の準備¶

データセット¶

評価指標¶

評価方法¶

基本システムと注釈関連フレームワークに関する実験結果（RQ1）¶

基本的な欠陥分類システム¶

基本システムへの4つの拡張の有効性¶

基本システムと完全システムの違い（RQ2）¶

関連性アノテーションの価値（RQ3）¶

学習曲線（RQ4）¶

エラー分析（RQ5）¶

労力の節約と信頼性の構築（RQ6）¶

労力¶

信頼の構築¶

考察¶

結論と今後の課題¶

他のソフトウェアエンジニアリングタスクへの一般化可能性¶

今後の課題¶

引用情報¶