IPA(Ingenuity Pathway Analysis)では、P値は統計解析を用いて求められます。P値は、観察されたデータがランダムな状況で得られるものと比較して、統計的に有意であるかどうかを評価する指標です。
大まかな流れ
IPAのパスウェイ解析では、以下の手順によってP値が計算されます。
- 入力データの前処理: パスウェイ解析のために、遺伝子発現データやタンパク質の発現データなどの生データを入力します。
- パスウェイの選択: 解析したいバイオロジカルパスウェイを選択します。例えば、特定の疾患に関連するシグナル伝達経路や代謝経路などが選ばれることがあります。
- パスウェイのスコアリング: 選択したパスウェイに含まれる遺伝子やタンパク質のスコアを計算します。これには、例えば、遺伝子発現データの差分発現解析やタンパク質の発現変動の解析などが使われることがあります。
- パーミュテーションテスト: パスウェイ内の遺伝子やタンパク質のスコアに基づいて、ランダムなデータセットを生成します。このランダムなデータセットは、入力データの特性を保持しつつ、ランダムに遺伝子やタンパク質のスコアを割り当てたものです。
- P値の計算: パーミュテーションテストで生成されたランダムデータセットを使用して、スコアのランダムな分布を作成します。その後、観察されたスコアがランダムな分布内のどの位置にあるかを評価し、P値を計算します。P値は、観察されたスコアがランダムな分布で得られる確率を示します。
P値が小さいほど、観察されたスコアがランダムな状況で得られる確率が低くなります。一般的に、P値が0.05以下(通常は0.01以下)であれば、統計的に有意とみなされます。このような場合、観察されたスコアはランダムな状況で得られる確率が非常に低いため、実際に意味のあるバイオロジカルな関連があると考えられます。
パスウェイのスコアリングはどう行うの?
パスウェイのスコアリングでは、遺伝子の重要性や寄与度を数値化して評価します。
具体例として、あるパスウェイに関連する3つの遺伝子(A、B、C)があり、それぞれの遺伝子の発現レベルが以下のように与えられたとします。
遺伝子Aの発現レベル: 10 遺伝子Bの発現レベル: 5 遺伝子Cの発現レベル: 8
この場合、遺伝子のスコアを発現レベルに基づいて計算し、例えば10点満点で評価するとします。遺伝子Aは最も高い発現レベルを持つため、10点とします。遺伝子Bは中程度の発現レベルなので、5点とします。遺伝子Cも発現レベルが高いため、8点とします。
そして、これらのスコアを正規化します。例えば、0から1の範囲にスケーリングするとします。この場合、遺伝子Aは1.0、遺伝子Bは0.5、遺伝子Cは0.8となります。
以上のようにして、パスウェイ内の遺伝子にスコアを付けることができます。これにより、遺伝子の重要性やパスウェイ内での役割を評価することができます。
パーミュテーションテストとは?
パーミュテーションテストでは、統計的な分析を行うためにデータをランダムに並べ替えます。このランダムな並べ替えによって、データが無作為な状態で得られる場合の結果を予測します。
患者データから遺伝子Aと遺伝子Bの発現がわかっている場合に、これがPathway Xに関与しているかどうかを評価する際には、以下の手順でパーミュテーションテストを行うことができます。
- データの前処理: 患者データから遺伝子Aと遺伝子Bの発現データを抽出します。
- 遺伝子のスコアリング: 遺伝子Aと遺伝子Bの発現データを用いて、それぞれの遺伝子にスコアを付けます。スコアの計算方法は、遺伝子の発現レベルや重要性に基づいて設定することがあります。
- パーミュテーションテストの準備: パーミュテーションテストのために、遺伝子Aと遺伝子Bのスコアデータを用意します。
- パーミュテーションの実行: 遺伝子Aと遺伝子Bのスコアデータをランダムに並べ替え、パーミュテーションテストを実行します。これにより、ランダムな状況で遺伝子Aと遺伝子Bの関連性が得られる場合の結果を予測します。
- パーミュテーションの繰り返し: パーミュテーションを複数回繰り返し、ランダムなデータセットを生成します。通常は数千回以上の繰り返しを行います。
- 結果の評価: パーミュテーションテストで得られたランダムデータセットと元のデータを比較します。具体的には、遺伝子Aと遺伝子Bのスコアがランダムデータセット内のどの位置にあるかを評価します。これによって、遺伝子Aと遺伝子BのスコアがPathway Xに関与しているかどうかを統計的に評価することができます。
パーミュテーションテストを通じて、遺伝子Aと遺伝子BのスコアがPathway Xと統計的に有意な関連があるかどうかを評価することができます。これによって、特定の遺伝子が特定のパスウェイに関与しているかどうかを統計的に検証することができます。
どうやってP値を出しているの?
- パーミュテーションテストの実行後、元のデータがランダムなデータセット内のどの位置にあるかを評価します。
- 評価のために、元のデータの統計量(例えば、遺伝子Aと遺伝子Bのスコアの差の絶対値や相関係数など)を計算します。
- パーミュテーションテストで得られたランダムデータセットの中で、元のデータ以上の統計量が得られた割合を計算します。
- この割合がP値となります。P値は、元のデータがランダムな状態で得られる確率を示します。
例えば、遺伝子Aと遺伝子Bのスコアの差の絶対値を評価する場合を考えてみましょう。
- パーミュテーションテストによって、遺伝子Aと遺伝子Bのスコアデータをランダムに並べ替えます。
- 元のデータで遺伝子Aと遺伝子Bのスコアの差の絶対値を計算します。
- パーミュテーションテストで得られたランダムデータセットの中で、元のデータ以上の差の絶対値が得られた回数を数えます。
- その回数を、パーミュテーションの繰り返し回数で割り、割合を計算します。これがP値となります。
P値は、元のデータがランダムな状態で得られる確率を示しています。P値が小さいほど、元のデータがランダムな状態で得られる確率が低くなります。統計的な仮説検定では、あらかじめ設定した有意水準(通常は0.05や0.01)と比較して、P値が小さい場合、結果は統計的に有意であると言えます。
以上が、P値の計算方法の一例です。これによって、パーミュテーションテストの結果を統計的に評価し、元のデータがランダムな状態で得られる確率を求めることができます。
図にまとめるとこんな感じなんでしょうか。