Cox比例ハザードモデル

生存データの回帰モデル

生存データのカプラン–マイヤー曲線の計算方法について以前に書いた。ノンパラメトリック推定器として、データセットの生存曲線を簡単に見るのに適しています。しかし、それがあなたを許さないのは、共変量が生存に及ぼす影響をモデル化することです。この記事では、生存データに最も使用されているモデルの一つであるCox比例ハザードモデルに焦点を当てます。

推定値の計算方法についていくつか詳しく説明します。, 見積もりは失敗の順序にのみ依存し、実際の時間には依存しないことがわかるので、これは価値があります。また、生存分析に特別な因果推論に関するいくつかのトリッキーな問題について簡単に議論します。

私たちは通常、以下のような生存曲線の観点から生存データについて考えます。,

x軸では、日数で時間があります。 Y軸上には、その時点までに”生き残っている”人口の被験者の割合（技術的には割合）があります（推定量）。生き残ることは比喩的または文字通りです。, それは、人々が一定の年齢まで生きているかどうか、機械が壊れずに一定の時間を作るかどうか、または誰かが仕事を失った後に一定の時間失職しているかどうかかどうかである可能性があります。

重要なことに、生存者分析の合併症は、一部の被験者が”死”を観察していないことである。彼らがまだ生きていると、機械がまだ上手に機能していることが示され、誰かが失時のデータを収集します。, このような観察は”右検閲”と呼ばれ、検閲を扱うことは、生存分析にはさまざまな統計ツールが必要であることを意味します。

生存者関数を時間の関数であるSとして表します。（再び、それは技術的に0と1の間の割合ですが、私は同じ意味で二つの単語を使用します）。簡単にするために、我々は十分に長く待つと、すべての被験者が”死ぬ”という技術的な仮定をするでしょう。”

私たちは、iまたはjのような添字で被験者をインデックス付けします。, 母集団全体の故障時間は、時間変数tに同様の添字で示されます。