회귀모델이 생존을 위한 데이터
이전에 대해 썼는 방법을 컴퓨팅 Kaplan–Meier 곡선을 생존을 위한 데이터이다. 비 파라 메트릭 추정기로서 데이터 세트의 생존 곡선을 빠르게 살펴 보는 좋은 일을합니다. 그러나 그것이 당신을 내버려 두지 않는 것은 생존에 대한 공변량의 영향을 모델링하는 것입니다. 이 기사에서는 생존 데이터에 가장 많이 사용되는 모델 중 하나 인 콕스 비례 위험 모델에 중점을 둘 것입니다.
우리는 추정치를 계산하는 방법에 대한 몇 가지 깊이로 이동합니다., 이는 추정치가 실제 시간이 아닌 실패의 순서에만 의존한다는 것을 알 수 있기 때문에 가치가 있습니다. 우리는 또한 생존 분석에 특별한 인과 관계 추론에 관한 몇 가지 까다로운 문제에 대해 간략하게 논의 할 것입니다.
우리는 일반적으로 아래의 것과 같은 생존 곡선의 관점에서 생존 데이터에 대해 생각합니다.,
x-axis,우리가 시간에는 일입니다. Y-축가(는 추정)비율(기술적으로,비율)과목에서는 인구는”살아”하는 시간입니다. 생존은 비 유적이거나 문자적일 수 있습니다., 그것은 될 수 있는지 사람들이 어느 시대는 기계 시간의 일정 금액을 파괴하지 않고,또 그것이 될 수 있었는지 누군가가 남아 있는 실업자는 일정 시간 후에는 잃은 그들의 직업이다.
결정적으로,생존 분석에서의 합병증은 일부 피험자가 그들의”죽음”이 관찰되지 않는다는 것이다. 그들은 여전히 살아 있는 것,기도 여전히 작동 하는 것,또는 누군가가 여전히 수 있습 실시 데이터를 수집할 수 있습니다., 이러한 관찰이라고”를 마우스 오른쪽 단추로 검열”과을 다루는 검열을 의미하는 생존분석이 필요합의 다른 통계적 도구입니다.
우리는 생존자 함수를 시간의 함수 인 S 로 나타냅니다. 출력은 비율의 과목에서도 생존 시간 t. (다시 말하지만,그것은 기술적으로 비율은 0 과 1 사이지 내가 사용하는 두 단어를 구분 없이). 단순화를 위해 우리는 충분히 오래 기다리면 모든 과목이”죽을 것이라는 기술적 가정을 할 것입니다.”
우리는 i 또는 j 와 같은 첨자로 피사체를 색인화합니다., 실패 시간 전체 인구의 표시와 비슷한 첨자에 시간이 가변 t.
또 다른 미묘지 여부를 고려 우리는 치료하는 시간으로 분리된(주,말)또는 연속적입니다. 철학적으로 말하자면,우리는 이산 단위로 시간을 측정하기 만합니다(가장 가까운 초까지)., 일반적으로 우리의 데이터는 주어진 해에 누군가가 사망 한 경우 또는 주어진 날에 기계가 고장난 경우에만 알려줍니다. 나는 박람회를 가능한 한 명료하게 유지하는 이익을 위해 이산적이고 연속적인 경우들 사이를 앞뒤로 갈 것이다.
때 우리는 모델의 효과 공변량(예:나이,성별,인종,기계 제조 업체)우리는 것이 일반적으로 관심이 미치는 영향을 파악하기 위한 공변량에서 위험 평가. 위험 평가입니다 즉각적인 확률은 실패의/죽음/상태 전에 주어진 시간 t,조건부 이미 살아가는 길이입니다., 우리는 그것을 λ(t)로 나타낼 것입니다. 치료하는 시간별:
F 은 전반적인 확률 밀도의 실패 시 t. 우리는 통합 이산 및 연속적인 경우에 허용하여 delta 함수에서 확률 밀도”function”. 따라서 결과 λ=f/S 는 연속 사례에 대해 동일합니다.
예제를 수정해 보겠습니다., 약물이 처음에 질병이 완화되도록하는 임상 시험의 맥락을 생각해 봅시다. 우리는 질병이 피험자에 대해 진행되기 시작할 때 약물이 피험자에 대해”실패”한다고 말할 것입니다. 마지막으로,피험자의 질병 상태가 매주 측정된다고 가정합니다. 는 경우 다음 λ(3)=0.1,그 의미가 있는 10%는 기회,주어진 주제에는 경우에,그들은 여전히 죄 사함하기 전에 3 주차,이들 질병을 시작하에 진행 중인 주 3. 다른 90%는 사함에 남아있을 것입니다.,
다음으로,전체 확률 밀도 함수 f 는 시간과 관련하여 S 의 파생물 일뿐입니다. (다시,시간이 이산 인 경우,f 는 일부 델타 함수의 합계 일뿐입니다).,341fa8b2″>
이는 우리가 알고있는 경우 위험수,우리를 해결할 수 있 이미분 방정식에 대한 S:
는 경우에는 시간이,이산 적분의 합의 델타 기능으로 합의 위험에 각별 시간입니다.,
좋아,그것은 우리가 필요로 할 표기법과 기본 개념을 요약합니다. 논의 모델로 넘어 갑시다.
비,반,그리고 완벽한 파라메트릭 모델
앞서 말했듯이,우리는 일반적으로 모델링에 관심을 갖는 위험 평가 λ.
비 파라 메트릭 모델에서는 λ 의 기능적 형태에 대한 가정을하지 않습니다. 이 경우 Kaplan–Meier 곡선은 최대 우도 추정기입니다. 단점은 이것이 공변량의 모든 효과를 모델링하기가 어렵다는 것입니다. 공변량의 효과를 이해하기 위해 산점도를 사용하는 것과 조금 비슷합니다., 선형 회귀와 같은 완전 파라 메트릭 모델만큼 도움이 될 필요는 없습니다.
완전 파라 메트릭 모델에서는 λ 의 정확한 기능적 형태에 대한 가정을합니다. 완전 파라 메트릭 모델에 대한 토론은 자체적으로 전체 기사이지만 매우 간단한 토론의 가치가 있습니다. 아래 표는 가장 일반적인 완전 파라 메트릭 모델 중 세 가지를 보여줍니다. 각각은 1 에서 2 에서 3 매개 변수로 이동하여 다음에 의해 일반화됩니다. 위험 함수의 기능 양식은 중간 열에 표시됩니다. 위험 함수의 대수도 마지막 열에 표시됩니다., 모든 매개 변수(ɣ,α,μ)는 일반화 된 Weibull 분포(Weibull 분포를 재현)에서 μ 가 0 일 수 있다는 점을 제외하고는 양수로 가정됩니다.
보고 로그를 보여줍니다 우리는 지수 모형에서는 위험 기능은 일정하다. Weibull 모델은 α>1 인 경우 증가하고 α=1 인 경우 상수이며 α<1 인 경우 감소한다고 가정합니다., 일반화 된 Weibull 모델은 Weibull 모델과 동일한 방식으로 시작됩니다(시작 ln S=0). 그 후,여분의 용어 μ 가 시작됩니다.이러한 모델의 문제점은 데이터에 대해 강력한 가정을한다는 것입니다. 특정 상황에서 이러한 모델이 적합하다고 믿을만한 이유가있을 수 있습니다. 그러나 이러한 다른 여러 가지 옵션을 사용할 수 있는 강력한 위험의 도면 잘못된 결론으로 인해 misspecification 의 모델입니다.
이것이 콕스 비례 위험,반 파라 메트릭 모델이 인기가있는 이유입니다., 기능 만들어진 가정의 형태에 대해 위험 기능을 대신 기능 형태로 만들어진 가정의 효과에 대해 공변량 혼자입니다.,
Cox Proportional Hazards 모델
Cox Proportional Hazards Model 일반적으로 주어진 측면에서의 시간 t,공변량 벡터를 x, 고 계수 벡터 β
는 λₒ 임의의 시간의 기능,기준 위험이 있습니다. X 와 β 의 도트 곱은 표준 선형 회귀에서와 마찬가지로 지수에서 취해집니다., 값 공변량에 관계없이 모든 피험자는 동일한 기준 위험 λₒ 를 공유합니다. 그 후 공변량에 따라 조정이 이루어집니다.
의 해석한 결과
다고 가정한 분을 우리가 맞는 Cox Proportional Hazards model 을 데이터로 이루어져 있
- 열 시간을 지정하여 각각의 주제에 대해
- 열고 있는지 여부를 지정하는 주제는”관”(하지 못했거나,우리의 기본 예제를 가지고,그들의 질병을 진행). 1 의 값은 피험자가 자신의 질병 진전을 가졌음을 의미합니다., 0 의 값은 마지막 관찰 시간에 질병이 진행되지 않았 음을 의미합니다. 관찰은 검열되었다.
- 우리의 공변량에 대한 열 X.
적합 후 β 에 대한 값을 얻습니다. 예를 들어 단순화를 위해 단일 공변량이 있다고 가정합니다. Β=0.1 의 값은 공변량이 1 의 양만큼 증가하면 주어진 시간에 질병 진행 가능성이 약 10%높다는 것을 의미합니다., 정확한 값을 사실
을 위한 작은 값의 β,의 가치 β 자체가 꽤 근사치의 정확한 증가에 위험이 있습니다. Β 의 더 큰 값의 경우 정확한 양을 계산해야합니다.
β=0.1 을 표현하는 또 다른 방법은 x 가 증가함에 따라 x1 증가 당 10%의 비율로 위험이 증가한다는 것입니다. 더 큰 10.,52%는 복리와 마찬가지로(연속)복리에서 발생합니다.
또한 β=0 은 효과가 없음을 의미하고 β 음은 공변량이 증가함에 따라 위험이 적음을 의미합니다. 표준 회귀와 달리 절편 항이 없다는 점에 유의하십시오. 대신 절편은 기준 위험 λₒ 에 흡수되며,이는 또한 추정 될 수있다(아래 참조).
마지막으로,우리가 기준 위험 함수를 추정했다고 가정하면 생존자 함수를 구성 할 수 있습니다.,
기준 함수가 발생하는 힘이의 특급(xʹß) 요인에서 나오는 공변량. 주의를 기울여야 합니다 해석에 있어서 기본 생존자는 대략의 역할을 차단 기간에는 일반 선형 회귀분석 등을 다룬다. 공변량이 중심에 놓인 경우(평균 0)”평균”피험자에 대한 생존자 함수를 나타냅니다.,
Cox 비례 위험 모델을 추정
1970 년대에 영국의 수학자 인 David Cox 는 기준 위험 λₒ 를 추정 할 필요없이 β 를 추정하는 방법을 제안했습니다. 다시 말하지만,기준 위험은 이후에 추정 될 수 있습니다. 앞서 언급했듯이,우리는 그것이 시간 자체가 아니라 중요한 관찰 된 실패의 순서라는 것을 알게 될 것입니다.
추정에 뛰어 들기 전에 관계에 대해 논의 할 가치가 있습니다. 우리는 일반적으로 이산 단위로 데이터 만 관찰하고 있기 때문에 두 가지 실패가 동시에 발생할 수 있습니다., 예를 들어,같은 주에 두 대의 기계가 고장날 수 있으며 녹음은 주 단위로 만 이루어집니다. 이러한 관계는 많은 통찰력을 추가하지 않고도 상황에 대한 분석을 다소 복잡하게 만듭니다. 결과적으로,나는 아무런 관계가없는 경우에 추정치를 도출 할 것이다.
우리의 데이터는 이산 시간에 일부 숫자 실패의 관찰로 구성된다는 것을 상기하십시오. Let R(t)나타내는 인구는”위험에”시 t. 는 경우 제목에서 우리의 학문은 하지 못했습니다(질병을 진행되면서,예를 들어)기 전에 시간 t,그들은”위험에 처해 있습니다.,”또한,경우에는 제목에서 우리의 연구는 자신의 관찰을 검열하는 시간에 시간 전에 티,그들은 또한”위험에 처해 있습니다.”
에서 일반적인 패션,우리가 원하는 구성 가능성능(가능성이 무엇인지 우리가 관찰된 데이터는 우리가 주어진 공변량 및 계수)그리고 최적화하는 것을 얻을 최대 우도 추정.
에 대한 각별 시간이면 우리가 관찰하고 실패의 주제 j,확률의 발생,주어진 문제가 발생했,은 아래와 같습니다. 합계는 시간 j 에서 위험에 처한 모든 과목에 대해 취해집니다.,
알 수 있는 기준 위험 λₒ 떨어졌다! 매우 편리합니다. 이러한 이유로 우리가 구성 할 가능성은 단지 부분적인 가능성 일뿐입니다. 시간이 전혀 나타나지 않는다는 것을 또한 주목하십시오., 기 위해 주제 j 에 따라 과목은 여전히 살아서 시간 j,차례로 만에 따라 달라집하는 순서는 과목이 검열되거나 관찰에 실패합니다.
부분 가능성은 물론 제품의 이러한 약관,하나를 위한 각 실패하는 것을 우리는(어떤 용어를 검열 관측).,
로그인 부분 가능성은 그
맞는 표준으로 수행됩 수치적 방법을 예를 들어,python 패키지statsmodels
과 분산 공분산 행렬에 대한 견적에 의해 주어집니다(역)피셔 정보 Matrix. 여기서 흥미로운 것은 없습니다.,
기준 생존자 함수 추정
이제 계수를 추정 했으므로 생존자 함수를 추정 할 수 있습니다. 이것은 kaplan–Meier 곡선을 추정하는 것과 매우 흡사하게 끝납니다.
우리는 우리 가정 용 α 인덱싱 i. 시간이 나면,초기 생존 곡선은 감소한 일부 α 의 비율을 나타내는 과목에서는 위험에서 실패하는 시간 i., 다시 말해서
을 계산한 최대 우도 추정 α, 우리는 가능성에 기여도에서 나는 실패하는 시간에 나와는 별도로 공헌들에서는 검열 시 나.
에 대한 주제에 실패하는 시간 내에,확률이 부여 확률에 의해 그들은 살아 남는 시간에 나는 더 적은 확률은 그들이 살아에서 다음에 나+1 입니다. (우리는 일시적으로 시간이 주문된다고 가정합니다).,
경우에는 대신 그들이 검열 시간 내에 기여은 확률은 그들이 살아간 후,즉 그들은하지 않은 죽은 아직입니다., 이것은 그냥
추가 단기 과목에서는 관찰되었다(즉,관찰하는 대신 실패의 검열)., 로그 가능성된
I have been a bit sloppy 에 대한 추적을 유지하의 끝점(i 대 i+1)지만,그것은 모두 밖으로 작동합니다.
우리가 실패한 것으로 관찰 한 피험자에 대한 α 용어 만 있습니다., 차별화와 관련하여 α-j 및 가 없는 관계를 우리는 기여금 합계에서 왼쪽에만을 위한 과목에서 살아간 j,단일 기여하는 용어에서 오른쪽에 있습니다.,품질 0 는 것을 의미는 우리가 얻을 수 있는 최대의 가능성에 대한 견적 α 를 사용하여 우리의 추정치에 대한 β 해결하기 위한 솔루션으로 여러 방정식,하나는 각 주제는 관찰되었 실패:
장 및 주의 사항
더 많에 대해 말하는 Cox Proportional Hazards 모델,그러나 내가 하려고 물건을 유지하는 간단하고 그냥 언급 몇 가지.,
예를 들어,시간을 변화시키는 회귀자를 고려하고 싶을 수 있으며,이것이 가능하다.
염두에 두어야 할 다른 중요한 점은 생략 된 변수 바이어스입니다. 표준 선형 회귀에서 회귀자와 관련이없는 생략 된 변수는 큰 문제가 아닙니다. 이것은 생존 분석에서 사실이 아닙니다. 가 우리는 두 가지 동일한 크기와 샘플링 서브 인구에서 우리의 데이터와 각각에 일정한 위험 평가,하나는 0.1 다른 0.5. 처음에는 높은 위험율(평균,단지 0.3)을 보게 될 것입니다., 시간이 지남에 따라,인구와 높은 위험 평가를 떠나 인구하고 우리가 관찰하는 것은 위험을 평가하는 하락으로 0.1. 우리가이 두 집단을 나타내는 변수를 생략했다면,우리의 기준 위험 비율은 모두 엉망이 될 것입니다.피>