앞선 포스팅 Kaplan-Meier Estimation에서 구간생존율을 누적하여 누적생존율을 구하는 방법을 확인했습니다. 의료 분야에서는 생존 분석을 위해 다양한 방법들이 사용됩니다. Kaplan-Meier 방법이 특정 집단의 생존율을 추정하는 방법이라면, 이번 포스팅에서 살펴볼 Log-Rank Test
는 두 집단의 생존율의 차이가 유의미하게 있는지 확인하기 위한 방법입니다. 기존의 생존 분석과 마찬가지로 시간(Time)과 사건(Event) 개념이 필요합니다. Log-Rank Test는 두 집단의 데이터를 병합하여 관찰 시간 순으로 정렬하고, 절단 데이터(Censored Data)를 제거합니다. 결과적으로 사건이 발생한 구간만을 남기는 방식으로 생존 분석을 진행합니다. 예제 데이터를 생성하여 Log-Rank Test를 진행해보겠습니다.
총 10개의 샘플 데이터를 생성하였습니다. 데이터는 Time
, Treatment
, Event
3개의 변수로 구성되며,Treatment
변수는 치료 방법에 따른 생존율을 확인하기 위해 추가하였습니다.
먼저, Kaplan-Meier Curve를 그려 생존율이 어떻게 변화하는지 확인해보도록 하겠습니다. 데이터는 위에서 생성한 예제 데이터를 그대로 사용하겠습니다.
위의 그림을 살펴보면 Treat2
이 Treat1
에 비해 상대적으로 생존율이 낮은 것 처럼 보입니다. 하지만, 실제로 통계 검정을 하기 전까지 유의한 차이가 있는지 장담할 수 없습니다. 실제로도 유의한 차이가 있는지 확인하기 위해 Log-Rank Test
를 해보겠습니다. lifelines
라이브러리가 제공하는 logrank_test
함수를 활용하여 손쉽게 검정을 진행할 수 있습니다.
검정 결과, P-value 는 0.3407로 확인되었습니다. 육안으로는 두 치료 방법이 유의한 차이를 나타내는 것처럼 보였지만, 실제 검정 결과는 달랐습니다. 즉, 두 치료 방법은 유의미한 차이가 없음을 확인할 수 있었습니다.