Links

Tools

Export citation

Search in Google Scholar

Investigation of the machine learning method Random Survival Forest as an exploratory analysis tool for the identification of variables associated with disease risks in complex survival data ; Erforschung der Random Survival Forest Methode als ein exploratives Analysetool in komplexen Überlebensdaten für die Identifizierung von Variablen die mit Krankheitsrisiken assoziiert sind

Published in 2016 by Stefan Dietrich
This paper is available in a repository.
This paper is available in a repository.

Full text: Download

Question mark in circle
Preprint: policy unknown
Question mark in circle
Postprint: policy unknown
Question mark in circle
Published version: policy unknown

Abstract

The containment of the global epidemic increase of chronic diseases represents a major objective of health care systems worldwide. However, the fulfillment of this objective is complicated by the multifactorial origin of many frequent chronic diseases. Comprehensive investigations are necessary to grasp the complexity of the pathophysiological mechanisms of chronic diseases. However, this frequently results in the acquisition of complex data with numerous highly correlated variables. The statistical analysis of such complex data to identify disease associated markers is a daunting challenge. In general the application of regression methods to complex data is accompanied by problems of multiple testing and of multicollinearity. A promising approach for the survival time analysis of complex data represents the machine learning method Random Survival Forest (RSF). Against this background, the present thesis aimed to evaluate the applicability of RSF for survival analysis of complex data in the European Prospective Investigation into Cancer and Nutrition (EPIC)-Potsdam study. A RSF backward selection algorithm was developed for the purpose of variable selection. A simulation study was then performed to evaluate the RSF method and the RSF backward algorithm. Subsequently, the RSF backward algorithm was applied to prospective observational data of the EPIC-Potsdam study to identify metabolites associated with incident T2D and to identify food groups associated with incident hypertension. The conducted simulation study confirmed the suitability of the RSF method and the implemented RSF backward algorithm as a tool for variable selection. It was demonstrated that the RSF method is able to identify predictive variables while taking into account possible confounders and can handle also the problem of multicollinearity. The subsequent application of the RSF backward algorithm to data of the EPIC-Potsdam study resulted in the successful identification of several metabolites and food groups which were associated with incident T2D and incident hypertension, respectively. Beside hexose, the metabolite diacyl-phosphatidylcholine (PC) C38:3, acyl-alkyl-PC C34:4, the amino acids valine, tyrosine, and glycine and a correlation pattern of five acyl-alkyl-PC and two diacyl-PC were associated with the incidence of T2D. Regarding the incidence of hypertension, a lunch and dinner pattern was most informative in women. In addition, a pattern reflecting dairy fat and cheese consumption and the consumption of spirits were also associated with incident hypertension in women and men. By using partial plots the direction of non-linear associations between identified variables and incident T2D and hypertension were visualised which enhanced the interpretability of the findings. In conclusion, the findings of the present thesis demonstrated that the RSF method and the implemented RSF backward algorithm represent a sensible complement to existing survival analysis methods. The RSF backward algorithm is particularly useful for exploratory analysis of complex survival data to identify unknown biomarkers associated with time until event of interest. However, the verification of the implemented RSF backward algorithm and of the present findings in external cohorts as well as the translation of the present findings for clinical diagnosis, prevention strategies and dietary recommendations should be a matter for future research. ; Die Eindämmung der globalen epidemischen Zunahme chronischer Krankheiten stellt weltweit eine Hauptaufgabe für Gesundheitssysteme dar. Diese Aufgabe wird erschwert durch den multifaktoriellen Ursprung vieler chronischer Krankheiten. Umfangreiche Forschungen sind notwendig, um die Komplexität der pathophysiologischen Mechanismen chronischer Krankheiten zu erfassen. Dies ist häufig verbunden mit der Erfassung komplexer Daten mit einer Vielzahl von hoch korrelierten Variablen. Die statistische Analyse dieser Daten mit dem Ziel krankheitsauslösende Faktoren innerhalb der Daten zu identifizieren, stellt eine große Herausforderung dar. So müssen Probleme aufgrund von multiplen Testen oder von Multikollinearität beachtet werden, wenn Regressionsmethoden angewendet werden. Eine vielversprechende Methode für die Überlebenszeitanalyse von komplexen Daten stellt die maschinelle Lernmethode Random Survival Forest (RSF) dar. Vor diesem Hintergrund war das Ziel dieser Dissertation die Anwendbarkeit von RSF für die Überlebenszeitanalyse von komplexen Daten in der European Prospective Investigation into Cancer and Nutrition (EPIC)-Potsdam Studie zu evaluieren. Für den Zweck der Variablenselektion wurde ein RSF backward Algorithmus entwickelt. Eine Simulationsstudie wurde durchgeführt, um die RSF Methode und den RSF backward Algorithmus zu evaluieren. Anschließend wurde der RSF backward Algorithmus auf prospektive Beobachtungsdaten der EPIC-Potsdam Studie angewendet, um Metabolite zu identifizieren, die mit inzidentem Typ 2 Diabetes mellitus (T2D) und Lebensmittelgruppen die mit inzidenter Hypertonie assoziiert sind. Die durchgeführte Simulationsstudie bestätigte die Eignung der RSF Methode und des implementierten RSF backward Algorithmus für die Variablenselektion. Es wurde demonstriert, dass die RSF Methode prädiktive Variablen identifiziert unter Berücksichtigung möglicher Confounder und zudem das Problem von Multikollinearität handhaben kann. Die Anschließende Anwendung des RSF backward Algorithmus auf Daten der EPIC-Potsdam Studie resultierte in der erfolgreichen Identifizierung verschiedener Metabolite, die mit inzidentem T2D assoziiert waren und von Lebensmittelgruppen die mit inzidenter Hypertonie assoziiert waren. Neben Hexose waren die Metabolite diacyl-Phosphatidylcholin (PC) C38:3, acyl-alkyl-PC C34:4, die Aminosäuren Valin, Tyrosin, Glycin und ein Korrelationsmuster aus fünf acyl-alkyl-PC und zwei diacyl-PC mit inzidenter Hypertonie assoziiert. Bezogen auf die Inzidenz der Hypertonie von Frauen war ein Korrelationsmuster, welches Mittag und Abendmahlzeiten widerspiegelte, am informativsten. Zusätzlich war ein Korrelationsmuster, welches den täglichen Fett- und Käsekonsum widerspiegelt, sowie Alkoholkonsum bei Frauen und Männern mit inzidenter Hypertonie assoziiert. Durch die Verwendung von Partial Plots konnte die Richtung von nicht-linearen Assoziationen zwischen den identifizierten Variablen und inzidentem T2D und inzidenter Hypertonie visualisiert werden, welches die Interpretierbarkeit der Ergebnisse erhöhte. In der Schlussfolgerung zeigten die Ergebnisse der vorliegenden Studie, dass die RSF Methode und der implementierte RSF backward Algorithmus eine adäquate Ergänzung von existierenden Methoden der Überlebenszeitanalysen darstellt. Der RSF backward Algorithmus ist insbesondere für die explorative Analyse von komplexen Überlebensdaten geeignet, um unbekannte Biomarker zu identifizieren, die mit der Ereigniszeit von Interesse assoziiert sind. Jedoch sollte in zukünftigen Studien eine Verifizierung des implementierten RSF backward Algorithmus und der gezeigten Ergebnisse in externen Kohorten stattfinden, sowie eine Übertragbarkeit der gezeigten Ergebnisse für die klinische Diagnostik, Präventionsstrategien und Ernährungsempfehlungen untersucht werden.