Statistical biases due to anonymization evaluated in an open clinical dataset from COVID-19 patients

de Miranda, S. M. Nunes; Weismantel, C.; Witzenrath, M.; Zoller, T.; Zvorc, S.; Zetzsche, F.; Wessendorf, M.; von Bergwelt, M.; Weiß, L.; Zwißler, B.; Wyen, C.; Walter, J.; Zemlin, M.; von Bonin, S.; Vetter, M.; Willam, C.; Wolf, K.; Zeller, T.; Vehreschild, M.; Vogl, T.; Wirtz, H.; Vollenberg, R.; Wilms, C.; Wallner, S.; Wipperfuerth, J.; Voit, F.; Winter, C.; Weissbrich, B.; Zeh, S.; Witzke, O.; von Lilienfeld-Toal, M.; Koll, Carolin E. M.; Kohls, Mirjam; Stellbrink, Christoph; Thibeault, Charlotte; Reinke, Lennart; Hopff, Sina M.; Steinbrecher, Sarah; Schreiber, Stefan; Frank, Sandra; Meurers, Thierry; Miljukov, Olga; Erber, Johanna; Hellmuth, Johannes C.; Reese, Jens-Peter; Steinbeis, Fridolin; Lee, Chin Huang; Bahmer, Thomas; Hagen, Marina; Meybohm, Patrick; Vadász, István; Krist, Lilian; Jiru-Hillmann, Steffi; Mitrov, Lazar; Scherer, M.; Schneider, J.; Balzuweit, B.; Berger, S.; Hummel, M.; Schmidt, S.; Krannich, A.; Kurth, F.; Lienau, J.; Lorbeer, R.; Pley, C.; Schaller, J.; Bauer, C.; Fiessler, C.; Goester, M.; Grau, A.; Heuschmann, P.; Hofmann, A. L.; Kammerer, K.; Ungethuem, K.; Krawczak, M.; Bahls, T.; Hoffmann, W.; Nauck, M.; Schäfer, C.; Schattschneider, M.; Stahl, D.; Valtentin, H.; Chaplinskaya, I.; Hansch, Stefan; Hanß, S.; Krefting, D.; Pape, C.; Hoffmann, J.; Fricke, J.; Helbig, T.; Keil, T.; Kretzler, L.; Lippert, L.; Mittermaier, M.; Mueller-Plathe, M.; Roennefarth, M.; Sander, L. E.; Steinbrecher, S.; Treue, D.; Prasser, Fabian; Triller, P.; Hammer, F.; Horvarth, L.; Vehreschild, Jörg Janne; Kipet, A.; Schroth, M.; Unterweger, M. T.; Bernemann, I.; Drick, N.; Hoeper, M.; Illig, T.; Kersting, M.; Klopp, N.; Kopfnagel, V.; Pink, I.; Ratowski, M.; Bremer, C. M.; Halfar, H. H.; Herold, S.; Nguyen, L. H.; Ruppert, C.; Scheunemann, M.; Seeger, W.; Munoz, A. Uribe; Azzaui, H.; Gräske, M.; Hower, M.; Muecke, S.; Kremling, J.; Landsiedel-Mechenbier, E.; Riepe, A.; Schaaf, B.; Anton, G.; Huber, M.; Kaeaeb, S.; Keppler, O. T.; Khatamzas, E.; Kraus, M.; Mandel, C.; Mueller, S.; Muenchhoff, M.; Reeh, L.; Kuehn Steven, A.; Scherer, C.; Stubbe, H.; Kunze, S.; Milovanovic, M.; Pauli, R.; Ebert, M.; Hofmann, W. K.; Tauchert, M. K.; Neumaier, M.; Siegel, F.; Teulfel, A.; Vehreschild, J.; Allerlei, C.; Keller, A.; Bals, R.; Brechtel, M.; Herr, C.; Krawczyk, M.; Lensch, C.; Lepper, P. M.; Riemenschneider, M.; Fuhrmann, S.; Smola, S.; Raichle, C.; Slesak, G.; Hopff, S. M.; Bader, S.; Classen, J.; Dhillon, C.; Freitag, M.; Koll, C. E. M.; Gruenherz, V.; Maerkl, B.; Messmann, H.; Roemmele, C.; Steinbrecher, M.; Lee, C.; Ullrich, M.; Altmann, H.; Berner, R.; Dreßen, S.; Mitrov, L.; Koch, T.; Lindemann, D.; Seele, K.; Spieth, P.; Tausche, K.; Toepfner, N.; Kraska, D.; Nunnendorf, M.; Kremer, A. E.; Leppkes, M.; Mang, J.; Neurath, M. F.; Prokosch, H. U.; Sauer, G.; Schmid, J.; Seibel, K.; Addo, M.; Engels, A. L. F.; Jarczak, D.; Kerinn, M.; Stecher, M.; Kluge, S.; Kobbe, R.; Roedl, K.; Schlesner, C.; Shamsrizi, P.; Appel, K.; Arendt, C.; Bellinghausen, C.; Cremer, S.; Geisler, R.; Groh, A.; Gruenewaldt, A.; Khodamoradi, Y.; Klinsing, S.; Rohde, G.; Becker, K.; Doerr, M.; Lehnert, K.; Piasta, N.; Schaefer, C.; Schaefer, E.; Scheer, C.; Baber, R.; Bercker, S.; Krug, N.; Mueller, S. D.; Boeckel, G.; Meier, J. A.; Nowacki, T.; Tepasse, P. R.; Arlt, A.; Griesinger, F.; Guenther, U.; Hamprecht, A.; Juergens, K.; Kluge, A.; Meinhardt, C.; Meinhardt, K.; Petersmann, A.; Prenzel, R.; Brauer-Hof, A.; Brochhausen-Delius, C.; Burkhardt, R.; Feustel, M.; Hanses, F.; Malfertheiner, M.; Niedermair, T.; Schmidt, B.; Schuster, P.; Mueller-Wieland, D.; Marx, N.; Dreher, M.; Dahl, E.; Enderle, J.; Friedrichs, A.; Hermes, A.; Kaeding, N.; Koerner, M.; Kujat, C.; Lehmann, I.; Lessing, M.; Lieb, W.; Maetzler, C.; Oberländer, M.; Pape, D.; Plagge, M.; Rupp, J.; Schunk, D.; Tittman, L.; Barkey, W.; Fricke, L.; Lieb, J.; Michler, T.; Mueller, L.; Spinner, C.; Bitzer, M.; Bunk, S.; Göpel, S.; Häberle, H.; Kienzle, K.; Mahrhofer, H.; Malek, N.; Rosenberger, P.; Struemper, C.; Trauner, F.; Frantz, S.; Frey, A.; Haas, K.; Haertel, C.; Haeusler, K. G.; Hein, G.; Herrmann, J.; Horn, A.; Isberner, N.; Jahns, R.; Kohls, M.; Liese, J.; Morbach, C.; Schmidt, J.; Schulze, P.; Stoerk, S.; Brinkmann, F.; Brueggemann, Y.; Gambichler, T.; Hellwig, K.; Luecke, T.; Reinacher-Schick, A.; Schmidt, W. E.; Schuette, C.; Steinmann, E.; Reyes, C. Torres; Alsaad, K.; Berger, B.; Nunes de Miranda, S. M.; Hamelmann, E.; Heidenreich, H.; Hornberg, C.; Kulamadayil-Heidenreich, N. S. A.; Maasjosthusmann, P.; Muna, A.; Olariu, C.; Ruprecht, B.; Tebbe, J.; August, D.; Barrera, M.; Goetz, V.; Imhof, A.; Koch, S.; Nieters, A.; Peyerl-Hoffmann, G.; Rieg, S. R.; Amanzada, A.; Blaschke, S.; Hafke, A.; Hermanns, G.; Kettwig, M.; Moerer, O.; Nussbeck, S.; Papenbrock, J.; Santibanez-Santana, M.; Dolff, S.; Elsner, C.; Krawczyk, A.; Madel, R. J.; Otte, M.; Brochhagen, L.; Heyder, R.; Neuhauser, H.; Schreiber, S.; Ellert, C.; Milger, K.; Schmidt, G.

Published in

Nature Research, Scientific Data, 1(9), 2022

DOI: 10.1038/s41597-022-01669-9

Tools

Export citation

Search in Google Scholar

Statistical biases due to anonymization evaluated in an open clinical dataset from COVID-19 patients

Journal article published in 2022 by S. M. Nunes de Miranda, C. Weismantel, M. Witzenrath, T. Zoller, S. Zvorc, F. Zetzsche, M. Wessendorf, M. von Bergwelt, L. Weiß, B. Zwißler, C. Wyen, J. Walter, M. Zemlin, S. von Bonin, M. Vetter and other authors.

This paper is made freely available by the publisher.

Full text: Download

Preprint: archiving allowed

Upload

Postprint: archiving forbidden

Published version: archiving allowed

Upload

Policy details

Data provided by

Abstract

AbstractAnonymization has the potential to foster the sharing of medical data. State-of-the-art methods use mathematical models to modify data to reduce privacy risks. However, the degree of protection must be balanced against the impact on statistical properties. We studied an extreme case of this trade-off: the statistical validity of an open medical dataset based on the German National Pandemic Cohort Network (NAPKON), which was prepared for publication using a strong anonymization procedure. Descriptive statistics and results of regression analyses were compared before and after anonymization of multiple variants of the original dataset. Despite significant differences in value distributions, the statistical bias was found to be small in all cases. In the regression analyses, the median absolute deviations of the estimated adjusted odds ratios for different sample sizes ranged from 0.01 [minimum = 0, maximum = 0.58] to 0.52 [minimum = 0.25, maximum = 0.91]. Disproportionate impact on the statistical properties of data is a common argument against the use of anonymization. Our analysis demonstrates that anonymization can actually preserve validity of statistical results in relatively low-dimensional data.

Published in

Links

Tools

Statistical biases due to anonymization evaluated in an open clinical dataset from COVID-19 patients

Abstract