Développement de nouveaux outils bioinformatiques pour l'exploitation des données de spectrométrie de masse en protéomique haut-débit

Bouyssié, David

Links

[thesesups.ups-tlse.fr]

Tools

Export citation

Search in Google Scholar

Développement de nouveaux outils bioinformatiques pour l'exploitation des données de spectrométrie de masse en protéomique haut-débit

Thesis published in 2012 by David Bouyssié

This paper was not found in any repository; the policy of its publisher is unknown or unclear.

Full text: Unavailable

Preprint: policy unknown

Upload

Postprint: policy unknown

Upload

Published version: policy unknown

Upload

Abstract

En biologie, la spectrométrie de masse est devenue l'outil incontournable pour l'identification des protéines. Associée à des techniques de séparation, elle est aussi utilisée pour mesurer la variation d'abondance des protéines entre plusieurs échantillons. Cependant, la très grande quantité et complexité des données liées à ce type d'analyse requièrent des programmes informatiques sophistiqués et adaptés. Mon travail de doctorat a consisté à répondre aux différentes problématiques liées à l'exploitation des données nanoLC-MS/MS, à savoir la validation des résultats d'identification ainsi que la quantification relative des protéines pour des approches mettant en œuvre ou non un marquage isotopique. Le logiciel MFPaQ, dont deux versions sont présentées dans ce document, en est le principal résultat. La version 3 intègre des fonctionnalités telle que la validation des données Mascot, la génération de listes non-redondantes de protéines et la quantification d'analyses ICAT. La version 4, évolution majeure du logiciel, incorpore des algorithmes adaptés à l'analyse quantitative de données MS sans marquage, ainsi que la gestion des stratégies de marquage SILAC et 14N/15N. Son utilisation a facilité la réalisation d'études protéomiques, dont certaines, auxquelles j'ai plus particulièrement participé, sont présentées. Afin de répondre aux futurs enjeux informatiques de la protéomique, j'ai entrepris dans un second temps le développement du logiciel Prosper, qui dispose d'une architecture d'organisation des données permettant de réaliser des requêtes croisées sur l'ensemble des échantillons analysés. Il constitue aussi un outil prototype pour l'élaboration de nouveaux algorithmes. ; In biology, mass spectrometry has become an indispensable tool for protein identification. Associated with separation techniques, it can also be used to measure the variation of protein abundance between different samples. However, due to the huge quantity and complexity of the data produced by this kind of analysis, sophisticated and suitable computer programs are needed. My PhD work was to address the different issues related to the processing of nanoLC-MS/MS data, namely the validation of the identification results, and the relative quantification of proteins using approaches based or not on isotopic labeling. The MFPaQ program, two versions of which are presented here, is the main result of this work. Version 3 includes features such as Mascot data validation, generation of non-redundant protein lists and quantification of ICAT analyses. Version 4, which represents a major upgrade of the software, incorporates additional algorithms for quantitative analysis of label-free MS data, as well as for the handling of the 14N/15N and SILAC labeling strategies. This bioinformatic tool has been used for various proteomic studies, some of which are discussed here. In order to meet future IT challenges in proteomics, I undertook later the development of the Prosper software, which is based on an optimized architecture for organizing data, and allows performing cross-queries on all analysed samples. It also constitutes a prototype tool for the development and evaluation of new algorithms.