Use of wrapper algorithms coupled with a random forests classifier for variable selection in large-scale genomic association studies. | BCM-HGSC Publications

Title	Use of wrapper algorithms coupled with a random forests classifier for variable selection in large-scale genomic association studies.
Publication Type	Journal Article
Year of Publication	2009
Authors	Rodin, AS, Litvinenko, A, Klos, K, Morrison, AC, Woodage, T, Coresh, J, Boerwinkle, E
Journal	J Comput Biol
Volume	16
Issue	12
Pagination	1705-18
Date Published	2009 Dec
ISSN	1557-8666
Keywords	Algorithms, Apolipoproteins E, Atherosclerosis, Black or African American, Databases, Genetic, Genetic Predisposition to Disease, Genome-Wide Association Study, Humans, Models, Genetic
Abstract	Modern large-scale genetic association studies generate increasingly high-dimensional datasets. Therefore, some variable selection procedure should be performed before the application of traditional data analysis methods, for reasons of both computational efficiency and problems related to overfitting. We describe here a "wrapper" strategy (SIZEFIT) for variable selection that uses a Random Forests classifier, coupled with various local search/optimization algorithms. We apply it to a large dataset consisting of 2,425 African-American and non-Hispanic white individuals genotyped for 4,869 single-nucleotide polymorphisms (SNPs) in a coronary heart disease (CHD) case-cohort association study (Atherosclerosis Risk in Communities), using incident CHD and plasma low-density lipoprotein (LDL) cholesterol levels as the dependent variables. We show that most SNPs can be safely removed from the dataset without compromising the predictive (classification) accuracy, with only a small number of SNPs (sometimes less than 100) containing any predictive signal. A statistical (SUMSTAT) approach is also applied to the dataset for comparison purposes. We describe a novel method for refining the subset of signal-containing SNPs (FIXFIT), based on an Extremal Optimization algorithm. Finally, we compare the top SNP rankings obtained by different methods and devise practical guidelines for researchers trying to generate a compact subset of predictive SNPs from genome-wide association datasets. Interestingly, there is a significant amount of overlap between seemingly very heterogeneous rankings. We conclude by constructing compact optimal predictive SNP subsets for CHD (less than 150 SNPs) and LDL (less than 300 SNPs) phenotypes, and by comparing various rankings for two well-known positive control SNPs for LDL in the apolipoprotein E gene.
DOI	10.1089/cmb.2008.0037
Alternate Journal	J Comput Biol
PubMed ID	20047492
PubMed Central ID	PMC2980837
Grant List	R01 HL072810-06 / HL / NHLBI NIH HHS / United States R37 HL051021-09S1 / HL / NHLBI NIH HHS / United States R37 HL051021-12 / HL / NHLBI NIH HHS / United States P50 GM065509-010002 / GM / NIGMS NIH HHS / United States R01 HL074735 / HL / NHLBI NIH HHS / United States U01 HG004402-02S1 / HG / NHGRI NIH HHS / United States R01 HL087641-01 / HL / NHLBI NIH HHS / United States U01-HG004402 / HG / NHGRI NIH HHS / United States R37 HL051021-07 / HL / NHLBI NIH HHS / United States R01 HL072810-05A1 / HL / NHLBI NIH HHS / United States R01 HL074735-04 / HL / NHLBI NIH HHS / United States U01 HG004402-01 / HG / NHGRI NIH HHS / United States P50 GM065509-060005 / GM / NIGMS NIH HHS / United States R01 HL087641-02 / HL / NHLBI NIH HHS / United States R01 HL072810-03 / HL / NHLBI NIH HHS / United States N01-HC-55022 / HC / NHLBI NIH HHS / United States R37 HL051021-08 / HL / NHLBI NIH HHS / United States N01-HC-55016 / HC / NHLBI NIH HHS / United States R01 HL072810-07 / HL / NHLBI NIH HHS / United States R37-HL051021 / HL / NHLBI NIH HHS / United States R01 HL074735-01 / HL / NHLBI NIH HHS / United States R01 HL072810-04 / HL / NHLBI NIH HHS / United States R37 HL051021-06 / HL / NHLBI NIH HHS / United States P50 GM065509-020002 / GM / NIGMS NIH HHS / United States R01 HL072810 / HL / NHLBI NIH HHS / United States U01 HG004402 / HG / NHGRI NIH HHS / United States P50 GM065509-070005 / GM / NIGMS NIH HHS / United States N01-HC-55021 / HC / NHLBI NIH HHS / United States R37 HL051021-13 / HL / NHLBI NIH HHS / United States P50 GM065509-080005 / GM / NIGMS NIH HHS / United States P50 GM065509 / GM / NIGMS NIH HHS / United States R01-HL072810 / HL / NHLBI NIH HHS / United States R37 HL051021-09 / HL / NHLBI NIH HHS / United States R01 HL087641-03 / HL / NHLBI NIH HHS / United States N01-HC-55019 / HC / NHLBI NIH HHS / United States R01-HL7473501 / HL / NHLBI NIH HHS / United States N01-HC-55015 / HC / NHLBI NIH HHS / United States R01-HL87641 / HL / NHLBI NIH HHS / United States R01 HL074735-02 / HL / NHLBI NIH HHS / United States R37 HL051021-11 / HL / NHLBI NIH HHS / United States N01-HC-55020 / HC / NHLBI NIH HHS / United States N01-HC-55018 / HC / NHLBI NIH HHS / United States R01 HL072810-01 / HL / NHLBI NIH HHS / United States R01 HL087641 / HL / NHLBI NIH HHS / United States R37 HL051021-14 / HL / NHLBI NIH HHS / United States R01 HL074735-03 / HL / NHLBI NIH HHS / United States P50-GM065509 / GM / NIGMS NIH HHS / United States R37 HL051021-15 / HL / NHLBI NIH HHS / United States R37 HL051021 / HL / NHLBI NIH HHS / United States R37 HL051021-10 / HL / NHLBI NIH HHS / United States R01 HL072810-02 / HL / NHLBI NIH HHS / United States U01 HG004402-02 / HG / NHGRI NIH HHS / United States

Similar Publications

Malamon JS, Farrell JJ, Xia LCharlie, Dombroski BA, Das RG, Way J, et al.. A comparative study of structural variant calling in WGS from Alzheimer's disease families. Life Sci Alliance. 2024;7(5).

Hu J, Korchina V, Zouk H, Harden MV, Murdock D, Macbeth A, et al.. Genetic sex validation for sample tracking in next-generation sequencing clinical testing. BMC Res Notes. 2024;17(1):62.

Wang Q, Clark KM, Tiwari R, Raju N, Tharp GK, Rogers J, et al.. The CARD8 inflammasome dictates HIV/SIV pathogenesis and disease progression. Cell. 2024;187(5):1223-1237.e16.