|
【全基因組關聯(lián)分析GWAS專題1】——群體結構一. GWAS與群體結構 (1)群體遺傳結構:群體水平大尺度遺傳差異,亞群水平等位基因頻率差異,不同祖先來源,個體間親緣關系,家系等不同的群體結構。 圖1 群體結構類型 (2)群體結構對GWAS的影響:GWAS的研究對象包括自然群體、種質資源,半同胞家系,混合家系,MAGIC/NAM家系等。自然群體內性狀變異和遺傳變異豐富,群體內積累許多重組和突變信息,使用GWAS定位的分辨率大大提高;使用人工設計群體進行GWAS一方面降低群體內分化情況,另一方面避免稀有等位變異的丟失。但是,GWAS分析時也存在困難,每個亞群樣本共享一種生活方式,導致許多目標性狀直接與亞群或世系相關;亞群間本身的表型差異;群體內等位基因頻率差異大的位點與表型關聯(lián),導致出現(xiàn)假陽性。所以,GWAS需要選擇統(tǒng)計學模型(如GLM、MLM)校正群體結構,我們在選擇材料時,保持群體豐富遺傳變異的同時,也要盡量避免過于復雜的群體結構。 二. 群體結構分析 (1)主成分分析 通過正交交換將一組可能存在相關性的變量轉換為一組線性不相關的變量,PCA分析展示比較能區(qū)分群體的2-3個主成分。 (2)系統(tǒng)進化樹 表示生物的進化歷程和親緣關系,基于不同算法可以構建NJ樹(MEGA)、ML樹(RAxML)、貝葉斯樹(ExaBayes)等。 (3)structure 反映遺傳變異在物種或群體的分布,推斷群體數(shù)目,判斷某個體屬于哪個群體,基于不同算法的分析軟件有STRUCTURE、ADMIXTURE、fastSTRUCTURE、TeraStructue等。 (4)遺傳關系矩陣 包括血緣,共同祖先及其他共同特征的關系,可以根據(jù)系譜關系、標記基因型(AA、Aa、aa)、標記歐氏距離(ED值)等方法推斷,MLM可以作為協(xié)方差控制假陽性。 圖2 群體結構分析 三. 經(jīng)典文獻——GWAS解析二倍體棉關鍵農藝性狀的遺傳基礎 (1)實驗材料: 重測序230份亞洲棉材料(G. arboreum)和13份草棉材料(G. herbaceum),收集來自華南(SC)、長江流域(YZR)和黃河流域(YER),代表中國二倍體棉的表型和地理多樣性。 (2)測序方案: Illumina HiSeq 2500,PE125,每份材料~6.0×,過濾得到72419 SNPs。 (3)部分結論: 雷德蒙氏棉(G. raimondii)作為外類群構建NJ樹發(fā)現(xiàn)亞洲棉和草棉分成兩個獨立枝,亞洲棉劃分出SC、YZR、YER等地理分組,PCA分析進一步驗證,說明亞洲棉和草棉從不同野生祖先獨立馴化。SC分組核苷酸多態(tài)性更高(π=0.211×10−3),說明亞洲棉最初在SC栽培然后傳播到YZR和YER,亞洲棉(r2=0.40)和草棉(r2=0.39)LD值相似于大豆和水稻地方品種,明顯高于玉米栽培品種。Model-based 群體結構分析發(fā)現(xiàn)YER顯著區(qū)別于SC、YER,說明人工選擇在作物馴化中起重要作用。11個重要性狀GWAS發(fā)現(xiàn)98個顯著關聯(lián)信號,25個在基因區(qū)域,農藝性狀相關的主效GWAS信號在形態(tài)上表現(xiàn)地理分化,如花期、棉鈴重和抗病性等,所以成熟度、產(chǎn)量和抗病性狀一直處于強烈的人工/地理選擇。 圖3 二倍體棉基因組與地理差異 |