動植物基因組De novo三代測序

專業 準確 完整

產品介紹

動植物基因組De?novo測序分析也叫從頭測序分析,指不依賴于任何參考序列信息就可對某動植物進行測序分析,使用最新的生物信息學方法進行序列拼接獲得某物種的基因組序列圖譜,并進行基因組結構注釋、功能注釋、比較基因組學分析等一系列的后續分析。三代測序技術(以PacBio和Nanopore為代表)具有讀長長的特點,自2015年開始在動植物基因組De novo中初露鋒芒,已延用至今。該類型測序分析結果可以廣泛應用于農林魚牧醫藥及海洋等各個方面的研究。

1

圖1 不同測序技術讀長,準確性及基因組連續性評估

三代測序技術原理

PacBio測序原理

采用邊合成邊測序的方式,以其中一條DNA鏈為模板,通過DNA聚合酶合成另外一條鏈,進一步將熒光信號轉變為堿基信號。同時PacBio已升級了CCS測序模式以獲得長讀長的高保真(HiFi)15 kb reads,由此提升基因組組裝的準確性。

圖2 三代PacBio測序原理

Nanopore測序原理

當單鏈DNA分子穿過納米孔時,相對于每個核苷酸,都會獲得不同的電流信號。記錄每個孔的離子電流變化,并基于馬爾可夫模型或遞歸神經網絡的方法將其轉換為堿基序列。除此之外,Ultra-long reads (ULRs) 是ONT平臺的另一重要特征,并具有促進大型基因組組裝的潛力。

信息分析內容

De?novo研究 研究內容
基因組組裝 多軟件組裝、組裝結果評估
基因預測與注釋 編碼基因預測;重復序列注釋和轉座元件分類;非編碼RNA注釋;假基因注釋等
Hi-C輔助基因組組裝 有效數據評估;Contig聚類、排序及定向分析;掛載結果評估
 

 

 

生物學問題解析

 

 

 

比較基因組學研究

基因家族聚類;
系統發育樹的構建;
基因家族擴張與收縮分析;
物種分化時間推算;
LTR形成時間估算;
全基因組復制事件;
選擇壓力分析
特定生物學問題剖析 結合組學研究方法,深入對某物種生物學問題進行解析

33

草莓基因家族聚類分析

44

薏苡全基因組復制事件分析

開心果系統進化樹與基因家族收縮擴張分析

陸地棉亞基因組共線性分析

技術服務流程

  • 樣品寄送

  • 建庫測序

  • 數據分析

  • 出具報告

  • 售后答疑

產品優勢

公司成立于2009年,深耕基因組測序領域11年之久,長久以來致力于成為精準的基因組組裝專家;

擁有世界在最主流的三代測序平臺(PacBio測序全平臺和Nanopore測序全平臺),具有豐厚的雙平臺組裝及上萬種物種基因組組裝經驗。

Hi-C染色質構象捕獲技術文庫有效數據比例高,掛載效率高達99%,多倍體物種研究經驗豐富,與三代基因組組裝相結合,獲得染色體水平基因組的同事進一步提升基因組組裝質量。

擁有自主研發的領先的基因組測序和分析技術,目前已經獲得30多項發明專利,超過150多項核心軟件著作權。

項目經驗示例

合作文章案例

案例1

以更新的亞洲棉A基因組為基礎的243份二倍體棉的重要農藝性狀的研究
Resequencing of 243 diploid cotton accessions?based on an updated A genome identifies the genetic basis of key agronomic traits

期刊:Nature Genetics

影響因子:27.125

發表單位:中國農業科學院棉花研究所、北京百邁客生物科技有限公司等

發表年份:2018年5月

研究背景:

棉花是研究植物多倍化的有價值的資源。亞洲棉(Gossypium arboreum)和草棉(Gossypium herbaceum)的祖先是現代栽培異源四倍體棉花A亞基因組的供體。 本研究中,利用了三代PacBio和Hi-C技術,重新組裝了高質量的亞洲棉基因組,分析了243份二倍體棉花種質的群體結構和基因組分化趨勢,同時確定了一些有助于棉花皮棉產量遺傳改良的候選基因位點。

研究結果:

1、亞洲棉三代基因組組裝:

利用三代測序和Hi-C相結合的方法進行亞洲棉基因組組裝。共計獲得了142.54 Gb ,組裝1.71 Gb亞洲棉基因組,Contig N50=1.1 Mb,最長的Contig為12.37 Mb。利用Hi-C技術將組裝的1573 Mb的數據定位到13條染色體上,與已經發表的基因組相比,當Hi-C數據比對到更新的基因組后,對角線外的不一致性明顯減少(圖1 a-b)

圖1 Hi-C數據在兩版亞洲棉基因組上的比對

2、二倍體棉花群體遺傳進化分析:

對230份亞洲棉和13份草棉重測序,進行基因組比對、系統發育樹、群體結構分析、PCA、LD和選擇性清除分析得出亞洲棉和草棉(A)與雷蒙德氏棉同時進行了分化;亞洲棉起源于中國南部,隨后被引入長江和黃河地區,大多數具有馴化相關特性的種質都經歷了地理隔離(圖2)。

圖2 二倍體棉群體進化和群體結構分析

3、亞洲棉的全基因組關聯分析(GWAS):

對來自不同環境下的11個重要性狀進行全基因組關聯分析,鑒定了亞洲棉11個重要農藝性狀的98個顯著關聯位點,GaKASIII的非同義替換(半胱氨酸/精氨酸替換)使得棉籽中的脂肪酸組成(C16:0和C16:1)發生了變化;發現棉花枯萎病抗性與GaGSTF9基因的表達激活相關。選擇了亞洲棉種質中的158份有絨毛和57份無絨毛材料進行GWAS關聯分析,發現與毛狀體和纖維發育有關信息(圖3)。

圖3 二倍體棉群體進化和群體結構分析

研究結論:

利用三代測序+Hi-C技術完成了亞洲棉基因組的重新組裝,將基因組組裝指標從72?Kb提升到1.1 Mb,為亞洲棉后續的群體遺傳學等相關研究奠定了基礎;通過群體遺傳進化等相關分析,發現亞洲棉和草棉(A型)與雷蒙德氏棉(D型)同時進行了分化,并證明了亞洲棉起源于中國南部,隨后被引入長江和黃河地區;整合GWAS與QTL等分析方法,對亞洲棉脂肪酸含量,抗病性及棉絨生長發育相關基因進行定位,并進行相關功能驗證,促進了亞洲棉復雜農藝性狀的改良。

案例2、

二倍體、野生和栽培四倍體花生比較基因組分析揭示亞基因組不對稱進化和改良
Comparison of Arachis monticola?with diploid and cultivated tetraploid genomes?reveals asymmetric subgenome evolution and improvement of peanut

期刊:Advanced Science

影響因子:15.804

發表單位:河南農業大學、北京百邁客生物科技有限公司等

發表年份:2019年11月

研究背景:

花生作為我國重要的經濟作物,是提供重要的蛋白和油料的基礎?;ㄉ鷮僖还舶?0個二倍體品種,1個異源四倍體野生花生(A. monticola)和1個栽培花生(A. hypogaea)。作為栽培花生農藝性狀改良的重要野生資源供體,野生四倍體花生一直是國內外學者的研究熱點。研究中對花生屬唯一的野生異源四倍體花生Arachis monticola基因組進行了研究,同時對17個野生二倍體花生(AA;BB;EE;KK和CC)與30個野生和栽培四倍體花生進行了重測序分析。

研究結果:

1、野生四倍體花生基因組denovo及與栽培四倍體花生的比較分析:

基于 Illumina、PacBio 、Hi-C和光學圖譜數據,組裝Arachis monticola(2n = 4x = 40)基因組大小為2.62 Gb ,contigs N50=106.66 Kb,scaffolds N50=124.92 Mb;與栽培四倍體花生A. hypogaea基因組結構變異高度保守,且比野生祖先二倍體更加保守;

2、A、B亞基因組的單系起源和多樣性:

對17個二倍體野生種(AA、BB、EE、KK和CC)和30個野生和栽培四倍體花生進行了進化樹和PCA分析。結果表明,栽培四倍體花生與野生四倍體花生最接近, A和B亞基因組的單系起源(圖1);

圖1 野生和栽培花生的系統進化模型

3、四倍體花生不對稱亞基因組進化及表達差異

栽培花生和野生花生的亞基因組間的同源序列交換率(HSE)分別為2.46%和2.54%。野生花生中A到B的HSE富集的基因為類黃酮生物合成和晝夜節律途徑的基因,暗示不對稱HSEs在生物學功能中的作用;

4、SV對莢發育和馴化相關基因表達的影響及抗病基因鑒定

對野生四倍體花生和栽培四倍體花生不同發育階段莢果的SV分析發現SV在莢果發育過程中基因表達的變化上可能起著重要作用;同時在栽培四倍體花生中鑒定到190個SV抗病基因(SV-RGAs),其中32個基因在接種后易感組或抗性組中表現出顯著的表達變化(圖2)。

圖2 野生花生到栽培品系的豆莢性狀馴化

?

研究結論:

充分注釋了高質量野生四倍體花生基因組,揭示了花生亞基因組單系起源和遺傳進化模型,表明了野生和栽培四倍體花生亞基因組發生了不對稱進化;此外,野生花生中存在的獨特等位基因可以改善栽培花生的抗性和莢果大小等形狀,為研究多倍體基因組進化、作物馴化和基因組輔助花生生產改良提供獨特的價值。

 

11选最强规律