RNAseq中的unigene、scaffold、singleton、Distinct clusters、Distinct singletons、unique gene的區分?
生物信息小白一枚,想問各位大神,看文獻的過程中感覺這些概念都好混亂,我看的是RNAseq的文章。問題可能有點多,希望大神都幫忙回答,感激不盡。如果大神能一一解答,無以回報,真的要以身相許了。
clean reads通過彼此之間的overlap組裝成contig,然后將reads mapping 到contig,通過pair-end information將來自同一transcript的contig連在一起組成unigene(Q1:這一步將reads mapping回contig不是很理解,是說有些reads的一段落在contig A上,另一端落在contig B上,然后就可以將這兩個contig拼接在一起嗎?求解釋其中具體過程與原理。),那這樣的話unigene之間是沒有gap的是吧。
但是又看到另外一篇文章里面,用pair-end joining and gap-filling將contig組裝成scaffold,然后<愛尬聊_尬聊生活>用TGICL軟件將scaffold組裝成distinct clusters和distinct singletons(Q2:這個scaffold之間是有gap的嗎?distinct clusters和distinct singletons又是什么意思呢?)
然后又看到另外一篇文章,將reads mapping回contig,通過pair-end information將來自同一transcript的contig連在一起組成unigene,然后將unigene組裝成scaffold,并且此文章中的unigene和scaffold之間都是由gap的。(Q3:unigene之間不是沒有gap的嗎?這個unigene之間的gap和scaffold之間的gap的關系和區別又是什么呢?)
附上原話:To further shorten the remaining gaps, we gathered the paired-end reads with one end mapped on the unique contig and the other end located in the gap region and performed local assembly with the unmapped end to fill in the small gaps within the scaffolds. Such sequences containing least Ns and not being extended on either end were defined as unigenes.
然后我手頭有一個物種的混合組織的轉錄組數據,里面的序列都是組裝好的沒有gap的CL_contig_All和unigene_ALL(截圖如下),(Q4:請問這個CL開頭的contig_All和unigene_All對應以上的哪兩個概念呢?)
另外,Q5:文獻中出現的unique sequence和unigene是不是等價的呢?


王為新 2021-04-10 10:59
第七屆國際基因產業大會將于2016年11月3-5日在上海外高橋喜來登酒店舉辦,大會已經成功舉辦過六屆,已成為全球生物醫藥產業領域重要會議之一,本屆會議邀請到國內外著名院士、世界著名基因技術公司高管,還有來自世界40多個國家和地區在基因領域最具影響力的專家、學者、500強制藥企業高管、著名科研院所的資深科學家和項目組長領銜主講,將向世界傳遞DNA和RNA的研究、基因組學和遺傳學的進步、生命科學的前沿研究、醫學應用的新興領域、生物催化和生物工藝、基因技術在農業和食品領域的開發和應用等熱點話題,共計20多場專業分會論壇。為專家學者、企業精英、各相關組織機構和個人搭建集國際性與專業性于一體的專題演講和交流合作的平臺。
我們盛情邀請相關領域的專家學者出席本屆會議,大會主要活動包括主題報告、科技論壇、專題討論會、展覽展示、海報展示、高端人才招募洽談會等多種形式,將為參會人員提供最前沿的科技資訊、傳遞行業發展趨勢和最新動向,期待著2016年11月與您共聚上海!。
關于更多信息,可直接登錄大會官網:
http://www.bitcongress.com/wgc2016/cn
大會亮點:
100+ 基因產業領域熱點話題
300+ 基因產業最新發展的專業演講
100+ 科學海報展示最新研究成果
50+ 企業將展示最新產品、技術和服務
500+ 全球專家學者、企業界代表歡聚一堂
科技論壇
專題一:主會場
第一部分:開幕式
第二部分:主題論壇
專題二: 基因產業論壇
論壇1: 核酸研究突破
論壇2: 基因組學和遺傳學研究進展
論壇3: 生命科學的前沿研究
論壇4: 醫學應用的新興領域
論壇5: 新生物治療的發現
論壇6: 先進的生物技術
論壇7: 強大的技術開發
論壇8: 生物催化、生物轉化和生物工藝
專題三: 農業生物技術
論壇9: 植物生物學與生物技術的前沿
論壇10: 農業支柱產業
論壇11: 農業創新技術
論壇12: 農業作物生產與管理
論壇13: 農業為基礎的能源、經濟和穩定發展
專題四: 食品科學與技術
論壇14: 食品科學前沿
論壇15: 食品經濟,政策和安全
論壇16: 先進的食品生物技術
論壇17: 保健食品和功能性食品
論壇18: 特定食品的研究
論壇19: 食品檢測與分析
參會價格
大會分為參會票、餐飲票兩種參與方式,并設有論文投遞及學術展板展示,詳情如下:
1)參會票:1900元起
參會票包含:可參加會議所有論壇,會議期間茶歇,會議資料1份。
2)餐飲票:2500元起
餐飲票包含:可參加會議所有論壇,會議期間午餐,會議期間茶歇,會議第一天歡迎晚宴,會議資料1份,學術展板1塊或投遞論文1篇。
學生票半價,只針對參會票
目前,科技論壇演講,大會征集論文摘要、學術海報、企業展覽正在招募中,歡迎踴躍報名并誠邀贊助單位!
報名鏈接:http://www.bitcongress.com/wgc2016/cn/zhuce.asp
(三人以上注冊參會票可享受團體優惠,詳情請聯系會務組。)
學術展板
一.展示時間:2016年11月3 -5日
二.展示形式:招貼畫展 (Poster Session)
三.展板尺寸:70CM(寬)×90CM(高)
企業展覽
展覽范圍:科學儀器、實驗設備、試劑、 消耗品、生物醫藥制劑、技術服務、外包、 媒體及雜志等
展位價格及內容
標準展位:6月價格8500元起,越早報名價格越優惠。
包含內容:中英文對照公司楣板一條,咨詢桌1張, 椅子2把, 電源插座1個,射燈2盞。
標準展位所包含服務:
1) 展位一個(11月3-5日 ),11月2日下午布展
2) 贈送1 張參會票(含會議期間茶歇、午餐、歡迎晚宴和資料袋)
3) 贈送5個免費參會名額
4) 在會議網站首頁放置參展公司 LOGO,并鏈接到參展公司網站
5) 在會刊扉頁展商列表中印刷參展公司LOGO
6) 在會刊內刊印參展商200字左右中英文對照版的企業介紹并附聯系方式
7) 會后發放所有參會人員以及參展單位通訊錄
贊助機會
大會誠邀贊助單位
為進一步體現“加強合作、優勢互補、資源共享、共同發展”的宗旨,為企業提供一個詮釋企業文化、推介自我的舞臺,特征集贊助合作單位,根據企業的貢獻量身定做各種回報方案,達到企業預期目標,詳細贊助方案請咨詢會務組。
贊助優勢
與行業精英面對面交流的絕佳機會。
了解最前沿技術和產品的第一選擇。
與潛在的合作伙伴面對面地談論合作方案。
提高貴公司技術產品的品牌認可。
為貴公司帶來無限商機和現場簽單的機會。
提高您個人的國際知名度。
與政府相關部門負責人溝通的絕佳機會。
我們殷切地期待您的加入,并在這個國際平臺上向您的國內外同行分享您的知識與遠見!
報名鏈接:http://www.bitcongress.com/wgc2016/cn/zhuce.asp
聯系方式:
2016第七屆國際基因產業大會會務組
聯系人:張圓
電話:0411-84575669-851
手 機:15041134922
Q Q : 13409281
郵 箱:[email protected]
地址:大連市高新園區匯賢園1號11號
路鑫 2021-04-10 11:10
Q1:這一步將reads mapping回contig不是很理解,是說有些reads的一段落在contig A上,另一端落在contig B上,然后就可以將這兩個contig拼接在一起嗎?求解釋其中具體過程與原理。
理解正確,原理如一樓所說的。兩條contig連接在一起后可能可能有gap,也可能沒有,這取決于Paried-end的這一對reads是否有重合區和有多少Paried-end reads用來補gap。
樓主對Paried-end reads可能不是太清楚,對于Paried-end reads,一般是不會測通的(就是說不會有重合的部分),比如300bp的插入片段(insert size),兩端各測100bp,中間的100bp沒有被測到,也就是說對于這個300bp的插入片段,測序得到的一對reads只有200bp信息,中間的100bp是gap。
Q2:這個scaffold之間是有gap的嗎?distinct clusters和distinct singletons又是什么意思呢?
scaffold內通常有很多gap,補gap可以減少gap的長度,但能不能完全補好,如上所說,取決于有多少可用于補gap的 Paried-end reads。對于后邊的兩個名字,應該是這樣理解:
Tgicl把相似的序列聚在一起,1個cluster就是相似性很高的一堆序列;distinct clusters是指不同的cluster;distinct singletons是指不到相似序列進行聚類,只能多帶帶一條序列歸為一類的序列;
Q3:unigene之間不是沒有gap的嗎?這個unigene之間的gap和scaffold之間的gap的關系和區別又是什么呢?
有沒有gap如Q1所說,可能有也可能沒有。scaffold的概念一般是出現在基因組序列中,而unigene是轉錄本的概念(不含內含子)不清楚為何是unigene還能組裝成scaffold。gap都是指堿基未知的缺口;
Q4:請問這個CL開頭的contig_All和unigene_All對應以上的哪兩個概念呢?
contig_All 對應 distinct clusters。
unigene_All 對應 distinct singletons。
都回答了,好緊張。
i劉建華 2021-04-10 11:15
您好 請問你能將paper list 發上來嘛
第一個問題非常好理解,因為paired-reads來源于轉錄本的其中一個片段,那裝出來的轉錄本倘若不符合這種對應關系的話,當然就有可能是artifact啦
