發表文章

目前顯示的是 10月, 2017的文章

利用 Phylip 建立 MP、ML、NJ tree

圖片
Phylip 流程圖 分成上下,MP、ML走下方路徑,NJ走上面 一開始要下載Phylip,為資料夾形式之程式 首先要將 多個fasta 檔 合併並alignment成一個檔案,儲存成 phylip4.0檔 (3.2不能用) 注意要開新的alignment,並用import序列的方式 將檔案拉到Phylip資料夾中的exe 資料夾中,並將檔案命名為infile (不可有副檔名) (此程式只接受infile(or intree)的檔名,出來之結果只有outfile(or outtree) 進行下一步驟前需將原本之infile丟棄或改名 將 infile 建立好之後 首先先來建立MP tree 點選(seqboot.exe)後 (此步是先將原本之檔案用bootstrap處裡) 什麼是bootstrap (张金龙科学网博客 ) 依序輸入  y,1 (y 表示同意上述設定, Random number通常設定為1 (還不太確定為什麼,可能是用第一條做比對) 輸入完成之後,等程式跑完會出現一個outfile,將原本之infile 刪除或改名,把outfile改成infile 打開(protpars.exe)  先按m (analyze multiple data sets)→ 再按d (multiple data sets)→ 再按100 (跑100組樹)→ ((這裡僅為範例操作因此只用100,若實際上應大於1000)) 再按1 再按1 然後按y,就開始跑了 結果會有outfile 和 outtree outfile中為跑完之數據結果,outtree則為圖像化,可用Treeview檢視 將infile outfile

Phylogenetic analysis 基本概念

生物學的一切都沒有道理,除了放在演化的光芒之下 - Systematics: 系統生物學,物種演化歷史,基因等的變化 Phylogenetics: 研究物種間之關係 (* 最主要 : 同源 ) 演化觀點及演化順序 Homology: 以物種演化分類 而非功能 ( 同源 ) Homologous structure                    Chromosome                    Gene 問題 : 找遺傳關係 ( 建樹 )                        計畫 :tree of life 遺傳分類學 :1. 建立在物種來自同一起源                    2. 二分法 ( 現今有三分、四分、網狀等 )                    3. 演化為連續 聚在一起為一群,群有節點、幹有距離 Tree terminology Branch: 長短為距離 Scale: 不同演算法會有不同 Node: 共主 ( 概念,曾存在,不知道是誰但就是存在 ) Root: 共主之存在 支序學派 : 依據演化樹順序分類,不考慮外型 分支圖 : 有演化順序概念 ( 有 roor) 表行學派 : 演化最後的相似程度 無 Root 之重要 不同來源 序列之差異 ( 彼此間之關係 ): 無根 => 無方向 演化的順序之差異 : 有跟 = 有方向 ( 有無根圖形可以互換,但是演算法要正確 ) 無根樹 : 反映物種間距離, 有根樹 : 反映時序 根之選擇 : 選相近的力如同綱等                 細菌稍微複雜,可以選 2~3 個做為 outgroup , ( 綱、目 ) 出現多系群 :=>c 換一個序列做 Homologs: 直向同源 : 序列不同,蛋白同 共生同源 : 序列不同,蛋白不同 * 基因鑑定之遠近不可以牴觸以發現之生物演化順序的定理 Analogy: Alignment 一般 建樹的每個地方都是獨立的 : 多一個可能為插入或原本                           

Sequence analysis

圖片
MalaCard: human 疾病資料庫 => 相關疾病及其相對基因 , omic 資料 SMS2: sequencing 相關之資料庫,格式轉換上周說過了。 那要如何做分析工作 ?     Sequencing Analysis 中,找 Molecular Weight 然後把序列貼進去 sumit     可以轉換成蛋白、求蛋白分子量、等電點 (PI) 等     可下載離線版 (Moodle)     Primer 設計 ( PCR Primer Stats ) check primer     PCR Products : 將序列及 primer key in 就可以知道 primer 在這段序列 中會夾到什麼     Restriction Map: 可以知道限制酶在序列上之位置     Reverse complement 可以 reverse( 注意序列方向性 ) BLAST T 、 P BLAST: 轉錄、轉譯完在 BLAST 下面有許多 BLAST     在 BLAST Genome 可以選擇在搜尋範圍,有 human ; mouse 等常用的 Primer BLAST: 可以 測試 PRIMER!!!!! (訂製primer前要先試試) Optimize: 不要選 mega?? ( 有時候選 Mega 會找不到時,可以選用 middle) Job tittle 替自己的blast命名,假如一次做大量的話方便區分 點 Algorithm parameter 會有很我其它可以設定的 Show results in a new window   這樣子到時候會開新分頁,若有什麼設定就不會不見 顏色 : 表示相關性 => 紅色表高度相關 ~ 看 MM 位置 …… 不同資料庫會有不同結果 所以 PARAMETER 要記清楚 BLASTX: 嘗試基因上做註解 … Primer 設計   primer bank : 輸入目標基因 (ex geneID) 可以查到文獻中出現過的 primer Bioedit: use Co

FTHFS 基因 Sequencing

圖片
formyltetrahydrofolate synthetase (FTHFS) 基因為共營乙酸氧化菌(SAOB)中,行W-L pathway 的一個重要之功能性基因,在文獻中多簡寫成FTHFS  目前被認為是SAOB的只有5種菌,為 Pseudothermotoga lettingae 、  Thermacetogenium phaeum 、 Clostridium ultunense 、 Syntrophaceticus schinkii  及 Tepidanaerobacter acetatoxydans 經過一些預備搜尋後,發現在資料庫中, Ge ne description為 fomate-tetrahydrofolate ligase的項目中, Gene symbol 有兩種,分別為fthfs及fhs,這次搜尋以fhs作為關鍵字 在 Nucleotide 搜尋中  瀏覽過搜尋結果後,和心中預期的有點不合, 但由於目前對於SAOB之研究較少,有許多含有FTHFS基因之細菌皆未被認定為SAOB 於是挑了兩個菌,和先前我在AHS反應槽中選殖出之菌一樣或在同一屬 為 Clostridium kluyveri DSM 555( LOCUS:CP000673) 及Bacillus thuringiensis serovar kurstaki str. HD73( LOCUS:CP004069), 點入Genebank後,可以看到關於此基因的一些資料,包含這些菌在生物學上之分類,來源,發表文章的題目等等,在此我特別關注發表的題目,由於FTHFS基因為進行一個特殊pathway中的一個重要基因,像當我看到title為" The genome of Clostridium kluyveri, a strict anaerobe with unique metabolic features" 可以知道他的一些文獻相關資訊,將文獻拿出來回顧。 在 ORGANISM中可以知道他們全都是 Firmicutes  門的,整體來說,在nucleotide搜尋中找到許多fthfs基因, 在Gene搜尋中 " fomate -tetrahydrofolate ligase [   Phaeodactylum tricornu

Sequence analysis note

圖片
introducion Entrez:早期資料庫間之相互連結 Primary sequence: EX:Gene bank => 在資料庫中無法發現之序列,會建立新資料,會有GI  number (登錄號,暫時的),確定之後會有XM 號 (館藏號) Scaffold:將短序列重疊而成之長序列 資料庫中之資訊: Header     Locus name Length Moleculartype Diversion Modification  ACCESSION JQ082261 文獻以此為主 VERSION JQ082261.1 (後面的點點為不同版本之註記) GI:別裡這個,可能被刪除 FEATURE CONTIG Necletide GO:有三項:(查生物資料庫講義) 生物途徑(Biological process):指基因產物所參與的生物路徑 細胞組件(Cellular component):指基因產物在細胞內外的位置 分子功能(Molecular function):指基因產物的分子活性   ----------------------------------------------------------------------------------------------------------------- NCBI   All Resource  :會有每個資料庫之介紹      pudchem: for 藥物者做的資料庫 1.Nucleotide:  輸入名稱: 會有()的表示為暱稱,沒括號的為正名 以FTHFS為例 點入 GeneBank 格式 題外 點入: ORGANISM:可以知道關於此物種所有之資訊 看起來蠻少的 FASTA格式 HOW TO 獲得FASTA格式 將NCBI格式全選 貼到以下 SMS2( http://www.bioinformatics.org/sms2/ ) OR直接用選的 Graphics( FOR primer working) Gen