Practical Scripts for Bioinformatics

這裡的程式碼只是加速我們在做研究的時候需要一些細碎的資料處理
如果你有需要可以直接下載，有錯誤或任何建議可以用email通知我

原則上這支Script的效用不大，幫助跟我一樣傻傻沒看清楚就下了featureCount的人整合所有單筆跑出來的結果使用featureCount可以直接下：

featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam

如果使用HTseq 則無法達到像featureCount一樣的整合處理不過也不需要寫程式，可以透過Shell Array的處理方式Merge所有的Data

awk 'NF > 1 {a[$1] = a[$1]"\t"$2} END {for( i in a ) print i a[i]}' $HTseq_DIR/*htseq.counts > Merged.htseq.counts

傳輸進入的檔案會依照共有的標頭(Header)據重新排列產出原本數量的排列過後的檔案省去用R一直order sampleID的麻煩

python Reorganizer.py -f file1.txt -f file2.txt -o output_dir

用在當需要下載到需要token的大定序檔案的時候才需要用到，環境部分參考Gist上的教學記得改output路徑跟token路徑，後面接TCGA官網上面的id，每一行存一個sample。

sh GDC_Download.sh idfiles.txt

碩士論文中使用的Gene set scoring的算法，要應用在其他地方也是可以使用，記得把當中的參數改掉另外在2013以後的版本已經更新寫法，如果有需要再找我拿就好。執行直接在MATLAB當中執行。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
DESeq2_normalize.R		DESeq2_normalize.R
Filesplit.sh		Filesplit.sh
GDC_Donload.sh		GDC_Donload.sh
HTSeq_BAM.sh		HTSeq_BAM.sh
MiXCR_alpha_Control.sh		MiXCR_alpha_Control.sh
README.md		README.md
Reorganizer.py		Reorganizer.py
Tophat_alignment.sh		Tophat_alignment.sh
combine_ReadCounts.R		combine_ReadCounts.R
immune_RNASeq.m		immune_RNASeq.m
wgetSamples.sh		wgetSamples.sh

Provide feedback