小L生信学习日记-2
小L,一个生信新手,这段时间深入研究原理类知识,深感“头昏脑胀打瞌睡”。这些原理在实际操作后能理解,但在没有经验时,感到难以捉摸,甚至产生自我怀疑,仿佛自己是个“傻子”。
每个人的学习背景不同,例如计算机背景的不懂生物,生物学背景的不懂医学,医学背景的不懂计算机,总有一些知识需要补充。
在生信部门的指导下,小L整理了生信学习中必知的背景知识。以下内容旨在帮助大家查漏补缺。
重温高中学过的中心法则:遗传信息流从DNA到RNA再到蛋白质。这一理论在1957年由克里克提出,成为生物学中经典知识。
二代测序技术是生物信息学分析的主要对象,包括NGS(next generation sequencing)技术,可以一次对大量DNA分子进行序列测定。其核心原理是边合成边测序,涉及文库制备、单克隆DNA簇的产生和测序反应。
二代测序技术类型包括Illumina/Solexa聚合酶合成测序、罗氏454焦磷酸测序、ABI/SOLiD连接酶测序。应用最广的是Illumina技术。
测序得到的fastq文件是Illumina(solexa)技术中一种反应测序序列的碱基质量的文件格式。
Index(Barcode):标签,用于在Illumina平台的多重测序中区分样品。
Lane:泳道,允许使用Barcode在同一Lane中检测多样本。
Read:一段碱基序列,高通量测序平台产生的序列。
Fragment:基因序列被打断成固定长度片段后进行测序,测序结果为reads。
Contig:read进行拼接后获得的不同长度序列。
数据量、Q值、覆盖深度和测序深度是评估测序质量和基因组覆盖度的重要指标。
转录组测序(RNA-Seq)利用二代高通量测序技术获取特定器官或组织在特定状态下的转录本信息,包含mRNA、非编码RNA等。分析后可揭示基因表达特征。
生信分析离不开生物信息数据库,覆盖生命科学各领域,如核酸序列数据库、蛋白质序列数据库、文献数据库等。
以上是本期“生信入门必知背景知识”的全部内容。无论是否有生物背景,先了解这些知识,后续遇到问题再深入学习。欢迎提出建议,期待下次学习!
小L生信学习日记-2丨生信入门必知背景知识
小L生信学习日记-2 小L,一个生信新手,这段时间深入研究原理类知识,深感“头昏脑胀打瞌睡”。这些原理在实际操作后能理解,但在没有经验时,感到难以捉摸,甚至产生自我怀疑,仿佛自己是个“傻子”。每个人的学习背景不同,例如计算机背景的不懂生物,生物学背景的不懂医学,医学背景的不懂计算机,总...
小L生信学习日记-6丨你最关心的差异基因是怎么挑出来的?!
差异基因分析的核心是使用DESeq2进行两组比较,通过P-value(小于0.05或0.01)、Fold Change(大于2或小于0.66667)筛选出显著差异的基因。P-value代表基因差异的显著性,Padj则是校正后的P值,以减少假阳性。log2FoldChange则衡量表达量的倍数变化,通常要求至少1.2倍以上。筛选后的数据通常以火山图...