通过整理TCGA数据,探索某癌症的癌组织和正常组织的差异基因。 您所在的位置:网站首页 tcga编号 通过整理TCGA数据,探索某癌症的癌组织和正常组织的差异基因。

通过整理TCGA数据,探索某癌症的癌组织和正常组织的差异基因。

2023-08-23 06:16| 来源: 网络整理| 查看: 265

目录 实验设计TCGA数据库简介TCGA数据的获取数据预处理三阴性乳腺癌患者(TNBC)筛选读取文件列出三项指标的列表,方便筛选TNBC的筛选 基因表达矩阵的构建基因表达矩阵的读取和读取后格式修改对表达矩阵进行筛选构建对构建的表达矩阵进行数据筛选癌症组织和正常组织的区分和标记表达矩阵的筛选(应该在上一步一起进行) 患者的癌症组织和正常组织的基因差异表达分析

实验设计

实验目的决定试验方法和途径。 试验目的 :获取三阴性乳腺癌的正常组织和癌症组织的基因表达差异情况,比较三阴性乳腺癌中的基因表达变化情况。 试验设计 :通过TCGA获取乳腺癌的RNA-seq表达数据,筛选出三阴性乳腺癌的样本,通过比较癌症和正常组织的表达差异。

TCGA数据库简介

一句话介绍:TCGA数据库是一个由国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目。使用对患者样本的高通量基因组测序和分析技术来试图提供括基因表达谱,拷贝数变异分析,SNP基因分型,全基因组DNA甲基化分析,微RNA分析等信息。收录了33种癌症基因组测序数据。TCGA数据处理和整理比Oncoman和GEO困难一些。但是针对肿瘤和癌症所能提供的信息是很完善和可靠的。 TCGA和GEO存在的区别是,GEO存在各种研究领域和研究方向的NGC数据和分析。TCGA是专门针对肿瘤和癌症设立的。TCGA优势是丰富且规范的临床数据,以及针对每种癌型的大样本量。

TCGA数据的获取

背景介绍: 三阴性乳腺癌是指癌组织免疫组织化学检查结果为雌激素受体(ER)、孕激素受体(PR)和原癌基因Her-2均为阴性的乳腺癌。这类乳腺癌占所有乳腺癌病理类型的10.0%~20.8%,具有特殊的生物学行为和临床病理特征,预后较其他类型差。–from:百度百科:三阴性乳腺癌

实验设计: 三阴性乳腺癌的筛选标准是根据pheotype来确定的,表达量是通过RNAseq结果确定的,正常组织和癌症组织是通过病例号确定的。

TCGA项目的数据可以通过Genomic Data Commons Data Portal获取,即通过GDC来访问,访问地址:https://portal.gdc.cancer.gov/。TCGA数据库公开免费,所以有许多针对TCGA数据进行整合的网站。还可以通过UCSC Xena进行下载:https://xena.ucsc.edu/public。试验数据的选择和目的息息相关,试验设计: GDC 点击BRCA(乳腺癌)进入数据选择界面。选择gene expression RNAseq>HTSeq - Counts。注意不要用RPKM等经过了normlization的表达矩阵来分析。要使用Counts来进行差异分析,因为在差异分析时候会自动进行标准化。如果数据经过处理例如log2+1,则可以下载后逆运算转变回来。选择phenotype>Phenotype这里面有病人的病例信息等,可以通过统计筛选出三阴性乳腺癌的患者。 BRCA点击连接进去会看到详细的信息如下载地址、样品数、数据处理方法等。 RNAseq界面详细信息 数据预处理

实验设计:筛选出三阴性乳腺癌的患者ID,再筛选出同时有癌症组织样本和癌旁组织样本,计算初始Count值。

三阴性乳腺癌患者(TNBC)筛选

实验设计:在R语言中处理数据,选择breast_carcinoma_estrogen_receptor_status(ER)、PR、HER2受体一栏全为隐形(Negative)的患者。 原始的phenotype文件如下图,信息量巨大 phenotype文件 R语言实现:

读取文件 phenotype_file sum(x==0)


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有