單細(xì)胞實(shí)戰(zhàn)(1)數(shù)據(jù)下載-數(shù)據(jù)讀取-seurat對(duì)象創(chuàng)建
這篇文章我們將介紹從geo數(shù)據(jù)庫(kù)下載單細(xì)胞測(cè)序數(shù)據(jù)后,多種數(shù)據(jù)格式多樣本情況下,如何讀取數(shù)據(jù)并創(chuàng)建seurat對(duì)象。本文主要結(jié)構(gòu):
一、數(shù)據(jù)下載二、數(shù)據(jù)讀取與seurat對(duì)象創(chuàng)建
單樣本情況下各種格式數(shù)據(jù)的讀取,讀取后seurat對(duì)象的創(chuàng)建
多樣本情況下各種格式數(shù)據(jù)的讀取,讀取后seurat對(duì)象的創(chuàng)建、合并
一、數(shù)據(jù)下載大家自行去GEO官網(wǎng)(https://www.ncbi.nlm.nih.gov/gds)搜索下載自己想要的單細(xì)胞測(cè)序數(shù)據(jù)。本文后面會(huì)提供數(shù)據(jù)用于示例代碼測(cè)試。

GEO數(shù)據(jù)庫(kù)上提供的單細(xì)胞測(cè)序數(shù)據(jù)常見(jiàn)格式主要有以下幾種:
10x?Genomics格式:這是一種由10x Genomics公司開(kāi)發(fā)的專(zhuān)用文件格式,它包含三個(gè)子文件:barcodes.tsv、features.tsv和matrix.mtx。這三個(gè)文件可以用于存儲(chǔ)單細(xì)胞測(cè)序數(shù)據(jù)的細(xì)胞條形碼、基因特征和稀疏表達(dá)矩陣 。
h5格式:這是一種用于存儲(chǔ)大規(guī)模數(shù)據(jù)的二進(jìn)制文件格式,它可以包含多種數(shù)據(jù)類(lèi)型,如矩陣、表格、圖像等。
壓縮文本矩陣(TXT或CSV的GZ文件):壓縮文本矩陣可以用于存儲(chǔ)單細(xì)胞測(cè)序數(shù)據(jù)的表達(dá)矩陣或元數(shù)據(jù),它可以減少文件的大小和傳輸時(shí)間 。
h5ad格式:它專(zhuān)門(mén)用于存儲(chǔ)和分享單細(xì)胞表達(dá)數(shù)據(jù),它使用Anndata庫(kù)來(lái)創(chuàng)建和讀取。h5ad格式可以與cellxgene或Seurat等工具兼容,進(jìn)行單細(xì)胞數(shù)據(jù)的可視化和分析 。
h5seurat格式:這是一種基于h5格式的文件格式,它專(zhuān)門(mén)用于存儲(chǔ)和分析多模態(tài)單細(xì)胞和空間分辨率表達(dá)實(shí)驗(yàn),如CITE-seq或10X Visium等技術(shù)。h5seurat格式可以與SeuratDisk等工具兼容,進(jìn)行單細(xì)胞數(shù)據(jù)的讀寫(xiě) 。
R數(shù)據(jù)文件(RDS/RDATA文件):以R語(yǔ)言的數(shù)據(jù)文件格式存儲(chǔ)表達(dá)式矩陣,需要R軟件直接讀取。
二、數(shù)據(jù)讀取與seurat對(duì)象創(chuàng)建單樣本單樣本情況下每種格式的數(shù)據(jù)讀取與seurat對(duì)象創(chuàng)建演示:10x?Genomics格式:演示數(shù)據(jù)的下載:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE234527

文件下載后解壓,并修改名稱(chēng),存放路徑如下圖:

讀取文件并創(chuàng)建對(duì)象的代碼參考:
h5格式:演示數(shù)據(jù)的下載:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE200874

下載后解壓,存放路徑如圖

讀取文件并創(chuàng)建對(duì)象的代碼參考:
壓縮文本矩陣(TXT或CSV的GZ文件):這兩種文件建議先手動(dòng)加壓到本地查看一下文件內(nèi)容格式。CSV壓縮GZ格式演示數(shù)據(jù)的下載:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gse130148

下載后文件的存放路徑

CSV壓縮GZ格式示例代碼:
txt壓縮GZ格式示例代碼:
h5ad格式:
下載測(cè)試文件:
https://www.dropbox.com/s/ngs3p8n2i8y33hj/pbmc3k.h5ad?dl=0
R數(shù)據(jù)文件(RDS/RDATA文件)
多樣本
多樣本情況下我們主要關(guān)注10x?Genomics格式和壓縮文本矩陣(TXT或CSV的GZ文件)
10x?Genomics格式多樣本讀取與對(duì)象創(chuàng)建:
測(cè)試數(shù)據(jù)下載:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE234527

示例代碼:
h5格式多樣本數(shù)據(jù)讀入與對(duì)象創(chuàng)建:測(cè)試數(shù)據(jù)下載:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE200874

下載后將數(shù)據(jù)解壓:

壓縮文本矩陣(TXT或CSV的GZ文件)多樣本:下載測(cè)試文件:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi下載三個(gè)數(shù)據(jù)演示一下代碼

下載后解壓:

示例代碼:
大家可以使用fread()等更高效的函數(shù)代替文中的read.csv()函數(shù),但是要注意讀取后數(shù)據(jù)格式是否準(zhǔn)確。
參考鏈接:https://www.jianshu.com/p/5b26d7bc37b7參考鏈接:https://mp.weixin.qq.com/s/M15kWdH8eDONfakNhY-enA