레이블이 poretools인 게시물을 표시합니다. 모든 게시물 표시
레이블이 poretools인 게시물을 표시합니다. 모든 게시물 표시

화요일, 3월 14, 2017

poretools 사용법

poretools doc사이트

poretools git url

Oxford Nanopore 데이터 핸들링을 위한 tools중 하나로
현재 다양한 nano로 시작하는 tools들이 있긴 하지만
우선 이 tools을 먼저 살펴보았습니다.

이유는 간단합니다. 제가 사용하고 있으니 작업 로그 삼아 글쓰는거죠 ㅎㅎ

설치는 간단합니다.
먼저 poretools에 필요한 hdf5, numpy, cython 라이브러리들을 설치해 주시고
다음과 같이 샤샤샥

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install
물론 이렇게 해서 한큐에 되는 경우는 그렇게 많지는 않죠..
물론 위는 root권한이 있어야 가능하고요
저같은 일반 유저들은 다음과 같이 해야겟죠(물론 이런 저런 라이브러리는 알아서 잘 설치를...)

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install --home=/path/to/install 
그럼 일단 큰 문제 없이 설치는 될 겁니다.

poretools는 nanopore read 추출/통계정도의 작업제외하고는 할 수 있는게...
그래서 여기서는 extract read관련한것만 간단히 적고자 합니다.

nanopore데이터는 hdf5로 PacBio와 format이 유사해서 직접 데이터를 확인 할 수 없습니다.
그래서 fasta파일이나 fastq파일로 추출 작업을 거쳐야 합니다.

다행히 추출 방법은 그리어렵지 않습니다(사실 어려울게 없죠).

poretools {fasta|fastq} /path/to/reads/pass/ > reads.{fa|fq}

이렇게 하면 fast5파일에서 fasta나 fastq정보를 추출해서 파일로 만들어 줍니다.
근데 nanopore보시다 보면 1D다 2D다 이상한 얘기를 하는것을 볼 수 있습니다.
1D, 2D는 sequence type입니다. 쉽게 얘기해서 1D는 한번 읽고 2D는 두번 읽은거

그래서 2D가 먼데?  요기

그러면 2D 서열은 어떻게 추출하는건가?

다음과 같이 각 type에 따라 저장 할 수 있습니다.
poretools {fasta|fastq} --type {all|fwd|rev|2D|fwd,rev|best} /path/to/reads/pass/ > reads.{fa|fq}