Thursday, May 04, 2017

윈도우7 설치 후기

5월 첫주 연휴기념으로(비록 연차는 까여서 -2로 시작하지만..ㅋ)
간만에 PC의 윈도우 재설치

Vostro 460, 2010년쯔음 구매한 물건으로
SSD와 하드만 계속 업그레드하면서 사용한 녀석인데
이번에 재설치하고나서 계속 프리징현상이 발생해서
최근에 구매한 3T 하드때문인지 해당 하드 빼고 설치.
SSD에 윈도우 설치하고 윈도우 업데이트하는데도
불구하고 프리징 현상이 살짝 보임.
sleep mode에서 깨어날때와, 윈도우 업데이트 할때 빈번..

윈도우내의 모너터링툴로 하드 사용향 확인하는데 활성화 시간이 100%찍을때 가끔
프리징 현상이 나타나는데 그게 윈도우 업데이트 작업 할때 간간이...

결국 SSD만 사용해서 다시 재설치(히루에만 3번 설치했네;;;)하고
절전옵션 고성능/하드 sleep 기능 off 후 윈도우 업데이트하고
Win7에서 윈도우 업데이트할때 무한 루프에 빠지는 문제 발생시 해결하는 hotfix 두개 설치
Step1. Windows6.1-KB3050265-x64.msu
Step2. Windows6.1-KB3102810-x64.msu

그리고나서 하루정도 방치해서 업데이트가 되는지 프리징이 생기는지 확인하고
오늘 이것저것 설치해서 정상복귀...

초기와 설치된 프로그램 차이라고 한다면
백신을 알약과 Avast 두개를 설치했다가 지금은 avast하나만 설치했다는 점이
차이라면 차이...

1. SSD와 Win7과의 드라이버 호환 문제
(Win7 SP1에 이미 해당 hotfix는 적용되서 가능성 적음)

2. 서로다른 백신의 사용 문제
- 지금까지 알약과 avast를 동시에 사용하고 있었는데.. 왜 지금 문제를...

3. 윈도우 업데이트관련 문제
- 가능성이 높아 보이긴 한데 SSD에서는 프리징만 빈번했지 다운까지는 안됐는데
HDD와 함께 있을경우 프리징이 일어나다가 다운되는게 차이가 좀 있어서 차이가 있는지가 좀 의문...

간만에 윈도우 재설치하느라 연휴의 이틀을 스트레스 만빵 ㅋㅋ

Friday, March 31, 2017

nanonet 사용법


Nanonet Git Hub

Nanopore MinION raw 데이터인 fast5에서 2D read 추출하려고 하는데
nanopore로 검색하면 나오는 poretools, nanopolish, nanook들을 사용했음에도
어느하나 2D 서열을 추출 못하고 있어서 전전긍긍하고 있을때

혜식처럼 나타나는 그분이 알려주신 바로 그 tool!!

nanonet되시겠습니다.

우선 CPU기반으로 사용하였습니다. nanonet은 GPU도 지원하고 있는데
GPU로 하였을때 CPU기반으로 돌렸을 때 확인되던 2D가 나오지 않았다능..

일단 어쩔수 없지만 cpu기반으로 수행

fastq로 저장을 해보자!
$nanonet2d --fastq --jobs 8 --chemistry r9.4 pass output.r94

fasta로 저장을 해보자!
$nanonet2d --jobs 8 --chemistry r9.4 pass output.r94

다른 tools들과 다른 점은 chemistry버전을 선택할 수 있는 것과 무엇인지 모르겠지만 간지나 보이는 trmplate와 complement의 model 선택 옵션
그리고 이를 뒷받침하듯이 nanonettrain명령어도 있고....
poretools같은 일반적인 tools이 안먹힐때는 nanonet도 한번 사용해 보시기 바랍니다. ;)

Tuesday, March 28, 2017

Resolving the Complexity of Human Skin Metagenomes Using Single- Molecule Sequencing


Yu-Chih Tsai et al. mBio 2016; doi:10.1128/mBio.01948-15


동부(Bethesda)와 서부(Pacific Biosciences)의 콜라보 논문
그러나 이참에 Cell 한번 마음대로 써보자 하지 않았다는게 의외의 포인트 (제길.. 놀려줄게 없어 ㅠ.ㅜ)

사람의 피부조직 중 6군데에서 샘플을 채취하는데 보여줄때는 크게 팔 (3군데)과 발 (3군데)를 샘플링을
해서 SMRT와 HiSeq 시퀀싱

- 니네 반복없니? 반복은 너님들이나 신경쓰는 거 Orz

근데 팔쪽 SMRT가 폭망해서 Human 필터링 하니 20M정도 나왔다는거 제외하고는 HiSeq과 발 SMRT는 잘 나와줘서 하단의 멋진 Figure 시전. ㅠ.ㅜ



디스플레이 하나는 이쁘게 잘하네.. ㅠ.ㅜ
간단히 얘기해서 HiSeq으로는 못잡는거 있다(물론 그 반대도 있다는게 함정이지만..).
그래서 HiSeq이 위대하긴 했는데 SMRT로도 HiSeq하는거 확인 할 수 있고 어떤 부분에서는 더 정확하게 표현해 줄 수 있다라는 것을 여지없이 보여주고 있습니다(상단 그림에서 D 파트 되겠습니다).

그리고 이 논문에서 저자가 참고할만한 Figure는 바로 이것!


현재 iHMP의 Assembly SOP의 tools은 SOAPdenovo인데 음.. 이거 봐서는 SPAdes도 나쁘지 않다고 생각되네요..
Long read있다고 어설프게 Hybrid 한다고 깝치지 말고 HiSeq으로 SPAdes 도 나쁘지 않겠네라는 본인 생각 되겠습니다.
대신 속도는 확실히 SOAPdenovo가 빠릅니다.

논문 결론은 당신이 알고 내가 알고 있다 싶이 SMRT 자랑되겠습니다.
근데 문제는 효율이 좋아져서 그냥 자랑질이 아니라는게.. Orz
쓰고 싶은데 돈이 없어.. ㅠ.ㅜ

그래서 우리는 SMRT랑 HiSeq으로 박테리아 말고 바이러스랑 곰팡이도 같이 봤고 덤으로 Corynebacterium simulans라는 균은 closed genome서열도 확보도 할 수 있다능!
물론 TSLR이라는 일루미나라는 기술도 있지만 증폭해야되서 bias가 예상되는데 우리 SMRT는 증폭-Free라서 괜찮음(물론 이건 님들 의견, 물론 나한테는 반박 자료가 없다는게 현실 ㅠ.ㅜㅋ)

Friday, March 24, 2017

Ubuntu에서 시스템 정보 확인


출처: Getting your Dell service tag number from command line in Ubuntu

조립식이던 Vendor PC나 서버를 사용할 때
스펙이 어떻게 되는지 이따금씩 궁금할때가 있다.

그럴때 필요한 명령어 dmidecode!

근데 그냥 dmidecode를 실행시키면 모 그냥 주저리 주저리 내용이 나온다.
그중에 내가 보고 싶은 내용만 추려서 볼 수 없을까?

있다!

dmidecode의 --type와 --string 옵션 근데 type이 무엇인지 어떤 string을 넣어야 하는지 모르지 않은가!!

다행히 다음과 같이 실행시키면 검색 가능한 keyword들을 확인 할 수 있다.

$dmidecode --type
type으로 검색 가능한 문자열들을 확인 할 수 있다.

$dmidecode --string
string으로 검색 가능한 문자열들을 확인 할 수 있다.

본인의 예로 DELL서버의 Service Tag를 확인하고 싶은데
맨날 랙을 열고 봐야하는 수고로움이 여간 귀찮은게 아니다.

검은 창을 보고 다음과 같이 주문을 외워보자.

$sudo dmidecode -s system-serial-number

Tuesday, March 21, 2017

Human Microbiome Project 2

Whole Metagenome 관련 작업하느라
우리 선두주자이신 미쿡언니옵빠들은 무엇을 쓰나
염탐하고 있는데

우리 미쿡 언니옵빠들 phase마다 사이트만드는 통에
다른곳에서 삽질은 했나 싶었는데...
다행히.... 업데이트내용이 없어서 삽질은 아니었던듯..


Human Microbiome Project 1

Human Microbiome Project 2


음... 근데 왜 phase 1하고 2를 다시 만드셨는지..
주관 기관이 변경된건가??

여튼 다행인지 얘네들이 업데이트를 안한건지 SOP는 크게 안바뀐듯....

불행 중 다행인건지...
아니면 얘네도 정신이 없는건지..



Tuesday, March 14, 2017

poretools 사용법

poretools doc사이트

poretools git url

Oxford Nanopore 데이터 핸들링을 위한 tools중 하나로
현재 다양한 nano로 시작하는 tools들이 있긴 하지만
우선 이 tools을 먼저 살펴보았습니다.

이유는 간단합니다. 제가 사용하고 있으니 작업 로그 삼아 글쓰는거죠 ㅎㅎ

설치는 간단합니다.
먼저 poretools에 필요한 hdf5, numpy, cython 라이브러리들을 설치해 주시고
다음과 같이 샤샤샥

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install
물론 이렇게 해서 한큐에 되는 경우는 그렇게 많지는 않죠..
물론 위는 root권한이 있어야 가능하고요
저같은 일반 유저들은 다음과 같이 해야겟죠(물론 이런 저런 라이브러리는 알아서 잘 설치를...)

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install --home=/path/to/install 
그럼 일단 큰 문제 없이 설치는 될 겁니다.

poretools는 nanopore read 추출/통계정도의 작업제외하고는 할 수 있는게...
그래서 여기서는 extract read관련한것만 간단히 적고자 합니다.

nanopore데이터는 hdf5로 PacBio와 format이 유사해서 직접 데이터를 확인 할 수 없습니다.
그래서 fasta파일이나 fastq파일로 추출 작업을 거쳐야 합니다.

다행히 추출 방법은 그리어렵지 않습니다(사실 어려울게 없죠).

poretools {fasta|fastq} /path/to/reads/pass/ > reads.{fa|fq}

이렇게 하면 fast5파일에서 fasta나 fastq정보를 추출해서 파일로 만들어 줍니다.
근데 nanopore보시다 보면 1D다 2D다 이상한 얘기를 하는것을 볼 수 있습니다.
1D, 2D는 sequence type입니다. 쉽게 얘기해서 1D는 한번 읽고 2D는 두번 읽은거

그래서 2D가 먼데?  요기

그러면 2D 서열은 어떻게 추출하는건가?

다음과 같이 각 type에 따라 저장 할 수 있습니다.
poretools {fasta|fastq} --type {all|fwd|rev|2D|fwd,rev|best} /path/to/reads/pass/ > reads.{fa|fq}

Wednesday, March 08, 2017

PacBio Sequel System


Sequel에 대한 자세한 내용은 Here 를 보시면 더 자세히
알수 있을 것이고...

2017년 3월 8일 기준 어제인 3월 7일 K호텔에서 PacBio 워크샵이 있었는데
Sequel 출시 이후 다양한 업그레이들이 진행되고 있었네요..

그리고 국내에 Sequel이 3?대인지는 모르겠으나 3개의 site에는 들어와서
데이터가 생산되고 있다능..

여튼 기존에 150만개 hole에서 생산되던걸 1천만개 hole에서 생산해서
생산량이 좀 되서 multiplexing이 된다는게 엄청나진 않지만 나름 진일보..

RSII는 생산량이 적은 관계로 multiplexing의 필요와 이유도 없었는데
Sequel은 RSII 6-7Cell을 한번에 돌리는거니깐 multiplexing이 필요해진듯
근데 multiplexing에 이용되는 barcode가 384개라는게 (Barcode 관련 웹페이지) ㅋ
모 종류가 384개지 이걸 꼭 다 써야하는건 아니니... 혹시 몰라서 여분의 barcode를... (여분이 좀 많은게.. ㅎㅎ)

저는 휴알못인 관계로 Non にんげん 기준으로 Sequel 장점은 3가지정도..

- de novo Bacteria는 Sequel에 5개 pooling해서 시퀀싱해도 나름 괜찮은 결과가 나올듯  물론 RSII 1 Cell과 Sequel 1 Cell과 가격을 비교해봐야겠지만..

- 곰팡이는 1 Cell만 돌려도 de novo하기에 충분한 output이 나오게된 상황 (대신 라이브러리를 2-3개 만들어서 pooling해서 sequencing). 가격을 봐야겠지만 곰팡이 community는 충분한 매리트가 생긴듯...

- Iso-seq은 RSII는 최소 3개 cell 가지고 시퀀싱써야했는데 이제 multiplexing되니깐 3종류 만들어서 Sequel 1 Cell에 넣어버리면 OK 된듯.. 3반복하려면 단지 3개 셀!! (이라고 쓰고 라이브러리는 3개 아닙니다 고갱님 ㅋ)

여튼 NovaSeq과 MinION이 계속 PacBio의 똥꾸멍을 찔러대고
투자자는 돈 회수하고 있어도 기술적으로 봤을때는
아직까지는 쓸만한...

그리고 현 시점에서 대한민국에 국한되어있지만
PacBio 인기가 시들하다고 할 수 있을까...
PacBio 시퀀싱 의뢰하면 지금이 3월 8일인데 4월 중순이후에야 raw data를 받을 수 있는 현실!!!

대규모 과제에서 PacBio sequencing 요청이나
누군가 휴먼급 genome을 RSII Only로 de novo을 하거나...
아님 둘 모두...

아놔 좀 큰놈들은 Sequel 쓰라고 Sequel 만들었는데 왜 RSII 쓰냐고 ㅋ


Wednesday, February 15, 2017

Oxford Nanopore 쉽게 이해하기


이제 옥스포드 나노포어가 나온지 좀 됐죠?

롱롱롱 read도 시퀀싱(아직 accuracy문제는 있긴 하지만..) 하고
시퀀싱 후에 듣보잡 서버에서만 쿵짝쿵짝했어야
수십기가 txt파일 받았었는데
이녀석은 내 데스크탑에서 usb꼽으면 빨강파랑초록 왔다갔다거리고
그래프도 막 나오고 조만간에는 아이퐁에서도
시퀀싱을 해볼 수 있다는 찌라시도 가끔나오다가 업자들의 입에서도 심심치 않게 나오고..

그리고 이거 돌아가는 꼬라지를 보니 그냥 시덥지 않은 우스개 소리가 아니라
이제 곧 현실이 될 것 같기도 한데 그림은 봐도 잘 모르겠고..

그래서 옥스포드 나노포어를 조금 쉽게 이해해보는 글을 하나 투척합니다.
이게 real은 아닙니다. 이해를 쉽게 돕고자 제가 이해한 바를 풀어 해친겁니다.


Nanopore
http://www2.technologyreview.com/news/427677/nanopore-sequencing/


최근 NGS시대를 맞이하면서 일루미나가 한번런에 몇샘플 할 수 있다 생산량이 500G다. 시퀀싱기계를 10EA 묶음 판매한다. 몇일이면 몇백명 exome 시퀀싱을 해서 이제 시퀀싱 단가 10만원이 실현됐다, 팩은 10kbp read 시퀀싱한다 많이들 떠들고 있습니다.

일단 현재 전세계에서 범용적으로 운영되고 있는 시퀀싱플랫폼은 대게 3개정도 입니다.
일루미나/PacBio/PGM 이 3대 시퀀싱 플랫폼이 모두 엄밀히 말하면 시퀀싱의 부산물을 가지고 시퀀싱(basecalling)하고 있는 것입니다. 일루미나와 PacBio은 형광, PGM은 H+

근데 가장 핫한 Nanopore의 경우 현존하는 시퀀싱 플랫폼과 달리 직접 서열을 확인하는 기기라고 말씀드릴 수 있습니다.
엄밀히 얘기하자면 직접 들여다 보는건 아니고 전기신호로 각 base의 그림자를 확인해서 실체를 알아낸다고 하는게 더 맞을 수 있습니다.


이게 무슨말이냐!!!

옛날 옛적에 8-90년대 국민학교시절때 드래곤볼인가 어떤 게임 카드 뒤에 아래와 같은 글씨

가 적혀 있던 것을  기억하시는분!!! 분명 있으실겁니다.
이것은 숫자인데 특정 카드 집에 카드를 꼽으면 해당 카드의 공격력(?)을 알 수 있게 해놓은 카드 입니다. 쉽게 숫자를 판독할 수 없게 해서 꼭 카드집에 꼽아야 해당 숫자를 확인 할 수 있게... 물론 시간이 흐르면 대충 저 기호만 봐도 공격력(?)을 알 수 있게 학습된다는... ㅋㅋ









쉽게 생각하면 나노포어가 이와 같이 시퀀싱을 해석한다고 보시면됩니다.
원래 숫자(A/C/G/T)가 있으나 우리는 그것을 직접 알 수 없지만 저런 기호(전기적신호)로는 저장을 할 수 있다!



그래서 저 기호를 해독 할 수 있는 카드집에 저 기호를 대보면 원래 숫자를 알 수 있게 되는것이죠



좀 이해가 되시나요?

근데 이 숫자들이 단지 숫자로만 되어있다면 간단한데
숫마뿐만 아니라 영문자도 섞여 있다면 이 카드집으로도 간단할까요?

위의 그림은 숫자와 영문자가 있는 기호라고 합니다.

이것을 지금까지 숫자만 판독하던 카드집에 넣고 확인을 하면 다음과 같습니다.


어랏!! 일단 읽혀지긴 합니다.
그럼 이것을 어떻게 읽으시겠습니까?

A125c947로 읽으실건가요?
AI2Sc947? 아니면 A12Sc947? 이런 문제가 여기서 뿐만아니라
나노포어에서도 생기게 됩니다.

나노포어가 기존 시퀀서들과 다른점이 여기에 있습니다.

기존 시퀀서들의 경우 A/G/C/T에 각각에 형광을 부착하던지
혹은 현재 합성되는 base가 무엇인지 이미 알고 있습니다. 시퀀싱, basecalling을 합니다.
(그럼에도 불구하고 플랫폼의 한계들로 에러가 포함되고 있습니다.)

그러나 나노포어의 경우 사전정보가 없습니다. 그냥 AGCT가닥을 pore에 집어넣어서
전기적 신호의 차이를 읽어서 시퀀싱을 하기때문에 이 전기적 신호에 대한 연습이 필요하게 됩니다.

위에서 나온 두번째와 네번째 기호에 대한 구분을 어떻게 할지 연습이 필요한것 처럼 말입니다.


위의 방법은 두가지가 있습니다.
측정한 자료를 마사지해서 지금써오던 단순한 카드집을 계속 사용한다.
아니면 새로운 카드집으로 변경한다.

첫번때는 정보의 손실과 기존 카드집에서보다 더큰 에러를 발생할 수 잇는것이죠 A라는 정보는 원래 없었으니 A와 비슷한 8로 치환, S자도 어차피 없는 정보니 S를 5로 오독하는것이죠

이러면 안되겠죠
그래서 지금까지 써왔던 단순한 카드집 대신
조금더 세련된 1과 I, 5와 S를 구분 할 수 있는
카드집이 필요한것이죠


나노포어도 계속 기존 정보를 마사지하는것이 아니라 새로운 카드집을 계속 개선해나가고 있다고 생각하시면 될것 같습니다.



조만간 영국에서 Brexit말고 나노포어의 얘기가 건너오길 기대하면서
낚시글은 이만 줄이도록 하겠습니다. :)


(2017년 2월 18일 글 중간 중간 수정 및 첨언을 하였습니다.)

Tuesday, February 14, 2017

A5 pipeline


논문: An Integrated Pipeline for de Novo Assembly of Microbial Genomes

다년간 Non にんげん  denovo aseembly를 하다보니 별별 라이브러리 조합을 만나 봤는데
A5 파이프라인이 이 별별 라이브러리 조합에서 의외로 괜찮은 성능을 보여주는 관계로
다른 좋은 파이프라인이 있지만 라이브러리 조합이 내맘같지 않을때 한번 써보시라고 소개글 하나 투척

A5 (aka Andrew And Aaron's Awesome Assembly pipeline)
>DOWNLOAD<

대게 short read의 경우 SOAPdenovo, ALLPATH-LG 결과에 SSPACE로 스캣폴딩이
일반적인데 이게 내가 직접 라이브러리 디자인을 못할 때 뜬금없는 라이브러리 조합으로
시퀀싱 데이터를 영접할 때에 의외로 성능이 안나오셨을 때가 있으실겁니다.

고갱느님께서 나는 시퀀싱을 했으니 complete sequence를 내놔라.
어차피 complete sequence 안나오는거 앞뒤없이 complete 외친 분 제외하고는 다 압니다. ㅎㅎ
걱정마세요.

너님이 named가 아니라서 못하는것이니 노오오오오오오력을 해라
라는 말만 되풀이 하시니 어쩌겠습니까 일단 해야죠  ㅋㅋ :)

이때 사용할 만한 파이프라인 되겠습니다.

물론 complete 안되는게 이 파이프라인 돌리면 complete가 된다는 건 아닙니다.

그나마 SOAPdenovo/ALLPATH-LG에서 돌리는것보다는 상대적으로
통계치가 우수해집니다. 절대적으로 이 결과가 좋다는 아닙니다.
N50 개수 줄고 Max Length 조금 길어지고.. 모 그정도..
(그리고 언제나 A5 결과가 SOAPdenovo, ALLPATH-LG보다 좋다는것도 아님을 밝힘 ㅋ)

중간에 SGA써서 SGA셋팅이 최적화되어 있다면 문제 없는데 SGA를 위한 셋팅이 안되어 있다면 시간은 좀 오래 걸릴 수 있습니다.

본인의 경우 그냥 돌려놓고 당분간 까먹고 있으면 결과는 나오더라구요.

최근에 하나 돌릴게 있어서
문뜩 생각나서 소소하게 A5 파이프라인 글 올려봅니다.

Wednesday, February 08, 2017

rRNA prediction tools

모 bacteria 업자라면 알고 있었을 법한 얘기하나.

Bacteria annotation tool인 prokka를 몇번 사용하면서
rrna가 예측 안되는 문제가 있어서 pacbio assembly를 의심 한 적이 있었지만
이건 나의 어리석은 생각이었고 그냥 prokka의 rnammer가 바보였다는것.

그래서 틈틈이 찾다가
ppap와 얼핏 비슷해 보이는 barrnap를 득템


https://github.com/tseemann/barrnap

일단 한번 써보시라는!!

NCBI의 PGAP 결과와 상당히 유사한것을 확인 할 수 있었다.

결론은 rRNA 예측은 barrnap로
그러나 나는 ncbi PGAP가 좋아요 냠냠 :)