화요일, 3월 14, 2017

poretools 사용법

poretools doc사이트

poretools git url

Oxford Nanopore 데이터 핸들링을 위한 tools중 하나로
현재 다양한 nano로 시작하는 tools들이 있긴 하지만
우선 이 tools을 먼저 살펴보았습니다.

이유는 간단합니다. 제가 사용하고 있으니 작업 로그 삼아 글쓰는거죠 ㅎㅎ

설치는 간단합니다.
먼저 poretools에 필요한 hdf5, numpy, cython 라이브러리들을 설치해 주시고
다음과 같이 샤샤샥

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install
물론 이렇게 해서 한큐에 되는 경우는 그렇게 많지는 않죠..
물론 위는 root권한이 있어야 가능하고요
저같은 일반 유저들은 다음과 같이 해야겟죠(물론 이런 저런 라이브러리는 알아서 잘 설치를...)

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install --home=/path/to/install 
그럼 일단 큰 문제 없이 설치는 될 겁니다.

poretools는 nanopore read 추출/통계정도의 작업제외하고는 할 수 있는게...
그래서 여기서는 extract read관련한것만 간단히 적고자 합니다.

nanopore데이터는 hdf5로 PacBio와 format이 유사해서 직접 데이터를 확인 할 수 없습니다.
그래서 fasta파일이나 fastq파일로 추출 작업을 거쳐야 합니다.

다행히 추출 방법은 그리어렵지 않습니다(사실 어려울게 없죠).

poretools {fasta|fastq} /path/to/reads/pass/ > reads.{fa|fq}

이렇게 하면 fast5파일에서 fasta나 fastq정보를 추출해서 파일로 만들어 줍니다.
근데 nanopore보시다 보면 1D다 2D다 이상한 얘기를 하는것을 볼 수 있습니다.
1D, 2D는 sequence type입니다. 쉽게 얘기해서 1D는 한번 읽고 2D는 두번 읽은거

그래서 2D가 먼데?  요기

그러면 2D 서열은 어떻게 추출하는건가?

다음과 같이 각 type에 따라 저장 할 수 있습니다.
poretools {fasta|fastq} --type {all|fwd|rev|2D|fwd,rev|best} /path/to/reads/pass/ > reads.{fa|fq}

수요일, 3월 08, 2017

PacBio Sequel System


Sequel에 대한 자세한 내용은 Here 를 보시면 더 자세히
알수 있을 것이고...

2017년 3월 8일 기준 어제인 3월 7일 K호텔에서 PacBio 워크샵이 있었는데
Sequel 출시 이후 다양한 업그레이들이 진행되고 있었네요..

그리고 국내에 Sequel이 3?대인지는 모르겠으나 3개의 site에는 들어와서
데이터가 생산되고 있다능..

여튼 기존에 150만개 hole에서 생산되던걸 1천만개 hole에서 생산해서
생산량이 좀 되서 multiplexing이 된다는게 엄청나진 않지만 나름 진일보..

RSII는 생산량이 적은 관계로 multiplexing의 필요와 이유도 없었는데
Sequel은 RSII 6-7Cell을 한번에 돌리는거니깐 multiplexing이 필요해진듯
근데 multiplexing에 이용되는 barcode가 384개라는게 (Barcode 관련 웹페이지) ㅋ
모 종류가 384개지 이걸 꼭 다 써야하는건 아니니... 혹시 몰라서 여분의 barcode를... (여분이 좀 많은게.. ㅎㅎ)

저는 휴알못인 관계로 Non にんげん 기준으로 Sequel 장점은 3가지정도..

- de novo Bacteria는 Sequel에 5개 pooling해서 시퀀싱해도 나름 괜찮은 결과가 나올듯  물론 RSII 1 Cell과 Sequel 1 Cell과 가격을 비교해봐야겠지만..

- 곰팡이는 1 Cell만 돌려도 de novo하기에 충분한 output이 나오게된 상황 (대신 라이브러리를 2-3개 만들어서 pooling해서 sequencing). 가격을 봐야겠지만 곰팡이 community는 충분한 매리트가 생긴듯...

- Iso-seq은 RSII는 최소 3개 cell 가지고 시퀀싱써야했는데 이제 multiplexing되니깐 3종류 만들어서 Sequel 1 Cell에 넣어버리면 OK 된듯.. 3반복하려면 단지 3개 셀!! (이라고 쓰고 라이브러리는 3개 아닙니다 고갱님 ㅋ)

여튼 NovaSeq과 MinION이 계속 PacBio의 똥꾸멍을 찔러대고
투자자는 돈 회수하고 있어도 기술적으로 봤을때는
아직까지는 쓸만한...

그리고 현 시점에서 대한민국에 국한되어있지만
PacBio 인기가 시들하다고 할 수 있을까...
PacBio 시퀀싱 의뢰하면 지금이 3월 8일인데 4월 중순이후에야 raw data를 받을 수 있는 현실!!!

대규모 과제에서 PacBio sequencing 요청이나
누군가 휴먼급 genome을 RSII Only로 de novo을 하거나...
아님 둘 모두...

아놔 좀 큰놈들은 Sequel 쓰라고 Sequel 만들었는데 왜 RSII 쓰냐고 ㅋ


수요일, 2월 15, 2017

Oxford Nanopore 쉽게 이해하기


이제 옥스포드 나노포어가 나온지 좀 됐죠?

롱롱롱 read도 시퀀싱(아직 accuracy문제는 있긴 하지만..) 하고
시퀀싱 후에 듣보잡 서버에서만 쿵짝쿵짝했어야
수십기가 txt파일 받았었는데
이녀석은 내 데스크탑에서 usb꼽으면 빨강파랑초록 왔다갔다거리고
그래프도 막 나오고 조만간에는 아이퐁에서도
시퀀싱을 해볼 수 있다는 찌라시도 가끔나오다가 업자들의 입에서도 심심치 않게 나오고..

그리고 이거 돌아가는 꼬라지를 보니 그냥 시덥지 않은 우스개 소리가 아니라
이제 곧 현실이 될 것 같기도 한데 그림은 봐도 잘 모르겠고..

그래서 옥스포드 나노포어를 조금 쉽게 이해해보는 글을 하나 투척합니다.
이게 real은 아닙니다. 이해를 쉽게 돕고자 제가 이해한 바를 풀어 해친겁니다.




http://blogs.nature.com/naturejobs/2017/10/16/techblog-the-nanopore-toolbox/


최근 NGS시대를 맞이하면서 일루미나가 한번런에 몇샘플 할 수 있다 생산량이 500G다. 시퀀싱기계를 10EA 묶음 판매한다. 몇일이면 몇백명 exome 시퀀싱을 해서 이제 시퀀싱 단가 10만원이 실현됐다, 팩은 10kbp read 시퀀싱한다 많이들 떠들고 있습니다.

일단 현재 전세계에서 범용적으로 운영되고 있는 시퀀싱플랫폼은 대게 3개정도 입니다.
일루미나/PacBio/PGM 이 3대 시퀀싱 플랫폼이 모두 엄밀히 말하면 시퀀싱의 부산물을 가지고 시퀀싱(basecalling)하고 있는 것입니다. 일루미나와 PacBio은 형광, PGM은 H+

근데 가장 핫한 Nanopore의 경우 현존하는 시퀀싱 플랫폼과 달리 직접 서열을 확인하는 기기라고 말씀드릴 수 있습니다.
엄밀히 얘기하자면 직접 들여다 보는건 아니고 전기신호로 각 base의 그림자를 확인해서 실체를 알아낸다고 하는게 더 맞을 수 있습니다.


이게 무슨말이냐!!!

옛날 옛적에 8-90년대 국민학교시절때 드래곤볼인가 어떤 게임 카드 뒤에 아래와 같은 글씨

가 적혀 있던 것을  기억하시는분!!! 분명 있으실겁니다.
이것은 숫자인데 특정 카드 집에 카드를 꼽으면 해당 카드의 공격력(?)을 알 수 있게 해놓은 카드 입니다. 쉽게 숫자를 판독할 수 없게 해서 꼭 카드집에 꼽아야 해당 숫자를 확인 할 수 있게... 물론 시간이 흐르면 대충 저 기호만 봐도 공격력(?)을 알 수 있게 학습된다는... ㅋㅋ









쉽게 생각하면 나노포어가 이와 같이 시퀀싱을 해석한다고 보시면됩니다.
원래 숫자(A/C/G/T)가 있으나 우리는 그것을 직접 알 수 없지만 저런 기호(전기적신호)로는 저장을 할 수 있다!



그래서 저 기호를 해독 할 수 있는 카드집에 저 기호를 대보면 원래 숫자를 알 수 있게 되는것이죠



좀 이해가 되시나요?

근데 이 숫자들이 단지 숫자로만 되어있다면 간단한데
숫마뿐만 아니라 영문자도 섞여 있다면 이 카드집으로도 간단할까요?

위의 그림은 숫자와 영문자가 있는 기호라고 합니다.

이것을 지금까지 숫자만 판독하던 카드집에 넣고 확인을 하면 다음과 같습니다.


어랏!! 일단 읽혀지긴 합니다.
그럼 이것을 어떻게 읽으시겠습니까?

A125c947로 읽으실건가요?
AI2Sc947? 아니면 A12Sc947? 이런 문제가 여기서 뿐만아니라
나노포어에서도 생기게 됩니다.

나노포어가 기존 시퀀서들과 다른점이 여기에 있습니다.

기존 시퀀서들의 경우 A/G/C/T에 각각에 형광을 부착하던지
혹은 현재 합성되는 base가 무엇인지 이미 알고 있습니다. 시퀀싱, basecalling을 합니다.
(그럼에도 불구하고 플랫폼의 한계들로 에러가 포함되고 있습니다.)

그러나 나노포어의 경우 사전정보가 없습니다. 그냥 AGCT가닥을 pore에 집어넣어서
전기적 신호의 차이를 읽어서 시퀀싱을 하기때문에 이 전기적 신호에 대한 연습이 필요하게 됩니다.

위에서 나온 두번째와 네번째 기호에 대한 구분을 어떻게 할지 연습이 필요한것 처럼 말입니다.


위의 방법은 두가지가 있습니다.
측정한 자료를 마사지해서 지금써오던 단순한 카드집을 계속 사용한다.
아니면 새로운 카드집으로 변경한다.

첫번때는 정보의 손실과 기존 카드집에서보다 더큰 에러를 발생할 수 잇는것이죠 A라는 정보는 원래 없었으니 A와 비슷한 8로 치환, S자도 어차피 없는 정보니 S를 5로 오독하는것이죠

이러면 안되겠죠
그래서 지금까지 써왔던 단순한 카드집 대신
조금더 세련된 1과 I, 5와 S를 구분 할 수 있는
카드집이 필요한것이죠


나노포어도 계속 기존 정보를 마사지하는것이 아니라 새로운 카드집을 계속 개선해나가고 있다고 생각하시면 될것 같습니다.



조만간 영국에서 Brexit말고 나노포어의 얘기가 건너오길 기대하면서
낚시글은 이만 줄이도록 하겠습니다. :)


(2017년 2월 18일 글 중간 중간 수정 및 첨언을 하였습니다.)
(2021년 1월 1일 이미지를 나노포어 설명과 관련된 이미지를 새로 업로드하였습니다.)


화요일, 2월 14, 2017

A5 pipeline


논문: An Integrated Pipeline for de Novo Assembly of Microbial Genomes

다년간 Non にんげん  denovo aseembly를 하다보니 별별 라이브러리 조합을 만나 봤는데
A5 파이프라인이 이 별별 라이브러리 조합에서 의외로 괜찮은 성능을 보여주는 관계로
다른 좋은 파이프라인이 있지만 라이브러리 조합이 내맘같지 않을때 한번 써보시라고 소개글 하나 투척

A5 (aka Andrew And Aaron's Awesome Assembly pipeline)
>DOWNLOAD<

대게 short read의 경우 SOAPdenovo, ALLPATH-LG 결과에 SSPACE로 스캣폴딩이
일반적인데 이게 내가 직접 라이브러리 디자인을 못할 때 뜬금없는 라이브러리 조합으로
시퀀싱 데이터를 영접할 때에 의외로 성능이 안나오셨을 때가 있으실겁니다.

고갱느님께서 나는 시퀀싱을 했으니 complete sequence를 내놔라.
어차피 complete sequence 안나오는거 앞뒤없이 complete 외친 분 제외하고는 다 압니다. ㅎㅎ
걱정마세요.

너님이 named가 아니라서 못하는것이니 노오오오오오오력을 해라
라는 말만 되풀이 하시니 어쩌겠습니까 일단 해야죠  ㅋㅋ :)

이때 사용할 만한 파이프라인 되겠습니다.

물론 complete 안되는게 이 파이프라인 돌리면 complete가 된다는 건 아닙니다.

그나마 SOAPdenovo/ALLPATH-LG에서 돌리는것보다는 상대적으로
통계치가 우수해집니다. 절대적으로 이 결과가 좋다는 아닙니다.
N50 개수 줄고 Max Length 조금 길어지고.. 모 그정도..
(그리고 언제나 A5 결과가 SOAPdenovo, ALLPATH-LG보다 좋다는것도 아님을 밝힘 ㅋ)

중간에 SGA써서 SGA셋팅이 최적화되어 있다면 문제 없는데 SGA를 위한 셋팅이 안되어 있다면 시간은 좀 오래 걸릴 수 있습니다.

본인의 경우 그냥 돌려놓고 당분간 까먹고 있으면 결과는 나오더라구요.

최근에 하나 돌릴게 있어서
문뜩 생각나서 소소하게 A5 파이프라인 글 올려봅니다.

수요일, 2월 08, 2017

rRNA prediction tools

모 bacteria 업자라면 알고 있었을 법한 얘기하나.

Bacteria annotation tool인 prokka를 몇번 사용하면서
rrna가 예측 안되는 문제가 있어서 pacbio assembly를 의심 한 적이 있었지만
이건 나의 어리석은 생각이었고 그냥 prokka의 rnammer가 바보였다는것.

그래서 틈틈이 찾다가
ppap와 얼핏 비슷해 보이는 barrnap를 득템


https://github.com/tseemann/barrnap

일단 한번 써보시라는!!

NCBI의 PGAP 결과와 상당히 유사한것을 확인 할 수 있었다.

결론은 rRNA 예측은 barrnap로
그러나 나는 ncbi PGAP가 좋아요 냠냠 :)

화요일, 1월 31, 2017

게이의 헌혈 제한에 관련해서


지난번 LGBT그룹에서 성적취향(게이)에 따라 장기기증이 제한된다는 캐나다에서의 일에 관련하여 얘기를 나누다가 머리로만 알고 있다는 것을 깨달아서 글 한편 끄적..


이런 글을 써보는 것이 처음이라 단어들이 어느 한쪽에게는 거북하게 느껴질 수도 상처가 될수 도 있습니다. 읽어보시고 표현이 부적절하다면 대체표현을 제시해주시면 적극 수정하도록 하겠습니다.


세계적으로 국가에서 헌혈을 할 때 불특정다수와 성관계를 맺는 이들과 gay에게 5년 혹은 1년동안 동성혹은 불특정 다수와 성관계를 하지 않은 자에 한해서 허용해주고 있다고 합니다. 이웃나라 중국은 인권관련해서 별 생각없으니 안봐도 알겠고, 미쿡이나 그위에  단풍국마저도 1년정도의 유예기간을 두고 있는 상황입니다(이와 관련된 정리된 표가 있었는데 찾는데로 추가하도록 하겠습니다.). 그리고 국내에서는 저도 작년 10월쯤 헌혈을 했었는데 문진표를 그닥  주의깊게 안봐서 잘 모르겠지만 문진표에 1년이내 불특정 이성과 남성의 경우 다른 남성과 성접촉을 한 것에 대해 묻는 문항이 있다고 합니다.

이 문진표가 왜 문제가 되는것인가?
슬쩍 봤을 때 문제가 진짜 있는거야?라고 생각하실 수 있습니다.


대한민국에 사시는 분들중에 미쿡에서 건너온 자료를
좋아하시는 분들이 있는 관계로 미쿡의 cdc 자료한번 띄어드립니다.

어떠한 사람들이 새롭게 HIV진단을 받는가!
Pie chart shows the number of new HIV diagnoses in the United States in 2014 by transmission category. New infections=37,600. Injection drug use = 5% (1,700). Male-to-male sexual contact and injection drug use= 3% (1,100). Heterosexual contact=23% (8,600). Male-to-male sexual contact=70% (26,200).



아마 이 그래프 많이 보셨을 겁니다.
이봐 이봐 이래서 gay들은 헌혈 금지해야 한다. 라는 주장에 솔깃 하실겁니다.
이 그래프는 아마도 헌혈 제한에 찬성하는 측에서 옳다구나 사용할만한 그래프라고 생각됩니다.

다음은 위의 그래프와 같은 섹션에 있는 그래프입니다.


https://www.cdc.gov/hiv/images/basics/statistics/statistics-basics-new-infections-by-race-2015.png

그럼 아프리카계 미국인과 백인들 히스패닉/라틴계 미국인들도 헌혈을 하면 안되는 것인가요?

위의 두 그래프는 HIV관련 CDC 통계 페이지중에서
[How dose HIV affect different groups of people?]섹션에 있는 그래프입니다.

이 그래프들은 단지 HIV에 취약한 그룹들에 대해 얘기하고 있고 그것을 정리한 것입니다.

물론 이 그래프를 보고는 gay에 대핸 헌혈 제한 및 장기기증 제한이 합리적으로 보일 수도 있습니다.

근데 합리적이고 논리적이어야 한다면 이런 성적취향이나 인종적 차이가 아니라 행위에 대해서 제약이 있어야 합니다. (인종에 따라 헌혈을 제한하지는 않지요?)

새롭게 HIV감염자가 된 사람중에 MSM이 67%라서 제한하는것은 합리적이고 이성과 관계한 24%는 안전하기 때문에 제제대상이 되지 않는것이 맞는것일까요?

HIV는 대게 성행위에 의해서 퍼지게 됩니다. 항문이든 질이던간에(드물게 구강성교 또는 HIV환자와 주사기나 기타 장비들을 공유했을때 감염이 될 수 있습니다.) 이건 그냥 제가 아는 상식으로 말씀드리는건 아니고 CDC에서 얘기하고 있습니다. (어디서 사이비지식을 팔고 있냐고 항의하실 분은 이 사이트 어딘가를 찾아보시면 제 연락처가 있으니 연락 주시길 바랍니다. :) ) MSM이라서, 아프리카계 미국인이라서 헌혈과 장기기증에서 제한될 이유는 없는것이죠?

위에서 LGBT그룹의 분들과 대화를 나눌 때 제가 간과하고 있었던 부분이 헌혈시 전수조사로 검사를 하냐 안하냐였습니다.
만약 혈액원에서 전수조사를 하지 않고 문진에 근거해서 선택별 검사를 한다면 저 문진표는 중요할 수 있습니다. 근데 국가 보건과 관련되고 중요한 것인데 이런 문진표에 허위로 기재했다고 법적 처벌 받는 것을 보신적이 있으신지요? 그리고 적십자 홈페이지를 보니 헌혈된 모든 혈액에 대해서 HIV도 전수조사하고 있었습니다. (다만 개별적으로 통보해주는 내역에는 포함되어 있지 않다고 하네요. HIV 검사 목적으로 헌혈을 하는 것을 방지하기 위해서)

이런 상황인데 저 문진표가 소용이 있을까하는 그리고 특정 그룹에 대한 헌혈 제한이 필요한 것인가 라는 궁금증이 드는것이 이상한것이고 이런 생각이 국민 보건에 크게 위협이 되는건지..

HIV 무섭습니다. HIV의 경우 잠복기라는 것이 길어 조기에 잘 확인이 안되는 문제도 있습니다. 그러나 현재 기술로 11일 즉 감염이 됐다면 넉넉히 2주 지나면 확인이 가능합니다.
만약 HIV가 진짜 걱정돼서 문진표에 질문을 꼭 넣고 싶다면 지금의 질문 대신에
"2주안에 안전하지 않은 성관계를 했습니까?"라는 질문으로 혹은 다른 질문으로 대체하는 것이 그렇게 국민 보건 정책에 위반되는 것인지 궁금하다능


제가 성소수자들의 인권에 관심이 많아서 쓴 건 아니고, 제가 잘나서 쓴것도 아닙니다.
제가 머리로만 알고 있는 것과 이런 것을 생활에 녹일때 잘못된 두려움과 편견이 얼마나 빠르게 사실과 이성을 흐릴 수 있는지 기억하고자 쓴 글입니다.

SPAdes 3.10 출시

SPAdes 3.10이 출시

SPAdes 경로


scaffolding할때 mate-pair와 long read를 사용하는 알고리듬을 좀 추가하신듯하네요
metagenomic과 isoform 기능을 좀더 향상시켰다는데..

isoform은 잘 모르겠고, metaSPAdes 파이프라인은 조만간 테스트해드리겠음 ㅋ

금요일, 1월 20, 2017

EzBioCloud 16S DB 관련


천종식교수님께서 CEO로 있으신 천랩에서
ezbiocloud를 개편하면서  16S db도 오픈을 해서
다운로드받아 사용할 수 있게 해주신건 이미 알고 계시죠!

다만 그 가운데 taxonomy.txt 파일에 level이 kingdom마다 상이한게 있어서
천랩에 수정요청을 드렸고 수정됐다고 합니다.

분석 자체에는 당근 문제가 없지만
추후에 결과 display할때 예외처리 같은거 해줘야 하는 수고가 있는 관계로
수정을 부탁드렸었습니다.

아마 이제 받으시는 데이터는 level 7인 데이터로 받을 수 있지 않을까 합니다. :)

목요일, 1월 19, 2017

HGAP parameter 비교 결과

우선 PacBio에서 사용되는 용어에 대해서
잘 정리된 문서가 있어 링크 합니다.
>PacBio Term<

작년 말에 PacBio SMRT portal 에서 HGAPv2와 HGAPv3비교를 해보려고 했는데 해보신분은 아시다싶이 HGAPv2의 **맞은 속도로인해 HGAPv2의 parameter 비교는 skip하고 HGAPv3를 기준으로 parameter마다 bacteria genome이 어떤 변화가 있는지 비교해보았습니다.

-그렇다고 제가 HGAPv3를 사용한다는것은 아니라는 점! ;)

HGAPv3은 기존의 다른 de novo assembly 프로그램과 유사하게 Filtering/ Assembly/ Mapping/ Consensus 단계를 거쳐 진행합니다.
대게 de novo assembly 메뉴얼 작업을 하신 분들의 경우 filtering/trimming하고 assembly 무한 반복? 하고 mapping해서 insert size대로 mapping이 되는지 확인을 해보셨을 겁니다. ㅎㅎ
근데 PacBio Portal에서 스스로 잘 해줍니다. @.@

다음은 step마다 있는 parameter와 값들을 한번 정리 해봤습니다.

StepProtocolParameterValue
FilteringPreAssemblerSFilter.1.xmlMin. Subread Length500
Min. Polymerase Read Quality0.8
Min. Polymerase Read Length100
Control FilteringKeepControlReads.1.xmlNoneNone
AssemblyAssembleUnitig.1.xmlGenome Size5000000
Target Coverage25
Overlapper Error Rate0.06
Overlapper Min Length40
Overlapper K-Mer14
PreAssemblerHGA.3.xmlMin. Seed Read Length6000
Num. of Seed Read Chunks6
Alignment Candidates Per Chunk10
Total Alignment Candidates24
BLASR Options-noSplitSubreads -minReadLength 200 -maxScore -1000 -maxLCPLength 16
Min Coverage For Correction6
MappingBLASR_Resequencing.1.xmlMax. Divergence30
Min. Anchor Size12
ConsensusAssemblyPolishing.1.xmlNoneNone



위의 옵션들 중에서 제가 직접 조정해본 parameter들은 Filtering단계인 Min Subread Length, Min Polymerase Read Quality,  Min Polymerase Read Length, Assembly단계중 AssebleUnitig단계인 Genome Size, Target Coverage, 그리고 같은 Assembly단계인 PreAssemblerHGA단계의 Min. Seed Read Length정도를 고려해봤습니다. 건드린 옵션 이름보시면 매뉴얼 de novo assembly해보신 분들이라면 예상 가능하시리라 봅니다.
-음.. 가끔 이런 거 보다 더 잘 정리해서 논문으로 출판되는 경우가 있긴하지만....

그리고 추가적으로 더 손대면 결과가 좋아질 수 있을만한 옵션들이 있겠지만 시간관계상 (제가 주구장창 이것만 돌릴 수 있는 처지는 아닌지라... 모 여러 조건의 샘플과 무한한 서버를 제공해주신다면 테스트는 해드릴 수 있습니다. ;) )

여튼 결과부터 말씀드리자면 조건 변경(aka 최적화)해서 결과 얻으면 좀더 좋아질거 같죠?
시간낭비하지 마셈 되겠습니다. >_<

너님 나랑 장난하냐? 너 이자식 지금 결과보여주기 귀찮아서(이건 부정 못하겠네요ㅋ) 주작질 하는거지? 하실 수도 있는데 제가 테스트한 기준이 보통 bacteria genome을 진행하는데 사용되는 1 Cell 이라서 그런 탓도 있겠지만 알고있던 정보와 실제 나온결과와 10%이상 차이 안 나면 옵션 암만 최적화 해봤자 그 나물의 그 밥입니다.

그리고 옵션마다 값을 조절하면 그에 따라 그 다음 스텝의 input이 바뀌어 영향을 받지만 한정된 데이터에서 옵션값 조절해서 데이터의 결과가 다이내믹하게 바뀐다면 그건 최적화를 잘한 것이 아니라 시퀀싱데이터가 이상할거라는 느낌적인 느낌이 드시죠?

Filtering단계에서 read길이 올리고, 줄이고, 조금 떨어지는 데이터를 확보한다는 계획으로 read quality를 낮추더라도 어차피 서로 계속 영향을 줘서 default parameter로  생성된 데이터와 큰 차이 안 납니다.

결론: 1 contig 안 나오고 circluar형성 안되는 애들은 parameter 최적화 해봤자 안됩니다. 스트레스 받지말고 추가 시퀀싱하세요. 

샘플 좋고 시퀀싱 잘되면 분석툴이 개 이상하지 않으면 reasonable한 결과 나옵니다. :) 
default 의외로 성능 괜찮습니다. 내가 연구하는 건 나처럼 변태스러운 녀석이야! 하지 않는 이상 default쓰시면 평타는 칩니다. 

ps. 믿거나 말거나 조건 변경하면서 20번정도 테스트 해봤습니다. PacBio에서 제시하는 것 중에 추천하는 Genome Size 옵션이 영향을 많이 줄 수 있습니다. Genome Size를 기준으로 데이터를 정리하기 때문에 그런 것 같습니다. 그리고 Target Coverage는 bacteria의 경우 1 cell만 해도 대중 100x가 나오는데 target coverage (15-30) 조절해봤자 의미 없는 것 같습니다. bacteria말고 다른 종들은 의미가 있을지도...

수요일, 1월 18, 2017

논문 컨설팅 관련한 짧지 않은 글

본 글은 지식펜에 대한 제 페북타임라인에 댓글로 올라온 박원수대표님의 글에 대한
제 생각을 적은 것입니다.

다음 글은 지식펜 박원수대표님께서 올리신 글입니다.
--
안녕하세요?
대학원생들이 스스로 논문주제를 발굴하기 위해서는 연구자와 지도교수님의 관심 분야 논문을 체계적으로 이해하는 능력이 우선되어야 합니다. 그러나 선행연구들이 양적연구와 질적연구들이 혼재되어 있어서 연구방법을 이해하지 않고는 논문을 읽고 자기 것으로 소화하기 어렵습니다.
이로 인해 많은 수의 대학원 수료자들이 '연구분야'만 선정한 뒤 선행논문들을 찾아놓고 읽어 나가지 못하고 있습니다. 학문의 세계로 진입하지 못한채 길잃은 양처럼 어려움을 겪고 있습니다.
이렇게 연구자들이 선행연구들을 이해하기 어려운 이유 중에 하나는 대학원 과정에서 체계적으로 훈련을 받지 못하였기 때문으로 판단합니다. 특히, 직장인들은 시간 부족으로 인하여 더 불리한 조건에 내몰려 있습니다.
직장과 대학원생활을 겸하고 계시는 분들이 제대로 논문작성법을 안다면, 자신의 직장생활을 통해 얻은 좋은 정보나 통찰력을 바탕으로 좋은 논문을 발표할 수 있는 분들이 의외로 많다는 것을 잘 알고 있습니다. 특수대학원의 설립목적은 바로 이런 분들에게 지식생산방법을 교육하여 양질의 논문을 세상에 내놓게 하는 것이라고 믿습니다.
뿐만 아니라 풀타임 대학원생들도 조금만 더 꼼꼼히 가르치고 지도해드리면 보다 좋은 '지식'들이 생산되어 학계에 주목받을만한 주제가 많다는 것을 경험적으로 잘 알고 있습니다.
이런 분들에게 "논문은 스스로 알아서 쓰는 것"이라는 주장은 가혹하기조차 합니다. 시간과 비용을 들였는데도 논문작성에 기초가 안되어 있다는 것은 우리 사회의 슬픈 현실이기도 합니다.
따라서 '대학원=논문작성법교육=지식생산방법교육기관'이라면 현재와 같이 대학원을 수료한 학생들이 지식펜의 과외지도 없어도 논문작성이 가능하여야 합니다.
그러나 현실은 그렇지 않습니다.
서울시내 모 대학원 졸업생들의 평균 8%정도만 겨우 학위를 받는 것으로 파악되고 있습니다. 이런 현상들은 우리 대학원교육시스템이 원활하게 작동하지 않고 있다는 증거이기도 합니다. 지식펜은 이런 우리사회 대학원의 현실을 '비난'하기 보다 '대안모색'을 실천한 결과라고 감히 주장합니다.
한편, 지난 30여년 동안 우리 사회의 인사청문회 때마다 '논문대필'과 '논문표절' 이슈가 끊이지 않았습니다. 그러나 지식펜이 생기기 이전까지 아무도 이 문제에 대한 해법을 내놓지 않았습니다. 석박사를 마치면 우리 사회의 상당한 지도층일진데 '도덕성 시비'에 내몰려 있는 상황에서 어찌 우리사회의 미래가 밝다고 말할 수 있겠습니까?
대학원 교육시스템이 잘 정비되어 대학원교육이 정상화된다면 지식펜은 없어도 될 것이라는 주장이 가능합니다. 저희는 그렇게 되어도 괜찮다고 믿습니다. 그러나 대학의 교수님들은 자기연구, 강의를 통한 지식전파, 후학지도 외에도 우리사회의 'Think tank'로서 수행해야 할 역할이 너무 많습니다. 이런 이유 등으로 대학교수님들은 몸이 두 개라도 감당하기 힘든 일명, '직무소진' 상태에 놓여 있다고 믿습니다.
따라서 논문지도와 같은 업무를 불법적인 대필이나 대행이 아니라 합법적인 방식으로 외부기관에서 도와드린다면 여러가지 측면에서 긍정적이라고 판단하고 설립된 회사입니다. 즉, 연구윤리도 건강해지고, 대학교수님들의 부담을 덜어드려서 궁극적으로 우리 사회가 대학교수님들의 '지식자원'을 보다 긴급하고 중요한 영역에 사용토록 한다면 더 좋을 것이라는 판단입니다.
저희 지식펜은 이런 문제를 해결하기 위해 합법적 논문컨설팅을 시작하지 9년에 접어든 가장 오래된 역사와 규모를 지닌 대표업체입니다. 저희가 내세우는 중요한 장점 중에 하나는 저희와 함께 일하고 있는 '논문지도박사'들입니다. 지식펜의 논문지도박사님들은 지식생산방법인 '연구방법론'을 충분히 이해하고 계시는 분들이며 학술연구에 상당한 실적을 보유한 분들만 선발되고 있습니다. 불행하게도 실력위주의 인재 선발시스템이 부족한 탓에 상당한 실력을 갖추고도 후학 양성의 기회를 얻지 못한 '박사인재'들이 많다는 것에서 잘 알고 있는 저희 지식펜은 이런 분들에게 좋은 기회를 제공하고 있습니다.
논문지도는 고객님들의 인생에 중요한 영향을 미치는 과정입니다. 따라서 박사학위를 가진자라고 해서 아무나 남의 인생의 중차대한 과정을 함부로 다룰 수 없습니다. 다행히 저희 지식펜은 역사만큼이나 오래된 관리시스템과 훌륭한 선발시스템으로 좋은 인력들이 다수 활동하고 있습니다.
저희 지식펜은 단 1문장도 고객의 논문을 대필하지 않습니다. 논문작성의 원리와 체계를 1:1 멘토링 방식으로 한 문장 한 문장을 같이 읽고 고민해주며 그 대안을 제안해주는 합법적 컨설팅 시스템으로 운영되고 있습니다.
지식펜은 큰 꿈이 있습니다.
우선, 대학시스템의 빈 자리를 보완하고 우리사회의 연구윤리를 더욱 건강하게 만들고 있습니다. 더 나아가 보다 양질의 논문이 나오도록 교육함으로서 아직까지 단 1명도 배출하지 못한 노벨과학상 수상자가 나올 수 있도록 정성과 전문성으로 기여하겠습니다. 감사합니다.
지식펜 대표 박원수 배상
--


현재 국내 대학원 시스템이 인류 역사상 현존하는 유일무이하고 가장 선진화된 무결점의 시스템은 아니나 국내에서 당분간은 이 시스템이 굴러갈 것이라고 생각되어 현재 대학과 대학원 시스템이라는 테두리안에서 글을 쓰고자 합니다. 그리고 제가 일반대학원을 다녔던터라 특수대학원의 시스템을 정확히 모르는 관계로 일반대학원을 기준으로 말을 하려고 합니다.

※ 본 글을 쓰기전에 박원수대표님께서 작성하신 글 중에 확인하고 갈 부분들이 있어서 먼저 집고 넘어가고자 합니다. 그리고 나오는 내용은 전적으로 저의 사견이니 오해없으시길 바랍니다.

[연구자들이 선행연구들을 이해하기 어려운 이유 중에 하나는 대학원 과정에서 체계적으로 훈련을 받지 못하였기 때문으로 판단합니다.]
선행연구를 이해하기 어려운 이유는 두가지입니다. 흥미 또는 필요가 없거나 공부를 안했거나입니다. 본인이 필요한 연구임에도 이해하기 어렵다고 정체되어 있다는 것을 대학원 과정에서 체계적으로 훈련받지 못했다고 둘러대는 것은 좀 안타깝다고 생각됩니다. 어려운 연구들이 있을 수는 있습니다. 그렇다고 가만히 있지 않습니다. 스스로 돌파구를 찾아냅니다.


[직장인들은 시간 부족으로 인하여 더 불리한 조건에 내몰려 있습니다.]
대학원을 진학할 때는 모두들 나름의 이유와 목적을 가지고 시작하게 됩니다. 직장인이기에 시간이 부족하지만 그것이 불리한 조건이라고 말하기는 어렵습니다. 대학을 졸업하고 대학원에 진학한 학생들은 최상의 조건에서 생활하고 퇴직하고 대학원에 진학하는 분들께는 불리한 면이 없을까요? 직장인이라는 것으로 시간이 부족하고 불리한 조건이라고 말씀하시는것에는 어폐가 있다고 보여집니다.

[서울시내 모 대학원 졸업생들의 평균 8%정도만 겨우 학위를 받는 것으로 파악되고 있습니다.]
특수대학원의 경우 졸업과 학위가 동일한지 아닌지 모르겠으나 일반대학원의 경우 졸업을 하면 학위를 수여받는것으로 알고 있는데 졸업생들의 극히 일부가 학위를 받는 것에 대한 내용은 확인 부탁드립니다.


-본글-

학위를 마무리하는 작업에는 거무튀튀한 라면 받침에 최적화된 하드커버 논문이지만 그 논문을 작성하기 위해서 소위 삽질들을 무수히 하게됩니다.
이 삽질이 보는이에 따라서 무의미하고 시간낭비라고 볼 수 있지만 그 삽질속에서 시행착오를 거치면서 성장 할 수 있는 기반을 다지고 생각하는 힘을 가지게 된다고 생각합니다.

이런 무의하다고하는 과정을 이미 경험했으며 연구방법과 논문 지도에 특화되고 전문화된 분들께서 컨설팅을 해서 이런 소모성 시간을 단축해주겠노라 그리고 글로벌한 수준의 논문을 작성할 수 있게끔 지도해주겠다라고 '지식펜'이라는 컨설팅 기관이 출현했는데 과연 그 무의미하다고 생각되는 단계와 시간을 단축하는 것이 정말 학위하는 과정에 필요한 것인지 혹은 학위 이후에 연구를 해나가는데 있어서 맞는 것인가 하는 것은 다른 이야기라고 봅니다.

이런 논문/연구 컨설팅업체가 필요없다 필요하다는 제가 말할 위치도 아니고 있어서는 안되는 악으로도 보지 않습니다. 시장이 있는데 사업을 하지 않는 것은 말이 안되죠. 다만 이것이 진짜 업체에서 얘기하는 긍정적인 측면이 더 큰지는 잘 모르겠습니다. (컨설팅 업체가 있음으로써 연구 부정/논문 대필이 줄어드는 효과를 보일 것인지는 잘 모르겠습니다.)
그래서 '지식펜' 광고에 실소가 절로 나왔습니다.

안타깝게 주위에 지식펜에 컨설팅을 받아 본 지인이 없는 관계로 무조건적인 비판과 비난은 적절치 않다고 보지만 학위 논문을 작성하기까지 그간 겪었던 것은 학위를 받는 것에 것에 끝나지 않고 스스로 생각해서 연구를 하기 위한 훈련을 하는 것도 포함된다고 생각해서 지식펜이라는 컨설팅에 부정적인 생각이 큰 것 같습니다.

스스로 연구를 진행함에 있어서 습관은 무섭게 작용할 것 입니다. 학위를 하면서 무엇인가 큰 바위로 인해 길이 막혔을 때 손쉽게 해결해 주는 요술 지팡이를 언제든지 쓸 수 있다고 한다면 요술지팡이만을 의지해서 이것이 왜 문제가 있는지 왜 잘못된 방향인지 장고할 시간을 빼앗긴다면 비록 당장에는 시간을 단축했다, 내 열정을 다른 더 좋은 곳에 사용 할 수 있을 것이라 느껴지겠지만 결국 점점 더 의존하게 되는 악순환이 될 수도 있습니다.

적재적소에 지식펜과 같은 컨설팅을 활용한다면 이상적인 교육 생태계가 만들어질수도 있겠지만 과연 이런 적재적소에 기여해서 선순환적인 결과를 만들어낼지 현재의 교육 시스템을 보면 어렵다고 생각됩니다. (이 부분은 교육 컨설팅업체들만의 문제보다는 교육시스템의 문제긴 합니다.)

지금까지 일반대학원을 기준으로 글을 작성하였는데 특수대학원이 기준이 된다면 지식펜과 같은 컨설팅업체가 필요할수도 있겠다 생각이 들었습니다. 특수대학원의 경우 일반대학원과는 달리로 현장 실무를 익힌 분들을 위한 재교육의 목적이 크기에 현장에서 사용되는 보고서나 제안서등에는 탁월할지 모르나 학문을 위한 논문이라는 양식에 대해서는 어려워 할 수도 있고, 비록 위에서는 제가 직장인이라고 해서 불리한 조건이 아니라는 얘기를 했으나 이는 일반대학원의 경우로, 특수대학원을 기준으로는 좀 달라질 수 있다고 보기에 한편으로는 이들을 위해서라면 컨설팅 업체의 존재가 필요 할 수도 있을것 같았습니다.

그러나 위에서 박원수 대표님께서 언급하신 최근 대두되는 고위공무원들의 학위 논문 문제들에 대해서는 업체측의 무던한 노력이 필요할 것 이라고 생각됩니다.

아래는 최근 학위논문으로 문제가 됐던 분들 중 몇 분의 내용을 확인해 본 것입니다.
#이름 (나이) 문제가된 학위논문/ 논문이 문제가된 시점/ 논문 작성 당시 직위 (순서는 나이순)
최흥집 (1951) 1993년 강원대 경영대학원 석사학위 / 2014년 강원도지사출마 /국제관광박람회조직위원회 총괄기획부 부장
박승주 (1952) 2004년 동국대 행정학대학원 박사학위 / 2016년 안전처장관 내정자 / 확인못했음
서남수 (1952) 1995년 동국대 교육대학원 박사학위 / 2014년 교육부장관 /교육인적자원부 기획관리실 교육정책기획관
윤성규 (1956) 2006년 한양대 산업경영대학원 석사학위/ 2013년 환경부장관 후보자 / 제14대 국립환경과학원 원장
이철성 (1958) 2000년 연세대 행정대학원 석사학휘 / 2016년 경찰청장 내정자/ 공무원
조경규 (1959) 1991년 서울대 행정대학원 석사학위 / 2016년 환경장관 내정자 / 29회 행정고시, 공무원
※위의 분들 중 문제가 없었던 분들이 있다면 알려주시기 바랍니다. 수정하도록 하겠습니다.

사측의 무던한 노력이 필요하다고 말한것은 위에서 언급되는 분들은 현재 장관 내정자및 후보자들이며 학위를 받는 때도 이미 조직위원회 총괄 부장 및 정책기획관, 경찰공무원, 국립환경과학원장등 일정 수준의 직책에 있었던 분들이 다수였습니다. 이는 후에 높은 자리에 나아가기 위한 스펙쌓기로 밖에 보이지않고 이런 사람들과 컨설팅업체가 결탁을 하게된다면 이는 위와 같은 고위공무원이 될 사람들의 학위 논문에 문제가 없도록 세탁해주는 하청업체로 밖에 전락하지 말라는 법이 없기 때문입니다.

일반대학원의 기준으로는 과연 이런 업체가 학위자들에게 결과적으로 득이 될 까라는 생각이 컸고, 특수대학원을 기준으로는 도움이 될 수도 있겠지만 이는 연구부정및 논문 문제들과 같은 문제에 대해서는 학위자들과 컨설팅업체의 도덕성에 맡기는 수밖에 없다고 생각됩니다.


사견으로는 좋은 시선으로 보지 않고 있지만 논문 컨설팅의 그 뜻을 끝까지 잘 지키시고 공사다망하시길 바랍니다.