Lee Gir Won: oxford

레이블이 oxford인 게시물을 표시합니다. 모든 게시물 표시

토요일, 4월 13, 2024

ONT, cfDNA 그리고 Methylation

나노포어를 이용해서 cell-free DNA의 메틸레이션 패턴을 분석한 논문이 있어서 한번 가져와봤습니다.

이름하여 "Detecting cell-of-origin and cancer-specific methylation features of cell-free DNA from Nanopore sequencing"

DOI는 10.1186/s13059-022-02710-1 입니다.

일단 당연히 clova-x에게 물어보았고,

이번에는 제목은 어떻게 쓰면 좋을지 한번 물어보았습니다.

제목 답변

해당 연구의 제목은 "Detecting cell-of-origin and cancer-specific methylation features of cell-free DNA from Nanopore sequencing"입니다. 이 제목은 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발한 연구라는 것을 나타내고 있습니다. 이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나이며, 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있습니다.
"세포유리 DNA의 메틸화 패턴을 이용한 암 진단 연구"와 같은 제목을 사용할 수 있습니다. 이 글에서는 연구의 목적과 방법, 결과 등을 소개하고, 세포유리 DNA의 메틸화 패턴이 암 진단에 어떻게 활용될 수 있는 지에 대해 설명할 수 있습니다.

내용 요약

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 방법을 개발하는 것을 목적으로 합니다. 암은 우리 주변에서 매우 흔하게 발생하는 질병 중 하나이며, 암을 조기에 발견하고 치료하는 것은 매우 중요합니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암을 조기에 발견하고 치료하는 데 큰 도움을 줄 수 있습니다.

세포유리 DNA는 혈액 내에 존재하는 DNA 조각으로, 암세포에서 유래한 것일 수 있습니다. 이 연구에서는 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발하였습니다. 이를 위해 Nanopore sequencing 기술을 사용하여 세포유리 DNA의 염기서열을 분석하고, DNA methylation 분석을 수행하였습니다.

연구 결과, 세포유리 DNA의 메틸화 패턴은 암세포에서 유래한 세포유리 DNA와 건강한 세포에서 유래한 세포유리 DNA에서 차이가 있음을 확인하였습니다. 이는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단할 수 있는 가능성을 보여줍니다. 또한, 이 연구는 세포유리 DNA의 메틸화 패턴이 시간에 따라 변화한다는 것을 발견하였습니다. 이는 암의 진행 상황을 모니터링하는 데 유용한 정보를 제공할 수 있습니다.

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 데 새로운 가능성을 제시한 것으로 평가됩니다. 이 연구 결과를 바탕으로, 세포유리 DNA의 메틸화 패턴을 분석하는 기술이 발전하면 암 진단과 치료에 더욱 효과적인 방법이 개발될 것으로 기대됩니다.

이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나입니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있으며, 미래에는 더욱 발전하여 다양한 질병을 진단하고 치료하는 데 활용될 수 있을 것입니다. 또한 미래의 건강과 의료 산업에 큰 영향을 미칠 것이며, 우리의 삶을 더욱 건강하고 안전하게 만들어줄 것입니다.

요약해줘 하니깐, 그래 이 연구는 중요해, 중요하니깐 중요해만 반복적으로 답변하는 느낌은 어쩔 수 없는듯합니다. 디테일 한 연구 내용을 확인하려면 질문을 계속 해서 확인해야 할 듯 합니다.

다시 잠깐 더 살펴보자면 단순히 ONT로 실험한 것이 아니고 기존의 표준실험 방법인 WGBS(Whole Genome Bisulfite Sequencing)와 비교한 데이터로 ONT로 연구해도 cfDNA의 메틸레이션을 확인 할 수 있다라고 주장하고 있는데... 생각해보면 cfDNA는 long read 시퀀서의 대명사인 ONT를 사용할 매력이 반감되기는 하나 native한 methylation을 볼 수 있다는 또 다른 압도적인 장점이 존재하다 보니..

그러나 보통 cfDNA가 150bp 이내의 짧은 것들만 생각하나 di나 tri-nucleosome도 함께 확인 할 수 있기 때문에... di나 tir nucleosome은 300~400bp 이상의 길이가 있기 때문에, 꼭 ONT의 매력이 반감되지는 않을 듯 합니다.

근데 di-, tri-nucleosome이 왜 중요한지는 제가 공부를 아직 안 해서 잘 모르겠습니다.

나중에 공부하게 되면 다시 글을 하나 써보는 걸로 :)

출처: @ye._.vely618

목요일, 3월 07, 2024

나노포어용 정렬 프로그램을 비교해보자

오늘은 최근에 논란의 중심에 서 있는 claude3를 사용해보았습니다.

Comparative analysis of alignment tools for application on Nanopore sequencing data

이 논문을 선택한 이유는 claude.ai에서 무료로 해주는 양의 논문이라서 선택하였습니다.

Q. 요약해줘

이 논문에서는 나노포어 시퀀싱 데이터에 대한 6가지 다양한 정렬 도구(BLASR, GraphMap, LAST, minimap2, NGMLR 및 BWA MEM)의 성능과 정렬 품질을 실험 데이터셋을 사용하여 비교 분석했습니다. 주요 내용은 다음과 같습니다:

3개의 서로 다른 실험 나노포어 시퀀싱 데이터셋(람다 파지 전장 유전체, 인간 MEFV 유전자 암플리콘, SARS-CoV-2 전장 유전체)을 사용하여 정렬 도구를 비교했습니다.

각 도구의 CPU 시간, 메모리 사용량, 일치율, 불일치율, 오류율 등의 성능 및 품질 지표를 측정하고 비교했습니다.

Minimap2가 모든 데이터셋에서 속도와 메모리 효율성 면에서 가장 우수한 성능을 보였습니다.

BLASR, GraphMap, NGMLR는 상대적으로 느린 속도를 보였고, NGMLR는 높은 메모리 사용량을 보였습니다.

일치율, 불일치율, 오류율 측면에서 LAST를 제외한 도구들이 대체로 유사한 수준의 높은 정렬 품질을 보였습니다.

데이터셋 특성과 알고리즘 접근법에 따라 도구 간 차이가 있었으며, 실험 설계와 추가 분석 과정을 고려하여 적절한 도구를 선택해야 합니다.

Q. 그럼, 나노포어 왜 전용 정렬 도구가 필요합니까?

논문에 따르면 나노포어 시퀀싱 기술의 가장 큰 단점은 다른 시퀀싱 기술에 비해 높은 에러율(error rate)이라고 설명하고 있습니다. 구체적인 문장은 다음과 같습니다:

"So far, the most important disadvantage of this technology is the increased error rate compared to other sequencing technologies."

이처럼 나노포어 시퀀싱 데이터는 기존 단분자 시퀀싱 데이터와는 다른 에러 프로파일을 가지고 있어, 이러한 높은 에러율을 보완하기 위해 전용의 정렬 도구가 필요하다고 설명하고 있습니다.

Q. 좀더 자세히 설명해줘

네, 더 자세히 설명드리겠습니다.

나노포어 시퀀싱은 전기화학적 신호를 읽어 DNA/RNA 서열을 분석하는 새로운 기술입니다. 이 기술의 장점은 긴 읽기(long reads)가 가능하고 빠르며 비용이 저렴하다는 점입니다. 하지만 단점으로 다른 기존 시퀀싱 기술에 비해 상대적으로 높은 에러율을 가지고 있습니다.

이런 높은 에러율은 나노포어 시퀀싱 데이터의 고유한 에러 프로파일에서 비롯됩니다. 삽입(insertion), 삭제(deletion), 치환(substitution) 등의 에러가 많이 발생합니다. 이러한 에러들을 효과적으로 다루지 않으면 후속 데이터 분석 단계에서 오류가 커질 수 있습니다.

따라서 나노포어 시퀀싱 데이터를 정확하게 분석하기 위해서는 이러한 높은 에러율과 특수한 에러 프로파일을 잘 보완할 수 있는 전용 정렬(alignment) 도구가 필요합니다. 기존의 단분자 시퀀싱 데이터 분석용 도구들은 나노포어 데이터의 특성을 제대로 반영하지 못해 정확성이 낮을 수 있기 때문입니다.

요약하면, 나노포어 시퀀싱의 높은 에러율과 특수한 에러 프로파일을 보완하여 정확한 데이터 분석이 가능하도록 최적화된 전용 정렬 도구가 필요한 것입니다.

음.. 일단 무료 요금에서 사용하는 양인 경우 일단 쓸만한데 대부분의 논문 양은 유료버전 사용하시라고 뜰껍니다. :)

출처: @ye._.vely618

일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2

Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..

여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)

출처: @ye._.vely618

수요일, 7월 20, 2022

Long Read 조립은 누가누가 잘하나

Piroplasm를 나노포어를 사용하여 genome project를 진행했고 나노포어를 활용한 assembler들에 대한 성능 비교 논문 되겠습니다.

제목은 Systematic Comparison of the Performances of De Novo Genome Assemblers for Oxford Nanopore Technology Reads From Piroplasm

doi는 https://doi.org/10.3389/fcimb.2021.696669

piroplasm이 몬지는 모르겠으나 일단 그렇게 엄청나게 복잡하지는 않은 원생동물이나 사람이나 동물들에게 질병을 일으키는 녀석 되는 것 같습니다. funding중에 동물 전염병 및 인수공통전염병 관련 프로그램이 있는것으로 보아하니...

여튼 중요한건 nanopore로 읽어낸 서열을 사용하여 genome 조립할때 어떤 어떤 조립 프로그램이 제일 좋은지를 검토해본 것이니 OLC (Over-Layout-Consensus)나 전통적인 de-Brujin graph, string graph-based 방법 등등의 NECAT, Canu, wtdbg2, Miniasm, Smartdenovo, Flye, NextDenovo, Shasta와 같이 일반적으로 long-read에 사용하는 assembler들을 비교 테스트 하였다고 합니다.

대신 여기서는 assembly의 정확도와 함께 CPU 사용량, 메모리 사용량, 분석시간 사용방법 등등에 대해서도 함께 평가했다고 합니다. 참 바람직한 태도라고 봅니다. 모든 연구팀들이 그래픽카드 4개꼽히고 6T 메모리의 4U 서버를 가지고있는것은 아니니 말입니다.

실험 방법은 prioplasm free한 양 2마리(??)에게 prioplasm을 감염시켜 잘 배양(??)시킨 다음 Qiagen 사용 prep kit을 가지고 DNA 추출하고 PromethION으로 시퀀싱하였고 데이터 셋트에 따른 assembly 결과 평가를 위해 6가지 생산량 (약 15x, 30x, 50x, 70x, 100x, 120x)의 셋트를 만들었다고 합니다. 그리고 추가적(aka error correction)으로 (일루미나와 특허 소송에서 승리한) MGI로도 시퀀싱을 하였다고 합니다.

여튼 결과적으로

N50과 contig개수(적을수록 좋음)는 생산량과 밀접하고,
분석 시간은 생산량이 많으면 어떤 assembler를 사용하던 길어졌고,
polishing은 안하는것보다 하는것이 좋은것 같고 각 tool의 장단점은 Figure3에 방사형 그래프로 이쁘게 표현하였으니 한번 참고하시면 좋을것 같습니다.

그래서 Miniasm, Flye, wtdbg2는 그닥 좋은 선택지는 아닌것 같고 평균 커버리지가 30x 이상 확보된다면 NECAT, Canu, NextDenovo, Smartdenovo가 더 나은것 같다 정도 되겠습니다.

(사실 위의 tool들을 실행시키려면 평균 30x 이상은 있어야 작동을 합니다. 안그러면 작동안하던지 말도안되는 결과들을 뱉어내곤 합니다.)

그리고 시간이 충분했는지 각 assembler 결과들을 병합/후처리하는 작업을 하여 더 나은 assembly 결과를 보여주는지 테스트 했고 몇몇 조합에서 결과물이 향상된것을 확인했다는데... dramatically 좋은 결과는 보여주지 않은것 같았습니다.

만약 병합/후처리하는 결과가 좋았다면 논문 결과가 single assembler 쓰지말고 ensemble방법을 추천드립니다라고 했었을테니 말이죠..

출처: @candyz_hyojung

화요일, 9월 14, 2021

Long-read sequencing identified a causal structural variant in an exome-negative case and enabled preimplantation genetic diagnosis

아니.. 2018년도에 이런 논문을 블로그에 keep놓고 그냥 놀고 있었다니..

여하튼 눈에 띄어서 한편 사브작 하나 올려봅니다.

역시 일이 많을때 딴짓은 국룰이라는 명제를 증명하듯......

Long-read sequencing identified a causal structural variant in an exome-negative case and enabled preimplantation genetic diagnosis

https://doi.org/10.1186/s41065-018-0069-1

WGS(Whole Genome Sequencing)이 아무리 저렴해졌다고하나 내 genome에 이상이 있는지 진단을 위해서 시퀀싱하는 비용이 억대에서 천만원 정도로 떨어진거지 아직은 WGS가지고 일반인이 무엇을 하기에는.... 물론 Private Premium Platinum Gold Special Society 같은 수식어의 멤버 라면... 할려면 할수는 있겠다만..

여튼 현재 아직까지는 유전체 진단에서 가장 현실적이고 합리적인 방법은 WES이나.. 짧은 read들을 가지고는 structural variant를 탐지하기에는 무리가 좀 있으니 long read로 해야하지 않겠냐라고 얘기하는 2018년도 논문되겠습니다.

해당 논문에서 언급하는 환자는 G6PC 유전자에 돌연변이가 생겨 간비대, 신장비대를 초래하는 recessive inheritance 질환으로 긴 지역에 deletion이 있었으나 WES만으로 진단하였을 때는 확인하지 못했고 nanopore (long read seq)를 사용하여 확인하였을 때에는 정확히 긴 길이의 SV를 확인 할 수 있어다 라는게 주제되겠습니다. 지금까지 short read만으로 시퀀싱하여 진단되지 않거나 오진되는 환자들의 돌연변이를 정확하게 확인 할 수 있는 도구가 임상 진단에서 하나더 생겼고 그로 인해 정확한 진단을 할 수 있게 되었다는 자화자찬의 평을 내면서 논문을 마무리하였습니다.

사례를 통해 short read만으로는 진단에 한계가 있다는것을 확인하였고 long read 방법이 이제 진단에 슬슬 자리 잡아야 하지 않나 싶은 생각이 드는....

(근데 길게 뽑으려면 나노포어 실험이 그렇게 쉽지 않은듯하던데.... )

출처: @ye._.vely618

토요일, 1월 02, 2021

High Heterozygosity genome 어셈블리 할 때 해결사로 자처하고 나온 어셈블러

2021년 첫 포스팅 시작합니다. :)

오늘은 de novo assembly관련된 tools 소개 글입니다.

모델 생물 혹은 그외의 생명체에 대해서 genome을 알고 싶다면...
그냥 절래절래 하거나 아니면 필요하거나 알고 싶은 부분만 클로닝해서 슬쩍 슬쩍 알아내던 시절...

돈없는 연구자들은 손가락이나 빨고 눈물이나 흘리던지 어딘가에 끼어서 연구를 진행했었어야 했으나...

이제는 바야흐로 2021년!! (사실 글의 초안을 작성하고 있었던 때는 2020년 11월;;;)

454 따위 역사속으로 사라지고 킹왕짱 long read인 PacBio와 나노포어가 활발히 사용되는 시대에 살고 있습니다.

(물론 de novo는 454와 일루미나로 이어 붙여야 제맛이지 하는 라떼들도 있지만...)

저는 박테리아에서 PacBio 써본 후 박테리아 연구에서 PacBio 사용하지 않고 일루미나 플랫폼을 사용한다고하면 일루미나 주식을 가지고 있나 생각하게 되었고, 그외에 genome을 de novo작업은 nanopore를 추천하고 있는데 굳이 나노포어를 사용하지 않겠다라고 한다면... 굳이? 라는 궁금증으로 가지게 되었다능.. ㅋㅋ
(당연히 무조건 저걸 써야하는건 아니쥬 ㅎㅎ 연구 목적에 따라 봐야 하는 결과물에 따라 플랫폼을 잘 선택하시면되겠습니다.)

※ 여기서 나노포어 base의 quality는 굳이 논할 이유는 없고 제대로된 데이터 만져보면 나노포어 쓰지 않을 이유가 없으실 겁니다.

이제는 PacBio나 나노포어를 굳이 사용하지 않을 이유가 없는 것이 예전이라면 PacBio나 나노포어를 지원해주는 프로그램이 많지 않아서 좀 꺼려질수 있었지만.. 지금은 반대로 너무 많아셔져서 어떤 tools을 사용해야 하나 할 정도니...

그중에서 어셈블리를 하면서 문제가 되는 부분이 High heterozygous region들이 있는데 (그 와 함께 저세상 텐션을 보여주는 polyploidy;; ) 이런 문제들을 해결에 주겠다는 해결사로 자처하고 나온 tools이 있어서 한번 끄적여 보았습니다.

Purge Haplotigs: allelic contig reassignment for third-gen diploid genome assemblies

물론 이전에도 heterozygous 문제를 해결하는 tools이 없지는 않았습니다.
이전 글에서도 잠시 소개했었던 HaploMerger2 도 있고 저는 잘 몰랐지만 Redundans라는 도구도 있었다고 합니다. 다만 이전에 나온 tools의 단점은 사용자가 수동으로 contig를 재 할당해야한다는 문제가 있다고 합니다.
(음.. 저도 이전에 한두번 HaploMerge2를 사용해었는데;;; 여기서 얘기하는 contig 재할당에 대한 얘기가 정확히 어떤 의미인지는 정확하게 모르겠네요;; 여튼... 좀 단계 단계를 수동으로 작업을 하기는 했었습니다만 여기서 얘기하는 "수동"이 이 얘기가 아닌거 같은데...)

여튼... purge의 분석 pipeline은 다음과 같은 단계들로 진행됩니다.
purge의 분석 Flow chart >Figure1<

음... 확실히 장점으로는 draft로 조립된 genome에서 중복되는 contig들을 제거해서 draft assembly 서열의 크기를 줄여서 실제 genome size에 가깝게 된다는 것 이긴 합니다.

그리고 이 tool을 사용할 시 참고할 점으로는 일루미나 데이터를 가지고 purge를 진행할때는 지양했으면 합니다.
제가 해봤을때에 nanopore-raw 서열가지고는 분석이 가능했는데 일루미나 데이터로 작업하였을 때 purge_haplotigs의 hist 명령어를 사용하여 cov의 input 값이 -l, -m, -h 값을 구하는 작업을 할때 -l, -m, -h 값을 특정 할 수 있는 문제가 좀 있었습니다. 너무 값들이 낮아서 어떤 값을 low, mid, high을 사용할지가 모호하더라구요..

여튼..

de novo 작업을 하시다가 생각보다 genome 크기가 큰 경우 내 genome 중간에 heterozygous한 지역이 있구나 생각하시고 이 tools한번 돌려보시면 좋을것 같습니다. :)

출처: @ye._.vely618

금요일, 3월 31, 2017

nanonet 사용법

Nanonet Git Hub

Nanopore MinION raw 데이터인 fast5에서 2D read 추출하려고 하는데
nanopore로 검색하면 나오는 poretools, nanopolish, nanook들을 사용했음에도
어느하나 2D 서열을 추출 못하고 있어서 전전긍긍하고 있을때

혜식처럼 나타나는 그분이 알려주신 바로 그 tool!!

nanonet되시겠습니다.

우선 CPU기반으로 사용하였습니다. nanonet은 GPU도 지원하고 있는데
GPU로 하였을때 CPU기반으로 돌렸을 때 확인되던 2D가 나오지 않았다능..

일단 어쩔수 없지만 cpu기반으로 수행

fastq로 저장을 해보자!
$nanonet2d --fastq --jobs 8 --chemistry r9.4 pass output.r94

fasta로 저장을 해보자!
$nanonet2d --jobs 8 --chemistry r9.4 pass output.r94

다른 tools들과 다른 점은 chemistry버전을 선택할 수 있는 것과 무엇인지 모르겠지만 간지나 보이는 trmplate와 complement의 model 선택 옵션
그리고 이를 뒷받침하듯이 nanonettrain명령어도 있고....
poretools같은 일반적인 tools이 안먹힐때는 nanonet도 한번 사용해 보시기 바랍니다. ;)

화요일, 3월 14, 2017

poretools 사용법

poretools doc사이트

poretools git url

Oxford Nanopore 데이터 핸들링을 위한 tools중 하나로
현재 다양한 nano로 시작하는 tools들이 있긴 하지만
우선 이 tools을 먼저 살펴보았습니다.

이유는 간단합니다. 제가 사용하고 있으니 작업 로그 삼아 글쓰는거죠 ㅎㅎ

설치는 간단합니다.
먼저 poretools에 필요한 hdf5, numpy, cython 라이브러리들을 설치해 주시고
다음과 같이 샤샤샥

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install

물론 이렇게 해서 한큐에 되는 경우는 그렇게 많지는 않죠..
물론 위는 root권한이 있어야 가능하고요
저같은 일반 유저들은 다음과 같이 해야겟죠(물론 이런 저런 라이브러리는 알아서 잘 설치를...)

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install --home=/path/to/install

그럼 일단 큰 문제 없이 설치는 될 겁니다.

poretools는 nanopore read 추출/통계정도의 작업제외하고는 할 수 있는게...
그래서 여기서는 extract read관련한것만 간단히 적고자 합니다.

nanopore데이터는 hdf5로 PacBio와 format이 유사해서 직접 데이터를 확인 할 수 없습니다.
그래서 fasta파일이나 fastq파일로 추출 작업을 거쳐야 합니다.

다행히 추출 방법은 그리어렵지 않습니다(사실 어려울게 없죠).

poretools {fasta|fastq} /path/to/reads/pass/ > reads.{fa|fq}

이렇게 하면 fast5파일에서 fasta나 fastq정보를 추출해서 파일로 만들어 줍니다.
근데 nanopore보시다 보면 1D다 2D다 이상한 얘기를 하는것을 볼 수 있습니다.
1D, 2D는 sequence type입니다. 쉽게 얘기해서 1D는 한번 읽고 2D는 두번 읽은거

그래서 2D가 먼데? 요기

그러면 2D 서열은 어떻게 추출하는건가?

다음과 같이 각 type에 따라 저장 할 수 있습니다.
poretools {fasta|fastq} --type {all|fwd|rev|2D|fwd,rev|best} /path/to/reads/pass/ > reads.{fa|fq}

수요일, 2월 15, 2017

Oxford Nanopore 쉽게 이해하기

이제 옥스포드 나노포어가 나온지 좀 됐죠?

롱롱롱 read도 시퀀싱(아직 accuracy문제는 있긴 하지만..) 하고
시퀀싱 후에 듣보잡 서버에서만 쿵짝쿵짝했어야
수십기가 txt파일 받았었는데
이녀석은 내 데스크탑에서 usb꼽으면 빨강파랑초록 왔다갔다거리고
그래프도 막 나오고 조만간에는 아이퐁에서도
시퀀싱을 해볼 수 있다는 찌라시도 가끔나오다가 업자들의 입에서도 심심치 않게 나오고..

그리고 이거 돌아가는 꼬라지를 보니 그냥 시덥지 않은 우스개 소리가 아니라
이제 곧 현실이 될 것 같기도 한데 그림은 봐도 잘 모르겠고..

그래서 옥스포드 나노포어를 조금 쉽게 이해해보는 글을 하나 투척합니다.
이게 real은 아닙니다. 이해를 쉽게 돕고자 제가 이해한 바를 풀어 해친겁니다.

출처:http://blogs.nature.com/naturejobs/2017/10/16/techblog-the-nanopore-toolbox/

최근 NGS시대를 맞이하면서 일루미나가 한번런에 몇샘플 할 수 있다 생산량이 500G다. 시퀀싱기계를 10EA 묶음 판매한다. 몇일이면 몇백명 exome 시퀀싱을 해서 이제 시퀀싱 단가 10만원이 실현됐다, 팩은 10kbp read 시퀀싱한다 많이들 떠들고 있습니다.

일단 현재 전세계에서 범용적으로 운영되고 있는 시퀀싱플랫폼은 대게 3개정도 입니다.
일루미나/PacBio/PGM 이 3대 시퀀싱 플랫폼이 모두 엄밀히 말하면 시퀀싱의 부산물을 가지고 시퀀싱(basecalling)하고 있는 것입니다. 일루미나와 PacBio은 형광, PGM은 H+

근데 가장 핫한 Nanopore의 경우 현존하는 시퀀싱 플랫폼과 달리 직접 서열을 확인하는 기기라고 말씀드릴 수 있습니다.
엄밀히 얘기하자면 직접 들여다 보는건 아니고 전기신호로 각 base의 그림자를 확인해서 실체를 알아낸다고 하는게 더 맞을 수 있습니다.

이게 무슨말이냐!!!

옛날 옛적에 8-90년대 국민학교시절때 드래곤볼인가 어떤 게임 카드 뒤에 아래와 같은 글씨

가 적혀 있던 것을 기억하시는분!!! 분명 있으실겁니다.
이것은 숫자인데 특정 카드 집에 카드를 꼽으면 해당 카드의 공격력(?)을 알 수 있게 해놓은 카드 입니다. 쉽게 숫자를 판독할 수 없게 해서 꼭 카드집에 꼽아야 해당 숫자를 확인 할 수 있게... 물론 시간이 흐르면 대충 저 기호만 봐도 공격력(?)을 알 수 있게 학습된다는... ㅋㅋ

쉽게 생각하면 나노포어가 이와 같이 시퀀싱을 해석한다고 보시면됩니다.
원래 숫자(A/C/G/T)가 있으나 우리는 그것을 직접 알 수 없지만 저런 기호(전기적신호)로는 저장을 할 수 있다!

그래서 저 기호를 해독 할 수 있는 카드집에 저 기호를 대보면 원래 숫자를 알 수 있게 되는것이죠

좀 이해가 되시나요?

근데 이 숫자들이 단지 숫자로만 되어있다면 간단한데
숫마뿐만 아니라 영문자도 섞여 있다면 이 카드집으로도 간단할까요?

위의 그림은 숫자와 영문자가 있는 기호라고 합니다.

이것을 지금까지 숫자만 판독하던 카드집에 넣고 확인을 하면 다음과 같습니다.

어랏!! 일단 읽혀지긴 합니다.
그럼 이것을 어떻게 읽으시겠습니까?

A125c947로 읽으실건가요?
AI2Sc947? 아니면 A12Sc947? 이런 문제가 여기서 뿐만아니라
나노포어에서도 생기게 됩니다.

나노포어가 기존 시퀀서들과 다른점이 여기에 있습니다.

기존 시퀀서들의 경우 A/G/C/T에 각각에 형광을 부착하던지
혹은 현재 합성되는 base가 무엇인지 이미 알고 있습니다. 시퀀싱, basecalling을 합니다.
(그럼에도 불구하고 플랫폼의 한계들로 에러가 포함되고 있습니다.)

그러나 나노포어의 경우 사전정보가 없습니다. 그냥 AGCT가닥을 pore에 집어넣어서
전기적 신호의 차이를 읽어서 시퀀싱을 하기때문에 이 전기적 신호에 대한 연습이 필요하게 됩니다.

위에서 나온 두번째와 네번째 기호에 대한 구분을 어떻게 할지 연습이 필요한것 처럼 말입니다.

위의 방법은 두가지가 있습니다.
측정한 자료를 마사지해서 지금써오던 단순한 카드집을 계속 사용한다.
아니면 새로운 카드집으로 변경한다.

첫번때는 정보의 손실과 기존 카드집에서보다 더큰 에러를 발생할 수 잇는것이죠 A라는 정보는 원래 없었으니 A와 비슷한 8로 치환, S자도 어차피 없는 정보니 S를 5로 오독하는것이죠

이러면 안되겠죠
그래서 지금까지 써왔던 단순한 카드집 대신
조금더 세련된 1과 I, 5와 S를 구분 할 수 있는
카드집이 필요한것이죠

나노포어도 계속 기존 정보를 마사지하는것이 아니라 새로운 카드집을 계속 개선해나가고 있다고 생각하시면 될것 같습니다.

조만간 영국에서 Brexit말고 나노포어의 얘기가 건너오길 기대하면서
낚시글은 이만 줄이도록 하겠습니다. :)

(2017년 2월 18일 글 중간 중간 수정 및 첨언을 하였습니다.)

(2021년 1월 1일 이미지를 나노포어 설명과 관련된 이미지를 새로 업로드하였습니다.)

Pages

토요일, 4월 13, 2024

목요일, 3월 07, 2024

일요일, 11월 12, 2023

수요일, 7월 20, 2022

화요일, 9월 14, 2021

토요일, 1월 02, 2021

금요일, 3월 31, 2017

화요일, 3월 14, 2017

수요일, 2월 15, 2017