월요일, 3월 18, 2024

부동산트렌드 따라해보기 1장

오늘은 자료 수집관련하여 글 하나 투척합니다.

최근 "부동산 트렌드"라는 책을 읽고 있어서 강남3구와 노도강에서 거래되었던 자료들이 진짜 그런지 한번 확인해보고자 자료 수집 작업을 위한 것을 한번 로그삼아 남겨보도록 하겠습니다.

국내 부동산 거래 가격은 국토교통부 실거래가 공개시스템에서 확인하실 수있습니다.

안타깝게 막 영화에서 나오는것 처럼 뚝딱 뚝딱 해서 API로 실시간으로 끌어오고 화면에 촤라락 그래피컬하게 하는것은 기대하시면 창을 끄시면되겠습니다.


우선 실거래가 공개시스템에서 [조건별 자료제공] 이라는 사이트로 들어가셔서 시도별 1년단위로 데이터를 다운 받으시면 되겠습니다. 전 우선 서울시와 경기도 데이터만 다운로드 받았습니다. 전국 데이터는 한 달 기준으로 다운로드 받을 수 있다고하니.. 개인이 필요한 데이터에 맞게 다운로드 받으시면 되겠습니다.

그리고 수월한 작업을 위해 엑셀이 아닌 sqlite3에 실거래가 정보들을 모두 때려박아 넣도록 하겠습니다.

다음 코드가 일단 DB에 다 때려박는 코드 되겠습니다.


import csv
import sqlite3


# SQLite 데이터베이스 파일 경로

sqlite_file_path = "real_estate_transactions.db"


# SQLite 연결 객체 생성

connection = sqlite3.connect(sqlite_file_path)


csv_file_path = "아파트(매매)_실거래가_서울특별시_2022.csv"


num = 0

with open(csv_file_path, newline="") as csvfile:   

    reader = csv.reader(csvfile, delimiter=",")

    # 커서 객체 생성

    cursor = connection.cursor()

    for row in reader:        

        if num < 16:

            pass

        else:

            tmp = list()

            for r in row[1:]:

                tmp.append(r.strip())


            cursor.execute("""INSERT OR IGNORE INTO transactions ("시군구","번지","본번","부번","단지명","전용면적","계약년월","계약일","거래금액","동","층","매수자","매도자","건축년도","도로명","해제사유발생일","거래유형","중개사소재지","등기일자") VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)""", (tmp),)

            connection.commit()            


        num+=1

        

# 연결 닫기

connection.close()


다음 시간에는 sqlite3에 있는 정보를 가지고 끄적끄적하는 시간을 가지지 않을까합니다. 




출처: @ye._.vely618


수요일, 3월 13, 2024

Long-read 시대의 정렬 알고리즘

사실 아직 Long-read 시대라고 하기에는 전세계 적으로 생산되는 시퀀싱 데이터의 비율로 보면 꼬꼬마이긴 하나 그래도 비용이나 지금까지의 축적된 자료 활용이라는 몇몇 점들을 제외하면 짧은 애들시대는 조만간 저물지 않을까 합니다.

물론 짧은 애들 또한 계속 필요는 합니다. 그러나 Long read 이전과는 같지 않을 것이기에 Long read 시대를 준비해서 나쁘지는 않을겁니다.

그래서 "A survey of mapping algorithms in the long-reads era" 라는 논문 하나 준비해봤습니다.

DIO: 10.1186/s13059-023-02972-3

시대가 시대이고 영어 읽기 귀찮으니 구글에게 한번 맡겨보았습니다.


Q: 내 드라이브에서"s13059-023-02972-3.pdf" 파일을 읽고 자세히 한글로 요약해줘

서론:

DNA 염기서열 분석은 생명과학 분야의 핵심 기술이며, 롱리드 시퀀싱 기술의 발전은 이 분야에 큰 변화를 가져왔습니다. 롱리드 기술은 기존의 짧은 리드 시퀀싱 기술에 비해 훨씬 더 긴 염기서열 정보를 얻을 수 있지만, 이에 따라 데이터 분석 과정에서도 새로운 문제들이 발생했습니다. 그 중 하나가 롱리드 데이터를 참고 유전체에 매핑하는 과정입니다. 

본 논문에서는 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 조사 연구 결과를 제시합니다.


1. 롱리드 기술 개요:

롱리드 기술은 10kb 이상의 긴 염기서열 정보를 얻을 수 있는 기술입니다.

롱리드 기술의 장점은 다음과 같습니다.

  • 유전체 구조 변형 (SV) 분석에 유리
  • 단일 분자 haplotyping 가능
  • 염기서열 조립 (assembly) 과정 개선

롱리드 기술의 단점은 다음과 같습니다.

  • 높은 오류율
  • 높은 컴퓨팅 비용


2. 매핑 알고리즘 종류:

롱리드 매핑 알고리즘은 크게 씨앗-확장 (seed-and-extend) 프레임워크와 씨앗-체인 (seed-and-chain) 프레임워크로 나눌 수 있습니다.

씨앗-확장 프레임워크는 짧은 리드 매핑 알고리즘에서 사용되는 기본적인 방법입니다.

씨앗-체인 프레임워크는 롱리드 데이터의 특징을 고려하여 개발된 새로운 방법입니다.


3. 주요 매핑 알고리즘 비교 분석:

본 논문에서는 다음과 같은 주요 매핑 알고리즘을 비교 분석했습니다.

  • Minimap2
  • NGMLR
  • GraphMap
  • LSC
  • BWA-MEM
  • LAST
  • BLASR
  • RapMap
  • SMALT

비교 분석 기준은 다음과 같습니다.

  • 정확도
  • 속도
  • 메모리 사용량
  • 특징


4. 매핑 알고리즘 선택 가이드:

연구 목적에 따라 적절한 매핑 알고리즘을 선택해야 합니다.

정확도가 가장 중요한 경우 Minimap2 또는 NGMLR을 사용하는 것이 좋습니다.

속도가 가장 중요한 경우 LSC 또는 BWA-MEM을 사용하는 것이 좋습니다.

메모리 사용량이 가장 중요한 경우 GraphMap 또는 LAST를 사용하는 것이 좋습니다.


5. 향후 연구 방향:

  • 롱리드 기술 발전에 따라 새로운 매핑 알고리즘 개발
  • 멀티 샘플 데이터 분석을 위한 효율적인 알고리즘 개발
  • 염기서열 변형 (variant) 분석을 위한 정확한 알고리즘 개발


결론:

본 논문은 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 종합적인 개요를 제공합니다. 각 알고리즘의 특징, 장단점, 성능 비교 등을 분석하여 연구 목적에 맞는 최적의 알고리즘 선택에 도움을 줍니다.

오... 비약도 있고 생략도 많지만 (물론 클로드 3에 비해서는 아직 갈길이 멀듯합니다)그래도 pdf파일을 요약해줍니다. 근데.. 추가 정보에 롱리드 시퀀싱 기술의 url이..  신박한 링크를 넣어놨네요;; Orz


출처: @ye._.vely618

목요일, 3월 07, 2024

나노포어용 정렬 프로그램을 비교해보자

오늘은 최근에 논란의 중심에 서 있는 claude3를 사용해보았습니다.

Comparative analysis of alignment tools for application on Nanopore sequencing data

이 논문을 선택한 이유는 claude.ai에서 무료로 해주는 양의 논문이라서 선택하였습니다.

 

Q. 요약해줘

이 논문에서는 나노포어 시퀀싱 데이터에 대한 6가지 다양한 정렬 도구(BLASR, GraphMap, LAST, minimap2, NGMLR 및 BWA MEM)의 성능과 정렬 품질을 실험 데이터셋을 사용하여 비교 분석했습니다. 주요 내용은 다음과 같습니다:

3개의 서로 다른 실험 나노포어 시퀀싱 데이터셋(람다 파지 전장 유전체, 인간 MEFV 유전자 암플리콘, SARS-CoV-2 전장 유전체)을 사용하여 정렬 도구를 비교했습니다.

각 도구의 CPU 시간, 메모리 사용량, 일치율, 불일치율, 오류율 등의 성능 및 품질 지표를 측정하고 비교했습니다.

Minimap2가 모든 데이터셋에서 속도와 메모리 효율성 면에서 가장 우수한 성능을 보였습니다.

BLASR, GraphMap, NGMLR는 상대적으로 느린 속도를 보였고, NGMLR는 높은 메모리 사용량을 보였습니다.

일치율, 불일치율, 오류율 측면에서 LAST를 제외한 도구들이 대체로 유사한 수준의 높은 정렬 품질을 보였습니다.

데이터셋 특성과 알고리즘 접근법에 따라 도구 간 차이가 있었으며, 실험 설계와 추가 분석 과정을 고려하여 적절한 도구를 선택해야 합니다.


Q. 그럼, 나노포어 왜 전용 정렬 도구가 필요합니까?

논문에 따르면 나노포어 시퀀싱 기술의 가장 큰 단점은 다른 시퀀싱 기술에 비해 높은 에러율(error rate)이라고 설명하고 있습니다. 구체적인 문장은 다음과 같습니다:

"So far, the most important disadvantage of this technology is the increased error rate compared to other sequencing technologies."

이처럼 나노포어 시퀀싱 데이터는 기존 단분자 시퀀싱 데이터와는 다른 에러 프로파일을 가지고 있어, 이러한 높은 에러율을 보완하기 위해 전용의 정렬 도구가 필요하다고 설명하고 있습니다.


Q. 좀더 자세히 설명해줘

네, 더 자세히 설명드리겠습니다.

나노포어 시퀀싱은 전기화학적 신호를 읽어 DNA/RNA 서열을 분석하는 새로운 기술입니다. 이 기술의 장점은 긴 읽기(long reads)가 가능하고 빠르며 비용이 저렴하다는 점입니다. 하지만 단점으로 다른 기존 시퀀싱 기술에 비해 상대적으로 높은 에러율을 가지고 있습니다.

이런 높은 에러율은 나노포어 시퀀싱 데이터의 고유한 에러 프로파일에서 비롯됩니다. 삽입(insertion), 삭제(deletion), 치환(substitution) 등의 에러가 많이 발생합니다. 이러한 에러들을 효과적으로 다루지 않으면 후속 데이터 분석 단계에서 오류가 커질 수 있습니다.

따라서 나노포어 시퀀싱 데이터를 정확하게 분석하기 위해서는 이러한 높은 에러율과 특수한 에러 프로파일을 잘 보완할 수 있는 전용 정렬(alignment) 도구가 필요합니다. 기존의 단분자 시퀀싱 데이터 분석용 도구들은 나노포어 데이터의 특성을 제대로 반영하지 못해 정확성이 낮을 수 있기 때문입니다.

요약하면, 나노포어 시퀀싱의 높은 에러율과 특수한 에러 프로파일을 보완하여 정확한 데이터 분석이 가능하도록 최적화된 전용 정렬 도구가 필요한 것입니다.


음.. 일단 무료 요금에서 사용하는 양인 경우 일단 쓸만한데 대부분의 논문 양은 유료버전 사용하시라고 뜰껍니다. :)



출처: @ye._.vely618


월요일, 2월 26, 2024

NGS 검사로 먹고 살 수 있을까?

오늘은 간만에 업계 관련 얘기를 살짝 얘기해보는걸로 하겠습니다.

뉴스를 보게되면 NGS 검사에 대한 진보성과 편의성에 대해서 수시로 들을 수 있을 겁니다. 
거기다 저 같은 경우는 업으로 하고 있으니 당연히 좋다고 얘기하겠죠

근데 진짜 그만큼 사람들은 많이 사용하고 있는가?

그래서 통계를 내봤습니다.

NGS 패널 검사 진료금액과 유전체 회사 별로 NGS 패널 검사로 매출을 일으킨 금액되겠습니다.

대단한 유료 보고서를 구매해야 볼 수 있는 숫자는 아니고요
그냥 클릭질을 많이 하면 확인 할 수 있습니다. :)



이 자료는 HIRA 빅데이터개방포털과 각 회사들의 사업보고서를 뒤적여서 그려본 그래프 입니다. NGS 패널 검사관련된 자료는 HIRA 빅데이터 개방 포털 에서 확보하였고, 선그래프와 우측 축의 금액은 NGS패널의 진료금액 되겠습니다. 이 진료 금액이 환자가 납부한 금액은 아닌거 같고 HIRA 데이터니깐 건강보험청구한 금액이지 않을까 합니다. 그리고 회사들은 좌측 축의 금액을 기준으로 보시면됩니다. 약간 bias가 들어가있는데, 이는 사업보고서를 바탕으로 NGS 패널 검사와 관련된 매출액을 정확하게 구분하기 어려워서 랩지노믹스 같은 경우는 과대 포장되어 있는 경향이 있습니다. 참고해서 봐주시면 좋을것 같습니다.
(아.. 금액은 모두 천원이 단위입니다.)

20년도부터 NGS 패널 검사로 사용되는 금액이 대략 400억정도되고 23년도를 추정하면 대략 600억은 넘겠네요 
그리고 유전체로 밥벌어먹고 사는 회사들을 중심으로 정리해봤는데 랩지노믹스 때문에 다소 과대포장 되어 있기는 하지만 100억대의 매출을 보여주고 있습니다.
근데 NGS 패널 검사의 비용과 각 회사들의 매출금액과 좀 차이가 있어보입니다.
NGS 패널 검사 비용은 소비자가이고, 회사들의 매출금액은 NGS 패널 검사를 하는 곳에서는 원재료가 금액이니 아무래도 좀 차이가 있는게 당연하겠지요.

그래서 제가 조사한 6개 기업이외에도 몇몇 회사들이 더 있을 것으로 생각되나 개인적으로 지금의 그래프와 큰 차이는 없어 보일듯합니다.

이 그래프를 보면 많은 생각이 들긴합니다.

왜 유전체 회사나 검사 회사들이 해외, 특히 미국, CLIA랩 확보에 열을 올리는지 알 수 있고, 그러는 유전체를 업으로 하는 나님은 언제까지 월급 받아가면서 일을 할 수 있을지도 걱정이고..

"주린이가 가장 알고 싶은 최다질문 top 77 2 염승환" 책을 읽은 기념으로 사업보고서도 읽어보고, NGS가 미래가 장비빛인지, 장비및으로 바라보고 싶은건지 돌아보고자 한번 끄적여 봤습니다.

다시 또 이런 저런 흥미롭거나 도움이 될 만한 논문을 들고와보도록 하겠습니다. :)








출처: @ye._.vely618


목요일, 2월 15, 2024

QIIME2의 q2-feature-classifier는 과연 쓸만한가?

QIIME2가 출시된지도... 5년 밖에 안됐군요.  꽤 된줄알았는데..

여튼 오늘은 QIIME2 내부에 있는 classifier에 대한 논문이 있어 gemini에게 한번 읽혀봤습니다.

논문 제목은 "Optimizing taxonomic classification of marker-gene amplicon sequences with QIIME 2’s q2-feature-classifier plugins" 되겠습니다.

DOI: 10.1186/s40168-018-0470-z



연구 목적과 배경

미생물 군집 분석은 다양한 분야에서 사용되는 중요한 기술입니다. 미생물 군집의 구성을 이해하면 질병, 환경, 식품 등의 분야에서 중요한 정보를 얻을 수 있습니다.

마커 유전자 증폭 서열은 미생물 군집 분석에서 널리 사용되는 방법입니다. 이 방법은 미생물의 특정 유전자를 증폭하여 그 유전자의 서열을 분석하는 것입니다.

마커 유전자 증폭 서열의 계통 분류는 미생물 군집 분석의 중요한 단계입니다. 계통 분류를 통해 미생물의 종을 식별할 수 있습니다.

그러나 마커 유전자 증폭 서열의 계통 분류는 몇 가지 어려움이 있습니다. 첫째, 마커 유전자 증폭 서열은 짧기 때문에 계통 분류가 어렵습니다. 둘째, 마커 유전자 증폭 서열에는 오류가 있을 수 있습니다.


연구 방법

이 연구에서는 QIIME 2의 q2-feature-classifier 플러그인을 사용하여 마커 유전자 증폭 서열의 계통 분류를 최적화하는 방법을 연구했습니다.

q2-feature-classifier 플러그인은 다양한 계통 분류 방법을 제공합니다. 이 연구에서는 머신 러닝 기반 방법, 정렬 기반 방법, 그리고 두 가지 방법을 결합한 방법을 평가했습니다.

연구에서는 마커 유전자 증폭 서열을 사용하여 생성한 가상 미생물 군집과 실제 미생물 군집을 사용하여 계통 분류 방법의 성능을 평가했습니다.


결과와 논의

연구 결과, q2-feature-classifier 플러그인은 다른 일반적으로 사용되는 방법보다 더 정확한 계통 분류를 제공하는 것으로 나타났습니다. 특히, 종 수준의 정확도는 90% 이상으로 나타났습니다.

연구진은 계통 분류 방법의 성능을 최적화하기 위해 매개변수 조정을 중요하게 강조했습니다. 또한, 계통 분류 방법의 성능을 평가하기 위한 프레임워크인 tax-credit를 개발했습니다.


결론

이 연구는 q2-feature-classifier 플러그인이 마커 유전자 증폭 서열의 계통 분류를 위한 강력한 도구임을 보여주었습니다. 이 플러그인은 생명공학 전공자가 아닌 분들도 쉽게 사용할 수 있도록 설계되었습니다.


추가적으로 q2-feature-classifier를 사용하는 이유와 다른 classifier와 비교도 한번 요청해보았습니다.

1. 높은 정확도: q2-feature-classifier는 다양한 계통 분류 알고리즘을 제공하며, 이는 다른 일반적으로 사용되는 도구들보다 높은 정확도를 제공하는 것으로 입증되었습니다. 특히, 종 수준(species level)의 정확도는 90% 이상을 달성할 수 있습니다.

2. 사용 편의성: q2-feature-classifier는 QIIME 2 프레임워크에 완벽하게 통합되어 있어 사용하기 매우 편리합니다. 명령줄 인터페이스(command-line interface) 또는 QIIME 2 GUI를 통해 쉽게 사용할 수 있습니다.

3. 다양한 기능: q2-feature-classifier는 다양한 기능을 제공합니다. 

 - 다양한 계통 분류 알고리즘 지원:

    * 정렬 기반(alignment-based) 방법: BLAST, VSEARCH

    * 머신 러닝 기반(machine learning-based) 방법: naive Bayes classifier, support vector machine (SVM), random forest

    * 두 가지 방법을 결합한 하이브리드(hybrid) 방법

 - 분류 결과 시각화:

    * 종류-풍부도 막대 그래프(taxa bar charts)

    * 계통발생학적 나무(phylogenetic trees)

 - 분류 결과 필터링 및 워크플로 통합:

    * 신뢰도(confidence) 기반 필터링

    * 계통 분류 수준(taxonomic level) 기반 필터링

    * 다른 QIIME 2 플러그인과의 통합

4. 활발한 커뮤니티: QIIME 2는 활발한 사용자 커뮤니티를 가지고 있으며, 이는 q2-feature-classifier 사용에 대한 도움과 지원을 제공합니다. 

5. 지속적인 개발: q2-feature-classifier는 지속적으로 개발되고 있으며, 새로운 기능과 개선된 성능을 제공합니다.


- 다른 Classifier와 비교

| Classifier  |              알고리즘              |   장점    |   단점    |
|-------------|-----------------------------------|----------|----------|

|q2-feature-  다양한 알고리즘 지원 (BLAST, VSEARCH,|높은 정확도,|알고리즘   |
|classifier   | naive Bayes classifier, SVM,      |다양한 기능,|선택에 따른|
|             | random forest, 하이브리드)         | 사용 편의성|성능 차이   | 
|Kraken        | k-mer 기반                       | 빠른 속도 |낮은 정확도,|

|              |                                 |          |종 수준 분류|
|              |                                 |         |어려움      |
| Centrifuge   | FM-index 기반                    |빠른 속도 |낮은 정확도,|
|              |                                 |         |종 수준 분류|
|              |                                 |         |어려움      |
| CLARK        | BLAST 기반                      |높은 정확도 |느린 속도   |
--------------┴-------------------------------------------┴----------┘

결론적으로, q2-feature-classifier는 높은 정확도, 다양한 기능, 사용 편의성, 활발한 커뮤니티, 지속적인 개발 등의 장점을 가진 강력하고 다목적적인 플러그인입니다. 마커 유전자 증폭 서열의 계통 분류를 위한 최고의 선택입니다.


그렇다고합니다. :)


출처: @ye._.vely618


화요일, 2월 13, 2024

생명정보를 끄집어 내는 나노포어!!

음.. 21년도에 옥스포드 나노포어에 관련하여 잘 설명한 글이 있었네요

"Beyond sequencing: machine learning algorithms extract biology hidden in Nanopore signal data"

DOI: 10.1016/j.tig.2021.09.001


그래서 당연히 이것도 gemini에게 블로그에 게재할 요약 글 하나 적어달라고 해봤습니다.


제목: 나노포어 시퀀싱, 숨겨진 생명 정보를 끄집어내는 미래 기술

나노포어에 대해 잘 모르는 분들을 위한 블로그 글을 쓰고 싶다고 하셨네요. 좋은 선택이에요! 이 글에서는 나노포어 시퀀싱 기술이 어떻게 작동하고, 어떤 흥미로운 활용 방식이 있는지 알아볼 예정입니다.


나노포어 시퀀싱의 기본 원리

먼저 나노포어 시퀀싱이 무엇인지 알아볼까요? 간단히 말하면 DNA나 RNA를 작은 구멍(나노포어)을 통과시켜 염기 서열 정보를 읽는 기술입니다. DNA/RNA 가닥이 나노포어를 통과하며 발생하는 전류 변화를 분석하여 염기 서열을 추측합니다. 하지만 이 전류 변화 패턴은 복잡하고 해석하기 어렵죠.


머신러닝과 나노포어의 만남

여기서 머신러닝이 중요한 역할을 합니다! 머신러닝 알고리즘은 대量の 나노포어 전류 데이터를 분석하여 이 패턴을 알파벳 코드(A, C, T, G)로 변환하는 방법을 배우게 됩니다. 이를 베이스 콜링(base calling)이라고 합니다. 

초기에는 단순한 통계적 방법과 규칙 기반 알고리즘이 사용되었지만, 최근에는 머신러닝 기반 알고리즘이 주목받고 있습니다. 이 알고리즘은 실험 데이터를 대량 학습하여 전류 패턴과 염기 사이의 복잡한 관계를 파악합니다. 대표적인 알고리즘으로는 히든 마르코프 모델 (Hidden Markov Model, HMM)과 신경망 (Neural Network)이 있습니다.

 - HMM: 각 염기마다 고유한 상태를 가정하고, 전류 패턴의 변화를 통해 상태 이동을 예측합니다. 이를 통해 전체 염기 서열을 추측합니다.

 - 신경망: 복잡한 전류 패턴을 직접 분석하여 염기 예측 확률을 계산합니다. 최근에는 딥러닝 기반의 신경망 모델들이 우수한 성능을 보여주고 있습니다.

이러한 알고리즘은 지속적으로 발전하고 있으며, 베이스 콜링 정확도는 점점 향상되고 있습니다. 하지만 아직 완벽하지 않으며, 특히 동일한 전류 패턴을 유발하는 modified base 구분은 어려움이 있습니다. 연구는 지속적으로 진행되고 있으며, 더 정확하고 신뢰할 수 있는 베이스 콜링 알고리즘 개발이 활발히 이루어지고 있습니다.

또한 베이스 콜링을 통해 염기 서열을 얻었지만, 이것만으로는 충분하지 않습니다. 마치 흩어진 퍼즐 조각처럼 이 염기 서열을 참고 게놈 전체에 위치를 정확하게 매핑해야 합니다. 이 과정을 시퀀스 매핑(sequence mapping)이라고 합니다.

시퀀스 매핑 알고리즘은 크게 두 가지 방법이 있습니다.

 - 참조 게놈 기반 매핑: 이미 알려진 참조 게놈을 사용하여 읽은 염기 서열과 유사한 부분을 찾아 매핑합니다. 빠르고 정확하지만 돌연변이가 있는 경우 정확도가 떨어질 수 있습니다.

 - De novo 매핑: 참조 게놈 없이 읽은 염기 서열 자체를 조합하여 전체 게놈을 재구성합니다. 돌연변이가 있어도 정확하게 매핑할 수 있지만, 계산량이 많고 어렵습니다.

최근에는 이 두 방법을 결합하여 정확도와 속도를 높이는 하이브리드 방식도 사용되고 있습니다. 또한 롱 리드 시퀀싱 기술인 나노포어는 다른 시퀀싱 기술에 비해 더 긴 염기 서열을 읽을 수 있어 매핑 과정의 정확도를 높이는 데 유리합니다. 머신러닝 알고리즘은 이 과정에도 활용되어, 정확한 매핑을 위해 지속적으로 발전하고 있습니다.


나노포어 활용의 무한 가능성

이제 흥미로운 부분, 나노포어를 활용하여 무엇을 할 수 있는지 알아볼까요? 기존 시퀀싱 기술에 비해 장점이 많은 나노포어는 다양한 분야에서 혁신을 가져올 것으로 기대됩니다.

 - DNA 메틸화 분석: DNA에 달린 메틸 그룹은 유전자 발현을 조절합니다. 나노포어는 이 메틸화 정보를 전류 패턴에서 직접 읽을 수 있어 유전자 발현 연구에 유용합니다.

 - 단백질-DNA 상호 작용 분석: DNA와 상호 작용하는 단백질을 나노포어를 통해 직접 확인할 수 있습니다. 이는 질병 유발 기작 연구 등에 활용될 수 있습니다.

 - RNA 구조 분석: RNA는 독특한 구조를 가지고 있으며, 나노포어는 이 구조 정보도 전류 패턴에서 추측할 수 있습니다. 이는 RNA 기능 연구에 중요한 정보를 제공합니다.

이 외에도 나노포어는 미생물 동정, 식물 연구, 개인 맞춤 의료 등 다양한 분야에서 활용 가능성이 높습니다.


결론

나노포어 시퀀싱은 빠르게 발전하는 기술이며, 머신러닝과의 결합은 더욱 강력한 생명 과학 연구 도구로서 활약할 것입니다. 이 글을 통해 나노포어에 대한 기본적인 이해를 얻고, 앞으로의 발전 가능성에 대해 기대를 갖게 되었기를 바랍니다!


참고

* 이 글은 생명공학 분야 기초 지식을 가진 독자를 대상으로 이해하기 쉽게 설명했습니다.

* 논문 원본은 영어이지만, 주요 내용을 한국어로 요약했습니다.

* 더 자세한 정보는 제공된 논문 링크를 참조하세요.

저도 나노포어 기술의 발전을 지켜볼 예정이니, 앞으로 더 흥미로운 소식을 공유하도록 하겠습니다!


응? 왜 니가 나노포어 기술의 발전을 지켜볼 예정이니? ㄴ(°0°)ㄱ 내가 블로그에 작성하는 글이라고 하니 사람이 쓰는 것처럼 소식을 공유하겠다는 멘트도 깨알같이 놓치지 않았네요.   

그럼 다음에도 어딘가에 제가 아직 보지 못한 논문들을 찾아서 AI를 활용하여 글을 또 써보도록 하겠습니다. 물론 AI가 글을 쓰겠지요 :)



출처: @ye._.vely618


일요일, 2월 11, 2024

WGS 데이터를 활용하여 어떤 방법이 환자에게 보다 효과적인지 확인해보자

바다 건너 영국에서 진행하고 있는 WGS를 활용한 암환자들에 대한 치료 기회에 대한 내용에 대한 논문을 한번 bar..아니 gemini에게 물어봤습니다.

논문 제목은 "Insights for precision oncology from the integration of genomic and clinical data of 13,880 tumors from the 100,000 Genomes Cancer Programme"

doi: 10.1038/s41591-023-02682-0

입니다.


이번 프롬프트는 간결하게 "https://www.nature.com/articles/s41591-023-02682-0 이 연구를 하게 된 이유와 연구에 사용된 분석 방법, 그리고 결과에 대한 내용에 대해서 블로그에 게시할 수 있도록 정리해서 작성해줘" 라고 넣어봤습니다.


제목: 암 치료를 위한 개인화된 접근 방식

요약:

암은 전 세계적으로 사망 원인 1위입니다. 암 치료는 종종 화학 요법, 방사선 요법 및 수술을 포함하는 복잡한 과정입니다. 그러나 이러한 치료법은 모든 환자에게 효과적이지 않으며 종종 부작용을 유발할 수 있습니다.

연구 배경:

최근 몇 년 동안 암 치료에 대한 개인화된 접근 방식에 대한 관심이 높아졌습니다. 개인화된 치료는 환자의 특정 유전적 특성에 맞게 조정된 치료법입니다.

연구 방법:

이 연구는 100,000 게놈 프로젝트의 암 프로그램의 데이터를 사용했습니다. 이 프로젝트는 암 환자의 전체 게놈을 시퀀싱하는 것을 목표로 합니다. 연구원들은 33가지 암 유형의 13,880개 종양을 분석했습니다. 그들은 이 데이터를 실제 치료 및 결과 데이터와 연결했습니다.

연구 결과:

연구 결과는 WGS가 많은 암 유형에서 유용한 도구가 될 수 있음을 보여줍니다. WGS는 환자의 치료 반응에 영향을 미칠 수 있는 유전적 변화를 식별하는 데 사용할 수 있습니다. 이 정보는 더 개인화된 암 치료법을 개발하는 데 사용될 수 있습니다.

연구 결론:

이 연구는 WGS가 암 치료를 위한 개인화된 접근 방식을 개발하는 데 중요한 도구가 될 수 있음을 보여줍니다. WGS는 환자의 치료 반응을 예측하고 더 효과적이고 안전한 치료법을 개발하는 데 도움이 될 수 있습니다.

이 연구가 암 치료에 미치는 잠재적 영향:
- WGS는 암 치료의 성공률을 높이고 부작용을 줄이는 데 도움이 될 수 있습니다.
- WGS는 암 환자에게 더 나은 치료 옵션을 제공할 수 있습니다.
- WGS는 암 치료의 비용을 절감하는 데 도움이 될 수 있습니다.

이 연구의 한계:
이 연구는 100,000 게놈 프로젝트의 데이터를 사용했습니다. 이 데이터는 영국과 미국의 환자를 대상으로 합니다. 다른 국가의 환자에게도 WGS가 유용한 도구가 될지는 확실하지 않습니다.
이 연구는 WGS가 암 치료에 미치는 잠재적 영향을 평가했습니다. 그러나 WGS가 실제로 암 치료의 성공률을 높이고 부작용을 줄이는 데 도움이 되는지 여부는 더 많은 연구가 필요합니다.

 

개별 암종별 변이 종류에 따른 설명이 많이 생략되어 있긴하지만, 프롬프트를 잘 작성하면 필요에 맞는 내용을 잘 요약해서 정리해 줄 것으로 생각되고, 결국 깨작깨작 패널대신 걍 WGS를 하고 더불어 methylation, proteomics, RNAseq 등의 정보들도 조합하면 우리가 꿈꾸는 예후 예측이나 더 나은 환자의 치료를 제공할 수 있지 않겠냐고 잘 마무리하고 있는 논문 되겠습니다.

그리고 물론 위에 것을 하려면 아직 돈은 많이 든다. 언젠가 그렇듯이 이 또한 해결 할 수 있는 그 날이 오면 좋겠다. 라고 합니다. 


그럼 설 연휴 잘 마무리하는 걸로 :)




출처: @ye._.vely618


금요일, 1월 19, 2024

그렇다면 일루미나는 문제가 없을까?

이전 포스팅에서는 Ion torrent 데이터에 대해서 알아보았으니 이번에는 일루미나 데이터는 과연 괜찮은지 한번 알아보도록 하겠습니다.
그건 그렇고 이전 포스팅하고 꽤 오랜만에 하네요;;

Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform의 제목으로 amplicon 패널을 사용하여 일루미나 시퀀서의 편향과 에러에 대해서 한번 확인해봤다고 합니다.

DOI: https://doi.org/10.1093/nar/gku1341

이번에도 AI(Bing의 copilot입니다.)의 도움을 한번 받아보았습니다!!!


프롬프트
The following URL is a paper confirming the biases and errors of the Illumina MiSeq sequencer using the Amplicon panel, and the title is "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform."

https://doi.org/10.1093/nar/gku1341

I am planning to organize and post the contents of this paper on my blog. Please summarize the problems that may arise when using the Amplicon method using Illumina MiSeq. It is said that the data used in the paper was 16S rRNA data. If there was an error, please explain how you corrected the error and what method you used. Also, if there is an error in the data, please explain how to efficiently handle it. Please write the draft to be posted on the blog in Korean.



안녕하세요. 오늘은 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문을 소개하고자 합니다. 논문의 제목은 "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform"이고, 다음 URL에서 확인하실 수 있습니다.

https://doi.org/10.1093/nar/gku1341

이 논문에서는 16S rRNA 데이터를 사용하여 앰플리콘 방법을 이용한 시퀀싱의 문제점을 분석하였습니다. 앰플리콘 방법은 특정 DNA 영역을 증폭하여 시퀀싱하는 방법으로, 다양한 생물학적 응용에 사용됩니다. 그러나 이 방법에는 여러 가지 편향과 오류가 발생할 수 있습니다. 예를 들어, 증폭 과정에서 PCR 편향이나 증폭 돌연변이가 발생할 수 있고, 시퀀싱 과정에서는 인덱스 점프나 인덱스 오염, 품질 저하 등의 문제가 있을 수 있습니다.

이러한 편향과 오류는 시퀀싱 결과의 정확도와 신뢰도에 영향을 미칠 수 있으므로, 적절한 보정과 검증이 필요합니다. 이 논문에서는 일루미나 MiSeq 플랫폼을 사용하여 앰플리콘 시퀀싱을 수행한 데이터를 분석하고, 편향과 오류의 원인과 영향을 평가하였습니다. 또한, 편향과 오류를 줄이기 위한 몇 가지 방법을 제안하였습니다.

논문에서 사용한 데이터는 16S rRNA 데이터로, 박테리아의 다양성과 상대적 농도를 파악하기 위해 널리 사용되는 마커 유전자입니다. 16S rRNA 데이터는 앰플리콘 방법으로 쉽게 증폭할 수 있지만, 동시에 여러 가지 편향과 오류에 노출될 수 있습니다. 예를 들어, 16S rRNA 유전자는 다른 박테리아 간에 유사도가 높기 때문에, 인덱스 점프나 인덱스 오염이 발생하면 잘못된 분류가 될 수 있습니다. 또한, 16S rRNA 유전자는 GC 함량이 다양하기 때문에, PCR 편향이나 증폭 돌연변이가 발생하면 잘못된 상대적 농도가 산출될 수 있습니다.

논문에서는 이러한 편향과 오류를 검출하고 보정하기 위해 여러 가지 방법을 사용하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염을 줄이기 위해, 인덱스 디자인을 최적화하고, 인덱스 프라이머를 제거하는 단계를 추가하였습니다. 또한, PCR 편향이나 증폭 돌연변이를 줄이기 위해, PCR 사이클 수를 최소화하고, 증폭 조건을 표준화하였습니다. 그리고, 시퀀싱 품질을 향상시키기 위해, 품질 저하가 발생하는 시퀀싱 끝부분을 잘라내고, 품질 점수를 기준으로 필터링하였습니다.

이렇게 보정된 데이터를 사용하여, 박테리아의 다양성과 상대적 농도를 분석하였습니다. 그 결과, 보정 전과 후의 데이터에서는 박테리아의 종류와 비율에 차이가 있음을 확인하였습니다. 이는 앰플리콘 시퀀싱에 발생하는 편향과 오류가 데이터 해석에 영향을 미칠 수 있음을 보여줍니다. 따라서, 앰플리콘 시퀀싱을 수행할 때는 편향과 오류를 최소화하고, 보정하고, 검증하는 과정이 필수적임을 강조하고자 합니다.

이 논문에서는 편향과 오류를 줄이기 위한 방법 외에도, 발생한 편향과 오류를 해결하기 위한 방법도 제시하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염이 발생한 경우에는, 인덱스 정보를 이용하여 잘못된 분류를 수정하는 방법이 있습니다. 또한, PCR 편향이나 증폭 돌연변이가 발생한 경우에는, GC 보정이나 돌연변이 보정을 수행하는 방법이 있습니다. 이러한 방법들은 데이터의 정확도와 신뢰도를 더욱 높일 수 있습니다.

이상으로, 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문에 대해 소개하였습니다. 앰플리콘 시퀀싱은 매우 유용한 방법이지만, 동시에 주의가 필요한 방법이기도 합니다. 앰플리콘 시퀀싱을 수행하시는 분들께서는 이 논문을 참고하여, 데이터의 정확도와 신뢰도를 높이시기 바랍니다. 감사합니다.


라고 합니다.

좀 같은 말 늘려서 빙빙 돌려막는 느낌이 좀 들긴하지만....
그래도 짧지 않은 글을 작성해주니깐 좋은것 같습니다. :)








일요일, 12월 17, 2023

Ion Torrent 데이터는 어떻게 사용해야 할까?

S5 데이터를 생각보다 많이 만지고 있어서 간만에 S5의 데이터에서 주의해야하는 것들에 대한 논문한번 뒤적거려보았습니다.


2013년도에 나온 "Shining a Light on Dark Sequencing: Characterising Errors in Ion Torrent PGM Data" 으로 Ion Torrent의 PGM에서 발생 할 수 있는 문제들을 훑어본 논문으로 생각되어 읽어보았습니다.

DOI: 10.1371/journal.pcbi.1003031


음... 귀찮으니 일단 Copilot (with Bing Chat)에게 논문을 읽고 블로그용 컨텐트를 작성하는데 어떤 것들을 주의해야하는지에 대해서 작성해 달라고 하였습니다.


PGM이라는 시퀀싱 기계는 Ion Torrent의 제품으로, DNA를 분석하기 위해 반도체 칩을 사용하는 방식입니다. 이 방식은 다른 시퀀싱 기술에 비해 빠르고 저렴하게 데이터를 생성할 수 있는 장점이 있습니다. 하지만, PGM에서 발생할 수 있는 error에 대해서 주의해야 합니다.

PGM에서 생성되는 데이터는 다음과 같은 error를 포함할 수 있습니다.

- **Homopolymer error**: 연속된 동일한 염기가 있는 경우, 정확한 염기 수를 측정하기 어려운 error입니다. 예를 들어, AAAAA라는 염기가 있으면, PGM은 이것을 AAAA나 AAAAAA로 인식할 수 있습니다. 이러한 error는 PGM의 시그널 강도가 염기 수와 선형적으로 증가하지 않기 때문에 발생합니다.

- **GC bias**: GC 함량이 높거나 낮은 영역에서 시퀀싱 효율이 떨어지는 현상입니다. PGM은 GC 함량이 40% 이상인 영역에서 시퀀싱 효율이 감소하고, GC 함량이 60% 이상인 영역에서는 거의 시퀀싱되지 않습니다. 이러한 bias는 PGM의 PCR 과정에서 발생합니다.

- **Over- and under-sampling**: PGM에서는 반도체 칩에 DNA 분자를 고르게 분배하기 어렵습니다. 따라서 일부 영역은 다른 영역보다 많이 또는 적게 시퀀싱될 수 있습니다. 이러한 sampling bias는 PGM의 emulsion PCR 과정에서 발생합니다.


PGM 기계에서 생성되는 데이터를 사용할 때 주의해야 하는 것은 다음과 같습니다.

- **Error rate 확인**: PGM 데이터는 homopolymer error로 인해 다른 시퀀싱 데이터보다 error rate가 높을 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 error rate를 확인하고, 필요한 경우 error correction을 수행해야 합니다.

- **GC bias 보정**: PGM 데이터는 GC bias로 인해 특정 영역의 시퀀싱 깊이가 왜곡될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 GC bias를 보정하거나, GC bias에 민감하지 않은 분석 방법을 사용해야 합니다.

- **Sampling depth 고려**: PGM 데이터는 over- and under-sampling으로 인해 일부 영역의 시퀀싱 깊이가 다른 영역보다 많이 또는 적게 될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 sampling depth를 고려하고, 필요한 경우 rarefaction을 수행해야 합니다.

PGM 기계는 혁신적인 시퀀싱 기술이지만, 그만큼 error와 bias에 주의해야 합니다. 이러한 문제점을 인식하고, 적절한 보정과 분석 방법을 사용한다면, PGM 데이터로부터 유용한 정보를 얻을 수 있을 것입니다.


제법... 괜찮습니다. 

Homopolymer 에러를 비롯해서 GC bias 에 대한 얘기도 해주고, 고르게 시퀀싱이 되지 않으니 read sampling에 대한 얘기도 함께 얘기해주었습니다. 제가 읽었으면 아마 Error rate 내용만 편향적으로 보고 "저거봐라 왜 Ion 쓰냐"라고 말을 줄이지 않았을까 합니다.

물론... 비정상적으로 긴 homopolymer 변이가 있는 종에 대해서는 도전정신을 가지고 Ion 시퀀서를 써봤자 너님만 손해다가 오늘의 한줄 요약 되겠습니다.



출처: ye._.vely618


월요일, 12월 11, 2023

Application of Next Generation Sequencing in Laboratory Medicine

임상검사실? 진단검사의학?에서의 NGS 활용에 대한 논문으로 사실 작년 2022년 LMCE 발표 준비하면서 잠시 훑어본 내용인데 NGS를 임삼검사실에서 어떻게 활용할 수 있을지에 대해서 이런저런 내용들을 얘기하고 있어서 가져와봤습니다.


2021년 1월달에 출판되었고 제목은 Application of Next Generation Sequencing in Laboratory Medicine이고
DOI: 10.3343/alm.2021.41.1.25 입니다. 

NGS는 기존 1세대시퀀싱에 비해 1bp 염기서열 단위의 해상도로 대규모의 정보를 한번에 분석할 수 있는 기술이죠.  그래서 다음과 같이 암 환자, 유전질환 환자 또는 감염병 환자로 부터 얻어진 시료를 시퀀싱하여 

- 암 환자의 경우, 암의 유형과 치료 반응을 예측 할 수 있고,

- 유전 질환 환자의 경우, 염기서열 또는 유전체 구조적인 이상을 확인하여 질환의 원인 확인 할 수 있고,

- 감염병 환자의 경우, 감염균의 종류와 기존 약제에 대해서 내성을 가지고 있는지 여부 등을 알 수 있습니다.

진단이라는 분야에서는 혁신적이거나 혁명적인지는 언급하기 어렵겠지만 염기서열을 해독하는 시퀀싱이라는 분야에서는 NGS는 단연코 혁신 기술이긴 하죠. 그래서 FDA도 NGS 기반의 진단과 함께 처방하는 치료제(동반진단)에 대해서 승인하기도 하고 있죠. 많은 실험실에서 RWD를 기반으로 NGS 테스트를 더 넓게 활용 할 수 있도록 위해 노력하고 있으니 조만간 더 많은 분야에 사용되지 않을까합니다.

2세대 NGS는 단점이라고 한다면 짧은 read 였는데, 긴 길이의 read를 시퀀싱 할 수 있는 3세대 시퀀싱을 더 다양하게 활용할 수 있고, 실험 방법이나 장비가 고가이며 숙련된 연구원들만 가능한데, 이 부분이 해소되면 더 많은 분야에서 활용 할 수 있을 듯 합니다.





출처 : @ye._.vely618