목요일, 5월 16, 2024

식단과 신체활동이 진짜 메틸레이션에 변화에 효과가 있을까

오늘은 메틸레이션에 관련된 내용을 한번 들고와봤습니다. 제목은 Impact of a diet and activity health promotion intervention on regional patterns of DNA methylation 으로 2019년에 출판된 논문입니다.

DOI: 10.1186/s13148-019-0707-0 입니다.

일루미나의 EPIC 850K 어레이를 이용해서 DNA 메틸화 수준을 확인하였고, Make Better Choices 2 라는 프로그램에 등록된 340명의 사람들 대상으로 식단과 신체활동 전후에 따라 differentially methylated regions (DMR) 즉 메틸화 차이가 보이는 영역들을 확인했다고 합니다.

이 DMR에는 세포주기 조절, 발암 관련된 유전자들이 포함되어있었다고하니!!! 먹는것도 중요한듯합니다

오늘은 clova-x, claude와 chatGPT-3.5에 "파일 내용을 바탕으로 블로그에 게시할 내용의 글을 A4 2장 분량으로 작성해주세요" 라고 요청했습니다. :)


clova-x

이 연구는 건강한 식단과 신체 활동이 DNA methylation에 미치는 영향을 조사했다.

건강한 식단과 신체 활동은 만성 질환의 위험을 감소시키며, DNA methylation과 같은 유전적 메커니즘이 질병의 위험에 영향을 미친다. 신체 활동 중재는 생리적 효과를 포함하며, reduced DNA methylation은 inflammation, oxidative stress, immune function에 영향을 준다.

MBC2 연구는 combined physical activity와 dietary intervention의 영향을 조사한 첫 번째 연구이다. MBC2 다이어트와 신체 활동 중재는 세포 주기 조절과 암 발생에 관련된 유전자 영역의 DNA 메틸레이션 패턴에 영향을 미쳤다. DNA 메틸레이션을 바이오마커로 삼아 건강 행동 변화를 계획에 포함시켜 특정 인구가 혜택을 볼 수 있는지를 미래 연구에서 살펴볼 것이다.

이 연구는 DNA methylation에 대한 선행 연구를 바탕으로 신체 활동과 식이 요소를 포함하고 혈액 샘플에서 methylation을 측정했다. DNA methylation은 유전자 발현을 조절하는 중요한 역할을 하며, 암, 당뇨병, 심혈관 질환 등 다양한 질병과 관련이 있다.

DNA methylation은 세포 분화, 노화, 환경 요인 등 다양한 요인에 의해 영향을 받는다. 이 연구는 건강한 생활습관이 DNA methylation에 미치는 영향을 조사함으로써, 건강한 삶을 유지하기 위한 중요한 정보를 제공한다.

이 연구는 DNA methylation에 대한 이해를 높이고, 건강한 삶을 유지하기 위한 방법을 제시하는 데 큰 도움이 될 것이다. 앞으로 이 연구를 바탕으로 더 많은 연구가 진행되어, 건강한 삶을 위한 더 많은 정보가 제공될 것으로 기대된다.

건강한 삶을 유지하기 위해서는 건강한 식단과 신체 활동이 중요하다. 이 연구는 건강한 삶을 유지하기 위한 방법을 제시하는 데 큰 도움이 될 것이다. 우리는 이 연구를 바탕으로 건강한 삶을 위한 노력을 계속해야 한다.


claude

안녕하세요 독자 여러분,

오늘은 최근 연구 결과를 바탕으로 건강한 생활습관이 우리 몸의 DNA 메틸화에 미치는 영향에 대해 알아보겠습니다. DNA 메틸화는 유전자 발현을 조절하는 주요 후성유전적 메커니즘으로, 우리 몸의 다양한 기능과 질병 위험에 영향을 줄 수 있습니다.

Northwestern 대학의 연구팀은 '더 나은 선택하기 2(Make Better Choices 2, MBC2)' 프로그램에 참여한 성인 68명을 대상으로 식단과 신체활동 개선이 전체 게놈의 DNA 메틸화 패턴에 미치는 영향을 조사했습니다. 이 9개월 무작위 대조 시험에서 연구 참가자들은 과일/야채 섭취 증가, 포화 지방 섭취 감소, 신체활동 증가, 좌식행동 감소 등의 생활습관 개선에 참여했습니다.

연구팀은 Illumina EPIC 850k 배열칩을 사용하여 기저 시점, 3개월 시점, 9개월 시점에서 전체 게놈 메틸화 수준을 측정했습니다. 그 결과 대조군과 중재군 간에 154개(3개월)와 298개(9개월)의 차등적으로 메틸화된 유전체 영역(DMR)이 발견되었습니다.

특히 IRF2, DUSP5P1 등 면역 반응, 종양 억제, 노화 관련 유전자의 메틸화 변화가 관찰되었습니다. 경로 분석에서는 세포부착, PI3K/AKT, Wnt/베타-캐터닌, sonic hedgehog 등 세포 기능과 발암 관련 경로의 메틸화 변화가 확인되었습니다.

이 연구 결과는 건강한 식단과 운동 습관이 DNA 메틸화를 통해 면역, 대사, 발암 등 다양한 생물학적 메커니즘에 영향을 미칠 수 있음을 보여줍니다. 이는 만성 질환 예방을 위한 정밀 의학적 접근에서 DNA 메틸화가 중요한 생체지표로 활용될 수 있음을 시사합니다.

하지만 이 연구는 비교적 작은 샘플 크기를 가지고 있어 일반화에 제한이 있습니다. 또한 백인과 아프리카계 미국인만을 대상으로 했기 때문에 인종별 차이를 고려하지 못했습니다. 추가 연구를 통해 더 큰 샘플과 다양한 인구 집단에서 유사한 결과가 재현되는지 확인할 필요가 있겠습니다.

DNA 메틸화에는 식단과 운동 외에도 나이, 환경오염, 스트레스, 질병 등 다양한 요인들이 영향을 미칩니다. 따라서 건강한 생활 습관과 함께 전반적인 생활 환경 개선을 통해 DNA 메틸화를 포함한 에피지놈을 긍정적으로 조절할 수 있을 것입니다.

오늘 소개한 연구 결과는 우리가 얼마나 건강한 삶을 영위하는지에 따라 DNA 메틸화를 통해 유전자 발현과 질병 위험이 변화할 수 있음을 보여줍니다. 앞으로 건강한 식단과 운동 습관을 실천하고, 전반적인 생활 환경을 개선하는 것이 만성 질환 예방을 위해 중요할 것입니다. 여러분 모두 건강한 하루 되시기 바랍니다.


chatGTP 3.5

타이 치 연습과 DNA 메틸화: 건강에 미치는 영향

최근 연구에 따르면, 우리의 식습관과 생활 방식은 우리의 유전자를 조절하는데 영향을 줄 수 있다고 합니다. 특히, 타이 치와 같은 신체 활동이 DNA 메틸화라는 생물학적 메커니즘을 통해 우리의 유전자 발현에 영향을 줄 수 있다는 것이 최근 연구 결과입니다.

chatGPT는 그만 알아봅니다. Orz


clova-x와 claude는 논문파일을 직접 업로드하였기에 내용을 정확하게 이해하였는데 chatGPT같은 경우 파일업로드 대신 url을 제공하여서 제대로 내용을 인지 못한 것으로 생각됩니다.

claude는 역시 믿고 쓰면 되겠습니다.



출처: @ye._.vely618


화요일, 5월 14, 2024

롱리드냐 숏리드냐 그것이 문제로다! 그냥 둘 다 써!

23년에 효모를 사용해서 여러 플랫폼 데이터의 어셈블리 성능을 테스트한 논문이 있어서 한번 가져와봤습니다.

DOI는 10.26508/lsa.202201744 입니다.

조금 더 복잡한 genome을 사용했으면 좋았을 것 같지만, 그러면 genome에서 오는 복잡도로 결과를 명확하게 분석하기 어려운 면이 있어서 yeast를 선정한 것은 좋은 선택인 것 같았습니다. 어설프게 다배체 생물 건드리면 나는 어딘가? 여기는 누군가? 하고 있었을 수 도 있으니깐요 :)

논문 장수와 용량이 적절해서 clova-x, gemini와 더불어 claude에게 까지 물어보았습니다.

질문: 블로그에 이 연구 내용으로 글을 하나 작성해주세요. 읽는 대상은 차세대 시퀀싱은 알지 못하지만 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들 입니다.


clova-x

이 논문에서는 Debaryomyces hansenii KCTC27743 yeast species의 전체 유전체를 4개의 다른 시퀀싱 플랫폼을 사용하여 시퀀싱하고 조립하는 방법을 설명하고 있습니다. 이 방법은 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 것으로, 생물학 연구에서 중요한 역할을 합니다.

이 논문에서는 PacBio Sequel, ONT MinION, Illumina NovaSeq 6000, MGI DNBSEQ-T7 등 4개의 시퀀싱 플랫폼을 사용하여 유전체를 분석하였습니다. 각각의 플랫폼은 서로 다른 장단점을 가지고 있으며, 이를 고려하여 적절한 플랫폼을 선택해야 합니다.

조립 과정에서는 Flye, WTDBG2, Canu, MaSuRCA, WENGAN, SPAdes, ABySS 등 7개의 조립 프로그램을 사용하였습니다. 이 프로그램들은 각각의 특성과 장단점을 가지고 있으며, 이를 고려하여 적절한 프로그램을 선택해야 합니다.

이 논문에서는 유전체 분석 결과를 바탕으로 다양한 유전체 구조를 분석하였습니다. 유전체 구조는 생물학적 특성과 밀접한 관련이 있으며, 이를 분석함으로써 생물학적 연구에 유용한 정보를 얻을 수 있습니다.

이 논문에서는 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 방법과, 이를 위한 다양한 플랫폼과 프로그램을 소개하고 있습니다. 이는 생물학 연구에 관심이 있는 사람들에게 유용한 정보가 될 것입니다. 또한, 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들도 이 논문을 통해 차세대 시퀀싱 기술에 대한 이해를 높일 수 있을 것입니다.




claude

안녕하세요. 오늘은 차세대 시퀀싱 기술과 유전체 조립에 대한 재미있는 연구 결과를 소개하겠습니다.

여러분도 학교에서 DNA의 구조, 유전자, 염기서열 등을 배웠을 텐데요. 현대 생명과학에서는 생물체의 전체 유전정보인 게놈(genome)을 해독하는 것이 매우 중요합니다. 게놈을 알면 그 생물의 유전적 특성과 진화 과정을 이해할 수 있기 때문입니다.

게놈은 DNA가 긴 가닥으로 이어진 것인데, 이를 조각조각 읽어서 다시 맞춰 전체 구조를 복원하는 것이 바로 '유전체 조립(genome assembly)' 작업입니다. 마치 퍼즐을 맞추는 것과 비슷하죠.

과거에는 DNA를 직접 읽는 시퀀싱 기술의 한계로 유전체 조립이 쉽지 않았습니다. 하지만 최근 '차세대 시퀀싱(Next-Generation Sequencing)' 기술이 발달하면서 좀 더 정확하고 효율적인 유전체 조립이 가능해졌습니다.

이번에 소개할 연구는 여러 차세대 시퀀싱 플랫폼과 조립 프로그램을 활용해 효모 게놈 조립을 시도한 결과입니다. 연구팀은 PacBio, 옥스퍼드 나노포어, 일루미나, MGI 등 4가지 플랫폼으로 효모를 시퀀싱했습니다. 그리고 Flye, WTDBG2, Canu 등 7가지 조립 프로그램을 사용해 총 212개의 효모 유전체 조립체를 만들었습니다.

결과적으로 가장 완성도 높은 조립체는 옥스퍼드 나노포어 플랫폼의 긴 염기서열을 사용하고, Canu 프로그램으로 조립한 뒤 MGI 플랫폼의 데이터로 오류를 수정한 것이었습니다. 하지만 각 플랫폼과 프로그램마다 장단점이 있었는데요.

옥스퍼드 나노포어는 긴 염기서열을 얻을 수 있었지만 오류율이 높았고, 일루미나 플랫폼은 정확도가 높았지만 짧은 염기서열 때문에 반복 영역을 해결하기 어려웠습니다. 조립 프로그램 중에서는 Canu가 반복 영역 해결력이 좋았지만 느린 편이었고, WTDBG2는 빨랐지만 정확도가 낮았습니다.

이렇게 시퀀싱 플랫폼과 조립 프로그램의 특성을 고려하면 생물 종류나 상황에 맞춰 최적의 조합을 선택할 수 있습니다.

유전체 조립은 생명과학 분야에서 아주 기초적이지만 중요한 작업입니다. 앞으로 더 나은 기술이 개발되면 다양한 생물체의 게놈을 해독하고 분석할 수 있을 것입니다. 이를 통해 생명현상에 대한 이해를 넓힐 수 있을 거예요.

이상으로 생소한 주제였지만 재미있게 읽으셨나요? 다음에는 더 알기 쉽고 흥미로운 주제로 찾아오겠습니다.




gemini

차세대 시퀀싱 기술: 효모 게놈의 비밀을 밝히다!

안녕하세요, 생물 선생님들! 오늘은 여러분의 생물 수업을 더욱 풍성하게 만들어 줄 차세대 시퀀싱 기술에 대해 이야기 나누려고 합니다. 차세대 시퀀싱은 단순히 DNA를 읽는 기술을 넘어, 우리가 살아있는 세상에 대한 이해를 혁신하는 강력한 도구입니다.

차세대 시퀀싱이란 무엇일까요?
과거에는 DNA를 읽는 데 오랜 시간과 노력이 필요했지만, 차세대 시퀀싱 기술은 단 며칠 만에 수백억 개의 염기 서열을 읽을 수 있게 해줍니다. 이는 마치 거대한 책을 한 번에 읽는 것과 같습니다!

차세대 시퀀싱으로 무엇을 할 수 있을까요?
효모 게놈 비밀 탐구: 오늘 소개하는 연구는 차세대 시퀀싱 기술을 사용하여 효모 게놈의 완벽한 지도를 만들었습니다. 이는 효모가 어떻게 작동하고, 우리에게 어떤 영향을 미치는지 이해하는 데 큰 도움이 될 것입니다.
질병 진단: 차세대 시퀀싱 기술은 암, 유전 질환 및 감염성 질환 등 다양한 질병을 진단하는 데 사용될 수 있습니다. 이는 더 정확하고 개인 맞춤형 치료법 개발에 기여할 것입니다.
새로운 약물 개발: 차세대 시퀀싱 기술은 질병의 원인을 파악하고 새로운 약물 개발에 도움을 줄 수 있습니다. 이는 더 효과적이고 안전한 치료법 개발로 이어질 것입니다.
진화 연구: 차세대 시퀀싱 기술은 다양한 생물 종의 DNA를 비교 분석하여 진화 과정을 이해하는 데 도움을 줄 수 있습니다.

차세대 시퀀싱 기술이 생물 교육에 미치는 영향
차세대 시퀀싱 기술은 생물 교육에도 혁신을 가져올 수 있습니다.
실제 데이터 활용: 학생들은 실제 과학 연구에서 사용되는 DNA 데이터를 분석하고 해석하는 방법을 배울 수 있습니다.
개인 맞춤형 학습: 학생들의 DNA를 시퀀싱하여 개인의 유전적 특성에 맞는 학습 경험을 제공할 수 있습니다.
창의적인 과학 프로젝트: 학생들은 차세대 시퀀싱 기술을 사용하여 자신의 과학 프로젝트를 진행하고 새로운 생물학적 발견을 할 수 있습니다.

차세대 시퀀싱 기술은 생명 과학의 미래를 바꿀 잠재력을 지닌 강력한 도구입니다. 생물 선생님들은 이 기술을 활용하여 학생들에게 더욱 흥미롭고 의미 있는 학습 경험을 제공할 수 있습니다.


clova-x와 claude는 꽤 괜찮은 내용의 글을 작성해주었습니다. 반면에 gemini는 제목은 멋드러지게 뽑은 반면에 내용은... 무슨말을 하는지 알맹이가 없었습니다.

물론 질문이 모호하긴 했죠, 공립 중고등학교라니, 한국이냐 미국이냐에 따라 대도심 지역이나 지방소도시간의 차이도 있을 텐데... 그런것은 그냥 무시하고 글을 작성한 것 같기도 합니다. ㅎㅎ 



출처: @ye._.vely618


월요일, 5월 13, 2024

Open Dart 활용하기 (2)

오늘은 Open Dart API를 활용하는 두번째 시간입니다.

사실 Open Dart API를 활용하면서 이것저것 테스트 하고 있었는데  뜻밖에 좋은 github를 알게되어서...

어렵지 않게 data에서 자료를 뽑아올 수 있게 되었습니다.

그리고 이제는 pandas를 좀 더 잘 사용할 수 있어야 더 수월하게 자료를 수집할 수 있을 것 같습니다.

각설하고 좋은 github는 FinanceData 입니다.

- 한국과 미국 및 몇몇 주요 나라의 주가 정보를 쉽게 크롤링 할 수 있게 해주는 FinanceDataReader

- OpenDart라는 금융감독원에서 제공하고 있는 전자공시시스템의 API를 더 쉽게 사용할 수 있게 해주는 OpenDartReader


앞서 다른 글들에서 언급했었던 yfinance와 dart_fss를 하나 하나 기능과 어떤 결과들이 return되는지 테스트하고 있었는데, 갑자기 이 github가 눈앞에.. Orz

좀더 열심히 검색해 볼 껄, 역시 세상에는 착한 능력자 분들이 많다는 :)

다음 안내글은 FinanceDataReader 활용하기, OpenDartReader 활용하기 정도가 되지 않을까합니다.



출처: @ye._.vely618

일요일, 5월 12, 2024

이번에는 누가누가 어답타 제거를 잘할까?

오늘도 Tool 벤치마킹하는 자료를 한번 가져와봤습니다.

제목은 Benchmarking software tools for trimming adapters and merging next-generation sequencing data for ancient DNA 이고,

DOI는 10.3389/fbinf.2023.1260486 입니다.

음... 비교하는 툴이긴 한데 그 목적이 고대의 DNA, 음... 쥬라기공원과 같은 공룡의 DNA를 복원하려는 분들도 있겠지만... 아마 여기서 얘기하는 고대의 DNA는 유적지들에서 발견되는 DNA들을 얘기하지 않을까 합니다.

여튼 어렵게 얻은 샘플로 시퀀싱을 했는데 분석의 전처리 격인 adpater와 같은 불필요한 데이터 처리를 잘못해서 잘못된 결과나 정작 우리가 필요로 했던 데이터가 유실되면 안되기 떄문에 기존에 알려져 있는 trimming이나 QC하는 tool 중에서 적합한 것을 찾아보려고 했던 것 같습니다.

그래서 7개 tool을 사용해서 정확하게 adpater를 제거하는지, 시퀀싱 오류도 잘 수정하는지 성능을 상호비교 해봤다고 합니다.

gemini

제목: 고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술

**역사 속 비밀을 밝히는 고대 DNA**

고대 유물에서 추출된 DNA, 즉 고대 DNA(aDNA)는 과거 생명체의 유전 정보를 담고 있어 진화, 역사, 그리고 인류의 기원을 이해하는 데 매우 중요한 역할을 합니다. 그러나 수천 년, 수만 년 전의 유물에서 추출된 aDNA는 짧고 손상된 상태로 인해 분석하기가 매우 어렵습니다.

**NGS 기술의 등장: 새로운 가능성**

NGS(Next-Generation Sequencing) 기술의 등장은 aDNA 분석에 새로운 가능성을 열었습니다. NGS는 이전 기술보다 빠르고 저렴하게 대량의 DNA 데이터를 분석할 수 있기 때문에, 과거에는 불가능했던 방대한 양의 aDNA 데이터를 분석하는 것이 가능해졌습니다.

**하지만 여전히 남아있는 과제: 데이터 정제의 중요성**

NGS 기술은 aDNA 분석에 획기적인 발전을 가져왔지만, 여전히 해결해야 할 과제가 있습니다. 바로 aDNA 데이터의 정제 문제입니다. aDNA는 짧고 손상된 상태로 인해 시퀀싱 오류가 많이 발생하며, 어댑터(NGS 분석 과정에서 사용되는 인공 DNA) 잔여물도 존재합니다. 이러한 오류와 잔여물은 분석 결과의 정확성을 크게 떨어뜨릴 수 있기 때문에 제거해야 합니다.

**NGS 데이터 트리밍 기술: 정확한 분석을 위한 필수 도구**

NGS 데이터 트리밍 기술은 시퀀싱 오류와 어댑터 잔여물을 제거하여 aDNA 데이터의 정확성을 높이는 데 사용됩니다. 다양한 NGS 데이터 트리밍 도구들이 개발되었으며, 각 도구마다 장단점이 존재합니다.

**최근 연구: NGS 데이터 트리밍 도구의 성능 비교**

최근 연구에서는 7가지 일반적으로 사용되는 NGS 데이터 트리밍 도구의 성능을 비교 분석했습니다. 연구 결과, 모든 도구가 템플릿 길이가 10bp보다 큰 경우 높은 정확도로 시퀀싱 오류를 수정했습니다. 하지만 일부 도구가 특정 조건에서 더 나은 성능을 보였습니다. 예를 들어, AdapterRemoval, fastp, leeHom은 다른 도구들보다 강력한 성능을 보였고, 다양한 품질 점수 계산 방법에서 가장 정확한 품질 점수를 계산했습니다.

**NGS 데이터 트리밍 기술의 중요성: 더욱 정확하고 신뢰할 수 있는 분석 결과**

NGS 데이터 트리밍 기술은 고대 DNA 분석의 정확성을 높이는 데 필수적인 역할을 합니다. 이 기술을 통해 과거 생명체에 대한 더욱 정확하고 신뢰할 수 있는 정보를 얻을 수 있게 됩니다. 앞으로 NGS 데이터 트리밍 기술의 발전은 고대 DNA 분석의 가능성을 더욱 확대하고, 과거의 비밀을 밝히는 데 더욱 큰 도움이 될 것으로 기대됩니다.

**참고:**

* 이 글은 NGS 데이터 트리밍 기술에 대한 기본적인 정보를 제공하는 데 목적이 있습니다. 더 자세한 내용은 관련 전문가나 연구 자료를 참조하시기 바랍니다.



제목도 "고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술" 라고 잘 뽑고.. 좋은듯 합니다. 알잘딱깔센으로 결론은 AdapterRemoval, fastp, leeHom 이 것 들중에서 알아서 잘 쓰세요. 라고 합니다. 논문에는 leeHom이 좋다고 한 거 같은데, 스스로 판단 했을 때 3가지 크게 차이가 없었다고 판단해서 그렇게 설명한것이지 않을까 하네요.

clova-x를 사용하지 않은 이유는 pdf를 업로드하는데 10M 미만의 파일만 업로드 할 수 있다고 안내문을 내놔서 이번에는 clova-x는 사용하지 않았습니다. 
물론 pdf파일은... 9.5M 였었는데... 계산하는 식을 1M가 1024K가 아닌 1M는 1000K라고 잘못 생각한게 아닐까 싶네요.


또 이런저런 내용으로 글을 올려보도록 하겠습니다.


출처: @ye._.vely618


금요일, 5월 10, 2024

시뮬레이션 데이터를 만들어서 평가하고 실제 실험하면 좀 나아질까요?

분석 Tool 벤치마킹 자료 찾다가 얻어걸린 논문되겠습니다.

음.... 좋게 이야기해서 당시(약 8년전) 태동하고 있었던 NGS 실험을 하려고 하는데 NGS 데이터를 생산하는 것도 고가였고, 생산만 하면 끝나는 것이 아닌 이후 전처리 및 여러 단계의 분석을 해야지 내손에 엑셀 파일남는 그런것을 함부로 할 수 있겠냐!!! 라는 생각으로 in-silico로 가상의 데이터 만들어서 어떤 NGS 기술로 실험하는것이 나에게 알맞는지 먼저 확인해보자!! 를 수행하기 위해서 가상의 데이터를 만들어주는 tool중 어떤 것을 사용해야지 적절한지 비교해본 논문되겠습니다.

그냥 쉽게 얘기해서 NGS 플랫폼 별로 가라 데이터 만들어주는 tool 비교 논문 되겠습니다.

지금은 굉장히 저렴해지긴 했지만 이 논문이 나올 당시만해도 NGS 장비도 그렇고 시약도 그렇고 귀엽지 않았기 떄문에 이런 가라 데이터를 만들어주는 tool도 NGS 플랫폼에 따라 최적의 tool을 사용해야 하는 시절이었나 봅니다. (2016년이면... 나는 그러지 않았던 것 같은데... )

사실 당시에는 못먹어도 ILMN 아니었겠습니다.
지금은 아묻따 ONT!!! 

여튼 논문 제목은 A comparison of tools for the simulation of genomic next-generation sequencing data. 이고 

doi는 10.1038/nrg.2016.57

입니다.

그래서 gemini와 clova-x에게 시켜보았습니다.


gemini

최근 게놈 차세대 시퀀싱 (NGS) 데이터를 분석하는 데 사용되는 다양한 도구와 방법들이 개발되었습니다. 이러한 도구와 방법의 성능을 평가하기 위해서는 실제 NGS 데이터를 사용하는 것이 가장 이상적이지만, 이는 항상 가능하거나 윤리적인 것은 아닙니다.

따라서 시뮬레이션 NGS 데이터를 생성하고 사용하는 것이 유용한 대안이 될 수 있습니다.

시뮬레이션 NGS 데이터 생성 및 평가의 장점:

  실제 NGS 데이터를 사용할 수 없는 경우에도 도구와 방법을 평가할 수 있습니다.

  다양한 시나리오를 생성하여 도구와 방법의 강점과 약점을 파악할 수 있습니다.

  데이터 세트의 크기와 복잡성을 제어할 수 있습니다.

  윤리적 문제를 피할 수 있습니다.

시뮬레이션 NGS 데이터 생성 및 평가의 단점:

  실제 NGS 데이터의 복잡성을 완벽하게 반영하지 못할 수 있습니다.

  시뮬레이션 도구에 대한 편향이 발생할 수 있습니다.

  시뮬레이션 데이터를 생성하고 분석하는 데 시간과 노력이 많이 소요될 수 있습니다.

결론:

  시뮬레이션 NGS 데이터를 생성하고 평가하는 것은 NGS 도구와 방법을 평가하는 데 유용한 방법이 될 수 있지만, 몇 가지 제한 사항이 있습니다. 시뮬레이션 데이터를 사용하기 전에 이러한 장단점을 신중하게 고려해야 합니다.

추가 고려 사항:

  시뮬레이션 도구를 선택할 때는 요구 사항, 사용 편의성 및 사용 가능한 리소스를 고려하는 것이 중요합니다.

  시뮬레이션 데이터는 실제 NGS 데이터와 가능한 한 유사하게 생성해야 합니다.

  시뮬레이션 데이터를 사용하여 도구와 방법을 평가할 때는 시뮬레이션 도구에 대한 편향을 고려해야 합니다.


clova-x

최근에는 컴퓨터 시뮬레이션을 통해 genomic data를 평가하고 검증하는 것이 biological models을 평가하고 이해하는 데 점점 더 중요해지고 있습니다. 이에 따라, 다양한 NGS 데이터 시뮬레이션 도구가 개발되어 사용되고 있습니다.

이 연구에서는 다양한 NGS 데이터 시뮬레이션 도구를 비교 분석하여, 각각의 도구의 장단점을 파악하고, 최적의 도구를 선택하는 것을 목표로 합니다. 이를 통해, 연구의 효율성과 신뢰성을 향상 시킬 수 있습니다.

NGS 데이터의 시뮬레이션을 통해 실험 계획, 가설 검증, 벤치마크 도구 등을 제작할 수 있습니다. 이를 통해 연구의 효율성을 높이고, 원하는 결과를 얻을 수 있는 가능성을 높일 수 있습니다.

이 연구의 의의는 NGS 데이터의 시뮬레이션을 통해 연구의 효율성과 신뢰성을 높일 수 있다는 것입니다. 다양한 도구를 비교 분석하여 최적의 도구를 선택할 수 있는 가이드를 제공한다는 점에서 큰 의의가 있습니다.


오늘은 gemini 답변이 조금 더 성의 있어 보이네요. clova-x는... 담에 좀 성의있게 질문을 해보도록 하겠습니다.

결론은 이제는 이런거 하지 마시고 그냥 일단 아묻따 NGS 고고

in-silico로 가라 데이터 만들어서 테스트 해보겠다고 하는 사이에 경쟁자들은 실험 디자인해서 실험하고 논문쓰고 しまい 합니다.





출처: @ye._.vely618


일요일, 5월 05, 2024

유사성과 상동성을 알아보겠습니다.

오늘은 서열 검색할 때 대게는 similarity를 얘기해야 하나 homology로 혼용해서 생각하는 경우가 흔해서 2013년.. 와.. 10년전 논문을 가져와 봤습니다.

물론 이 두 개를 혼용하는 주인공은 접니다. ㅋ

여튼 제목도 그에 걸맞게 "An Introduction to Sequence Similarity (“Homology”) Searching" 입니다.

DOI: 10.1002/0471250953.bi0301s42

논문 내용을 봐보니 이건 claude에 (공짜로) 물어봐도 해줄 것 같아서 claude와 clova-x에 물어보았습니다.

claude

1. 논문 업로드 요약문

이 논문은 서열 유사성 검색과 상동성(유전적 공통 조상) 추론에 대해 소개하고 있습니다. 주요 내용은 다음과 같습니다:
1. BLAST, FASTA, SSEARCH 등의 서열 유사성 검색 프로그램은 통계적으로 유의미한 유사성을 발견할 경우 두 서열이 공통 조상에서 유래했다고 추론할 수 있습니다.
2. 단백질 서열 비교가 DNA 서열 비교보다 5-10배 더 민감하므로 단백질 서열 검색이 선호됩니다.
3. 30% 이상의 서열 일치도 규칙은 지나치게 보수적입니다. 20% 미만의 낮은 일치도에서도 통계적으로 유의미한 상동성을 보일 수 있습니다.
4. 서열 유사성에서 기대값(E-value)과 bit 스코어가 일치도보다 상동성 추론에 더 유용합니다.
5. 상동 서열이 발견되면 기능 예측을 위해 보존된 활성 부위 잔기 등을 확인하는 것이 중요합니다.
6. 단일 서열 비교보다 다중서열정렬이 진화적, 구조적, 기능적 정보를 더 잘 제공합니다.
7. 상동성은 공통 조상을 나타내지만 반드시 기능적 유사성을 의미하지는 않습니다. 정밀한 기능 예측에는 주의가 필요합니다. 

요약하면 서열 유사성 검색 도구와 통계값을 사용하여 신뢰성 있게 상동성을 추론할 수 있지만, 기능 예측 시에는 추가 분석이 필요하다는 내용입니다.

2. homology(상동성)와 similarity(유사성)를 설명해줘

이 논문에서는 homology(상동성)와 similarity(유사성)의 관계를 다음과 같이 설명하고 있습니다:
1. 상동성(homology)은 두 서열이 공통의 조상에서 유래했음을 의미합니다. 반면 유사성(similarity)은 단순히 두 서열 사이에 비슷한 부분이 있음을 나타냅니다.
2. 유의미한 통계적 유사성이 관찰되면, 그 초과 유사성(excess similarity)이 두 서열이 독립적으로 생겨난 것이 아니라 공통 조상에서 유래했기 때문이라고 추론할 수 있습니다. 즉, 유의미한 유사성은 상동성을 암시합니다.
3. 하지만 상동 서열이라도 항상 유의미한 서열 유사성을 보이는 것은 아닙니다. 일부 상동 서열은 구조 유사성이나 중간 서열과의 유사성으로 상동성이 입증됩니다.
4. 반대로 유의미한 서열 유사성이 있다고 해서 반드시 상동성이 있는 것은 아닙니다. 우연히 높은 유사 점수가 나올 수 있기 때문입니다.
요약하면, 유의미한 통계적 유사성은 상동성을 강력하게 시사하지만, 유사성과 상동성은 개념적으로 구분된다고 설명하고 있습니다. 상동성 추론을 위해서는 유사성 외에 추가적인 증거가 필요할 수 있습니다.

3. (항상 그러하듯이) 블로그에 게시할 글 좀 써줘

안녕하세요. 생명공학을 전공하지 않은 분들에게 homology와 similarity에 대해 설명드리겠습니다.
생물학에서 서로 다른 생물체 사이의 유사성을 발견하는 것은 매우 중요합니다. 이러한 유사성은 두 가지 주요 개념인 homology(상동성)와 similarity(유사성)로 나뉩니다. 먼저 similarity(유사성)은 두 생물체가 외형이나 구조, 서열 등에서 비슷한 모습을 보이는 것을 말합니다. 예를 들어 개와 늑대는 외형이 서로 비슷하고, 사람과 침팬지의 DNA 서열도 상당 부분 유사합니다. 이렇게 겉보기에 닮은 점이 많다면 두 생물체 사이에 similarity가 있다고 합니다. 하지만 단순히 겉모습이 비슷하다고 해서 두 생물이 진화적으로 가까운 관계는 아닙니다. 닮은 꼴을 한 생물이라도 실제로는 전혀 다른 조상에서 비롯되었을 수 있죠. 이처럼 단순한 유사성만으로는 두 생물의 진화적 관계를 설명할 수 없습니다. 이때 필요한 개념이 바로 homology(상동성)입니다. 상동성이란 두 생물체가 같은 공통조상에서 유래했음을 의미합니다. 예를 들어 사람과 침팬지는 DNA 서열이 매우 유사할 뿐 아니라, 실제로 공통조상에서 갈라져 나온 한 계통의 생물입니다. 이처럼 공통된 기원을 가진 경우 두 생물은 상동적(homologous) 관계에 있다고 말합니다.
생물학자들은 서열 분석과 다양한 진화 연구를 통해 생물체 간의 상동성 여부를 가려냅니다. 상동성이 입증되면 두 생물이 가진 유사성의 기원을 설명할 수 있게 됩니다. 즉, 유사성은 관찰 가능한 현상이지만, 상동성은 그 유사성의 진화적 근원을 나타내는 것입니다. 때로는 우연히 닮은 듯한 similarity를 보이는 생물체들도 있지만, 엄밀한 분석을 통해 그들이 실제로는 상동적 관계가 아니라는 것을 알아낼 수 있습니다. 생물학 연구에서 이 두 가지 개념을 정확히 구분하는 것이 매우 중요한 이유입니다.
이렇게 homology와 similarity는 닮은 듯 보이지만 개념적으로 큰 차이가 있습니다. 생물체 간의 유사성을 발견하고, 그 기원이 공통조상에서 비롯된 진화적 연관성인지 아니면 단순한 우연의 일치인지를 구분하는 것이 생명과학 연구의 핵심입니다.


clovr-x

1. 논문 업로드 요약문

이 논문은 유사성 검색이 효과적이고 신뢰할 수 있는 방법이며, homology와 similarity의 개념이 종종 오해를 불러일으킨다는 것을 밝히고 있다.
1. 유사성 검색은 진화적 조상을 공유하는 시퀀스를 찾는 데 효과적이다.
2. Homology는 protein과 DNA sequences의 computational analyses에 중심이 되는 개념이다.
3. Homologous sequences는 statistically significant sequence similarity를 찾을 때 homologous가 된다.
4. Homology는 excess similarity로부터 추론되며 excess similarity는 statistical estimates로부터 인식된다.
5. 유사성 점수 행렬과 alignment overextension의 관계는 Unit 3.5에서 논의된다.
6. 대부분의 연구자들은 homology를 "percent identity"의 관점에서 설명하는 것을 더 선호한다.

2. homology(상동성)와 similarity(유사성)를 설명해줘

homology와 similarity는 다음과 같이 설명할 수 있습니다.
1. Homology
- 공통 진화적 조상을 의미하는 용어로, 두 개의 시퀀스나 구조가 독립적으로 발생하지 않고 공통 조상으로부터 발생했을 때 homology가 있다고 판단됩니다.
- Homologous sequences는 statistically significant sequence similarity를 찾을 때 homologous가 됩니다.
2. Similarity
- 두 개의 시퀀스나 구조가 유사한 정도를 나타내는 용어입니다.
- 유사성은 주로 sequence similarity나 structural similarity를 기반으로 측정됩니다.
- 유사성 검색은 두 개의 시퀀스나 구조가 얼마나 유사한지를 측정하여, 유사성이 높은 경우에는 homologous일 가능성이 높다는 것을 추론합니다.
Homology와 similarity는 생물학에서 중요한 개념으로, 유전자 분석이나 단백질 구조 분석 등에서 많이 사용됩니다. 유사성 검색은 이러한 분석에서 매우 중요한 역할을 합니다. 하지만, 유사성 검색이 항상 정확한 것은 아니며, 여러 가지 요인에 따라 결과가 달라질 수 있습니다. 따라서, 유사성 검색 결과를 해석할 때는 주의가 필요합니다.

3. 블로그에 게시할 글 좀 써줘

생명공학을 전공하지 않은 일반인이 homology와 similarity를 이해하기 어려울 수 있습니다. 이 경우에는 다음과 같은 방법으로 설명할 수 있습니다.
1. Homology와 similarity의 개념을 설명합니다.
- Homology는 공통 진화적 조상을 의미하는 용어로, 두 개의 시퀀스나 구조가 독립적으로 발생하지 않고 공통 조상으로부터 발생했을 때 homology가 있다고 판단됩니다.
- Similarity는 두 개의 시퀀스나 구조가 유사한 정도를 나타내는 용어입니다.
2. Homology와 similarity의 활용 분야를 설명합니다.
- Homology와 similarity는 생물학에서 중요한 개념으로, 유전자 분석이나 단백질 구조 분석 등에서 많이 사용됩니다.
3. 유사성 검색의 중요성을 설명합니다.
- 유사성 검색은 두 개의 시퀀스나 구조가 얼마나 유사한지를 측정하여, 유사성이 높은 경우에는 homologous일 가능성이 높다는 것을 추론합니다.
위의 방법을 참고하여, 생명공학을 전공하지 않은 일반인에게 homology와 similarity와 관련된 내용을 설명하는 글을 작성할 수 있습니다.
게시할 글을 써달라고 하니 이렇게 작성하면 된다고 하네요;;


그렇다고 합니다.

역시 claude가 잘 알아 먹고 잘 정리하는 듯 합니다.


출처: @ye._.vely618


목요일, 5월 02, 2024

Open Dart 활용하기 (1)

오늘은 전공 대신에 데이터 수집 관련한 내용을 올리려고 합니다.

데이터 수집 하는 테스트 하는데에 주식정보 만큼 좋은게 없어서 한번 

투자공부하는 겸사겸사 dart 사이트에 제공하는 open dart를 활용하는 사용기를 시리즈로 올려보려고 합니다.

오늘은 그중에서 첫번째로 보통 국내 주식은 6자리 숫자 코드로 되어 있는데 open dart에서는 8자리의 별도 기업 코드를 사용하고 있어서 먼저, 그 기업코드를 확보해보도록 하겠습니다.

기업코드는 zip파일로 제공되고 있다고 >여기<에서 설명하고 있습니다.

결론적으로 API Key를 발급받아 crtfc_key=항목에 넣어주고 브라우저의 주소창에 넣어주면

corpCode.xml 파일을 다운로드 받을 수 있습니다.

https://opendart.fss.or.kr/api/corpCode.xml?crtfc_key=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

저장된 파일은 corpCode.xml이라고 하지만 사실은 zip로 압축된 파일!!

파일이름을 corpCode.xml에서 corpCode.zip 으로 변경해주고 압축을 해제하면 우리가 찾는 기업코드를 품고 있는 xml파일을 확인할 수 있습니다.

이 xml 파일에는 약 10만개정도의 기업코드가 기록되어 있는데.. 이는 상장회사 뿐만 아니라 dart에 공시를 올리는 모든 회사의를 구별하기 위한 코드입니다.


xml파일에서 필요한 정보(기업코드)를 뽑아서 tab delimited 파일을 생성하는 스크립트를 작성해보도록 하겠습니다.


import xml.etree.ElementTree as ET

# XML 파일 읽기

tree = ET.parse("CORPCODE.xml")

root = tree.getroot()

# 결과를 저장할 딕셔너리 생성

result = {}

# XML 파일의 각 리스트 항목을 순회

for item in root.findall("list"):

    # 회사 이름, 회사 코드, 주식 코드 추출

    corp_name = item.find("corp_name").text

    corp_code = item.find("corp_code").text

    stock_code = item.find("stock_code").text

    # 딕셔너리에 추가

    if stock_code.strip() == '':

        stock_code = '-'

    else:

        pass   

    result[corp_code] = {"corp_name":corp_name, "stock_code": stock_code}

ow = open('CORPCODE.txt','w')

for key, value in result.items():

    #print (f"{value['stock_code']}\t{value['corp_name']}\t{key}")

    ow.write(f"{value['stock_code']}\t{value['corp_name']}\t{key}\n")

ow.close()

    

상장사의 경우 주식코드, 회사명, 기업코드 정보들 담은 CORPCODE.txt 파일을 생성 할 수 있습니다.

다음번에는 조금 더 유용한 코드를 가지고 다시 돌아오도록 하겠습니다. :)


출처: @ye._.vely618 


일요일, 4월 28, 2024

NCBI API Key 발급받기

생명정보학을 하는 사람뿐만 아니라 생명공학을 전공하는 공부하는 사람들은 NCBI를 활용하지 않을 수 없는 시대에 왔습니다.

아마 생명공학을 전공한다면 이전에는 하얀까운 입고 클린벤치앞에서 파이펫가지고 실험하는 생각이 지배적이었는데 조만간 컴퓨터 화면앞에서 까만 화면앞이나 웹사이트를 이리저리 오가면서 분석하는 것이 더 익숙해질지도 모르겠습니다.

그래서 오늘은 오랜만에 NCBI를 활용할 때 대량의 데이터를 다운받을 때 API를 사용할 수 있게 해주는 API Key를 발급받는 방법을...

사실 저도 API Key를 받아가면서 다운로드 받지 않았는데..

이제는 그러지 않고는 NCBI에서 너님좀 그만 접속해라는 status만 return하고 정작 제가 원하는 자료들은 넘어오지 않아서 API Key를 발급 받을 수 밖에 없었습니다. 

Orz

여튼 그래서 구글님에서 "NCBI의 API Key를 발급 받으려면 어떻게 해야하나요?"

라고 검색해보면 다음과 같은 링크하나 떨궈 줍니다.

> 여기요 <

위에 URL에 나와있는 대로 회원 가입하고 발급받으시면 됩니다. :)

혹시나하고 아래와 같이 스샷들을 첨부하였읜 참고해서 잘 받으시기 바랍니다.


목록중에 있는 외부 계정 활용해서 로그인 하시면 되겠습니다. 전 구글을 잘 이용합니다.


브라우저에 구글 계정이 설정되어 있으면 이 계정으로 계속 할꺼야? 라고 물어봅니다. 다른 계정하고 싶으시면 아래 [다른 계정 사용]을 클릭해서 진행 하시면 되겠습니다.


그럼 선택하신 계정을 사용해서 nih.gov 서비스를 사용하실 수 있게 됩니다. [계속] 버튼을 클릭하시면 되겠습니다.


새로 계정 만들래, 기존 계정에 연결할래? 음.. 계정 생성의 복잡도를 생각해서 그냥 새로 계정을 만드시는게 편하지 않을까합니다. 


축하드립니다. NCBI 계정을 본인 계정을 사용해서 로그인 하실 수 있게 되었습니다.

단, 우리의 목적은 NCBI 계정 탈.. 생성이 아니라 API Key 발급이었죠? 상단 우측의 Accout를 클릭하면 [Account Settings] 라는 메뉴에 들어갈 수 있습니다.

현재 API Key가 없는 것을 알 수 있고, 친절히 [Creat API Keys] 버튼이 큼직만하게 있습니다. 이 버튼을 클릭하시면...

그냥 API Key가 만들어집니다. :)



그럼 주말 저녁 잘 마무리하시기 바랍니다. :)







출처: @ye._.vely618


목요일, 4월 25, 2024

CNV 어디까지 알아보고 오셨나요?

오늘도 UK Biobank 자료를 활용한 자료를 가져와봤습니다.

제목은 Protein-altering variants at copy number-variable regions influence diverse human phenotypes이고, CNV에 대한 내용인데, 24년도 갱장히 따끈따끈합니다.  :)

doi는 10.1038/s41588-024-01684-z 입니다.

최근에는 clova-x만 활용했는데, 자주 사용하다 보니 clova-x도 개조식으로 설명하는 행태가 보여서 gemini를 다시 사용해봤습니다. 그랬더니 gemini가 좀 서술식으로 설명을 해주더라구요. 

다음은 clova-X와 gemini에게 논문 내용 설명해줘라고 요청한 결과 입니다.


gemini
Hujoel et al.는 UK Biobank (UKB)를 통해 발견된 새로운 유전자-형질 관계를 연구한 논문을 발표했습니다. 그들은 100bp 해상도로 단백질을 변형시키는 CNV를 감지하기 위한 새로운 유형의 접근 방식을 사용했습니다. 이 접근 방식은 이전 방법보다 더 많은 CNV를 감지할 수 있게 해주었습니다.

연구진은 CNV가 키, 혈압, 제2형 당뇨병 위험 및 크로노타입과 같은 다양한 특성에 관련되어 있음을 발견했습니다. 또한, 신속하게 진화하는 유전자군 내의 CNV가 이러한 특성에 대한 변이의 가장 큰 기여를 한다고 발견했습니다.

연구의 가장 흥미로운 발견 중 하나는 RGL3 유전자의 엑손 6 일부를 삭제하는 저빈도 삭제가 혈압을 낮추는 것과 관련이 있다는 것입니다. 이 삭제는 공통적인 RGL3 돌연변이보다 혈압에 더 큰 영향을 미쳤습니다. 삭제는 또한 혈청 칼슘 수치 감소와 관련이 있었습니다.

저자들은 이러한 발견이 지금까지 대규모 분석에서 벗어났던 유전적 변이로부터 새로운 유전적 통찰력을 제공할 수 있는 잠재력을 보여준다고 결론지었습니다.

연구의 구체적인 발견은 다음과 같습니다.

* 연구진은 UKB의 전장 유전체 시퀀싱 데이터에서 개인당 평균 93.4개의 CNV를 발견했습니다. 이는 최근 UKB WES의 중간 릴리스 분석에 비해 두 배 증가한 수치입니다.
* 대부분의 삭제와 대략 절반의 중복은 최대 한 개의 엑손을 영향을 미쳤습니다.
* 가장 영향력 있는 변이는 드문 경우였습니다. 18,651개의 유전자 중에서 전체 유전자 중복과 LOF를 일으킬 것으로 예측되는 CNV는 각각 중간 8개와 11개에서 발견되었습니다.
* RGL3 유전자의 엑손 6 일부를 삭제하는 저빈도 삭제가 혈압을 낮추는 것과 관련이 있었습니다. 삭제는 또한 혈청 칼슘 수치 감소와 관련이 있었습니다.
* 연구진은 일반적인 CNV를 감지하기 위한 새로운 접근 방식을 개발했습니다. 이 접근 방식은 41,042개의 유전적 영역에서 일반적인 CNV를 감지했습니다. 이러한 일반적으로 CNV 변이가 있는 영역은 11%의 상염색체 유전자의 코딩 엑손과 겹쳤습니다.

저자들은 이러한 발견이 인간 질병의 유전적 기초에 대한 새로운 통찰력을 제공할 수 있다고 제안합니다.

이 연구의 결과는 다음과 같습니다.

* CNV는 키, 혈압, 제2형 당뇨병 위험 및 크로노타입과 같은 다양한 특성에 관련되어 있습니다.
* 신속하게 진화하는 유전자군 내의 CNV가 이러한 특성에 대한 변이의 가장 큰 기여를 한다고 연구진은 발견했습니다.
* RGL3 유전자의 엑손 6 일부를 삭제하는 저빈도 삭제가 혈압을 낮추는 것과 관련이 있다는 것이 연구의 가장 흥미로운 발견 중 하나입니다.

이러한 발견은 이전에 알려지지 않은 유전적 요인이 인간의 건강과 질병에 영향을 미칠 수 있음을 시사합니다.

clova-x 
본 연구는 CNVs가 인간 유전자 발현과 표현형에 미치는 영향을 조사하였다.
1. CNVs는 인간 유전자 발현에 영향을 미치며, 이는 질병과 관련될 수 있다.
2. CNVs는 단백질 코딩 변이를 유발하며, 이로 인해 다양한 표현형에 영향을 미칠 수 있다.
3. 이번 연구에서는 haplotypeinformed methods를 이용하여 proteinaltering CNVs를 탐지하고 분석하였다.
4. Gene LOF에 대한 proteincoding variation은 인간의 유전적 변이에 대한 새로운 통찰력을 제공한다.
5. CNVs의 영향을 평가하기 위해서는 인간의 유전자형을 분석해야 하며, 이를 위해 SNP 배열과 전체 유전체 시퀀싱 데이터가 필요하다.
6. 이번 연구에서는 negative binomial distributions를 이용하여 model exome sequencing read counts를 model 하였다.

 이 연구의 의의는 다음과 같습니다.

1. 대규모 인구 기반 연구를 통해 CNVs와 질병의 연관성을 확인하였습니다.
2. CNVs와 관련된 유전자와 단백질 코딩 변이를 식별하였습니다.
3. CNVs가 인간 유전자 발현과 표현형에 미치는 영향을 확인하였습니다.

이 연구 결과는 CNVs와 질병의 연관성을 이해하는 데 도움이 되며, 질병 예방 및 치료에 활용될 수 있는 정보를 제공합니다. 또한, 이 연구는 유전체 연구의 발전에 기여하며, 인간 유전자와 질병의 관계를 밝히는 데 중요한 역할을 합니다.

이전에 gemini가 개조식으로 답변을 줘서 clova-x를 사용해봤는데, 이제는 다시 gemini의 답변이 좀 갠춘해 보입니다.

여튼 UK Biobank 접근해서 한번 데이터를 다뤄보고 싶긴합니다.
어떻게 데이터를 모아놓은것이길래 이런 연구도 가능한건지... 
절래절래 (.. )( ..)(.. )( ..) 


출처: @ye._.vely618

목요일, 4월 18, 2024

UK Biobank 데이터 활용하면 어떤것을 할 수 있을까?

오늘은 많은 국가의 BioBank 사업에 귀감이 되고 있는 UK BioBank를 활용한 논문을 한번 가져와봤습니다. 

당연히 UK BioBank 데이터를 활용한 논문은 어마 무시하게 많이 있습니다.

그중에서 이 Effects of protein-coding variants on blood metabolite measurements and clinical biomarkers in the UK Biobank 논문을 가져온 이유는 그냥 최근에 나왔으니깐요 ㅎㅎ 

DOI: 10.1016/j.ajhg.2023.02.002


오늘도 역시 clova-x에게 물어보았습니다.

이 연구는 단백질 코딩 변이가 혈액 대사물 측정과 임상 바이오마커에 미치는 영향을 분석한 것으로, 다음과 같은 내용을 포함하고 있습니다.

1. 412,393 영국 바이오뱅크 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였습니다.

2. 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였습니다.

3. 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 205개의 유전자와 331개의 유전자가 유의미한 연관성을 가진 것으로 나타났습니다.

4. 이 연구는 새로운 생물학적 통찰력을 제공하며, 확립된 질병 메커니즘에 대한 이해도 깊어질 수 있습니다.

5. 기존 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재합니다.

6. 희귀 단백질 코딩 변이형은 큰 효과 크기와 기능적 영향을 가지며, 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있습니다.


이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

대규모의 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였으며, 이를 통해 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 데 기여하였습니다. 또한 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

그리고 다양한 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다. 또한, 이 연구는 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 유전자와 유의미한 연관성을 발견하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

이 논문은 생명공학 분야에서 중요한 연구 결과를 담고 있으며, 생명공학을 전공하지 않은 사람들도 이 논문을 통해 혈액 대사물 측정과 단백질 코딩 변이의 관계를 이해하고, 질병 예방과 치료에 대한 정보를 얻을 수 있습니다.

이 논문을 이해하기 위해서는 생명공학에 대한 기본적인 지식이 필요합니다. 생명공학에 대한 기본적인 지식이 없는 경우에는 이 논문을 이해하기 어려울 수 있습니다. 이 경우에는 생명공학에 대한 기초적인 지식을 학습하고, 이 논문을 다시 읽어보는 것이 좋습니다.


결론: 응? 무엇을 요약했는지 무슨 말인지 하나도 모르겠다.

아니 생명공학에 대한 기본 지식이 있는 전공자가 귀찮아서 생명공학을 전공하지 않은 사람들에게 설명하는 글을 작성해달라고 clova-x를 돌렸는데 기초지식을 학습하고 다시 논문을 읽어보라니.... 요놈 보소

결국 UK Biobank는 아이디어만 있으면 할 수 있는게 무궁무진 하다는 것 되겠습니다.




출처: @ye._.vely618