영국사람들이 RNA를 직접 시퀀싱하는 방법

RNA를 시퀀싱하는 걸 RNA-seq이라고 부릅니다. 그런데 RNA-seq할 때 RNA를 시퀀싱하지는 않죠. (엥 이게 뭔 소리.?) 요즘 시퀀싱 업계 최고의 떠오르는 별 옥스포드 나노포어가 “최초로” RNA를 대규모로 시퀀싱하는 기술을 만들어서 프리프린트를 냈습니다. 어떤 일이 있었는지, 어떤 건지 한 번 알아봅시다~!

RNA-seq은 보통 여러 RNA의 양을 재거나, 시작이 어딘지, 끝이 어딘지, 스플라이싱이 어떻게 되는지 볼 때 씁니다. RNA는 단백질 결합이나 자르기 붙이기 구조 바꾸기 등 변화무쌍한 녀석이라, 여러 실험적 전처리를 거쳐서 온갖 변형된 RNA-seq이 나왔죠. RIP-seq, CLIP-seq, SHAPE-seq, TAIL-seq, small RNA-seq, ribosome profiling, 3P-seq, lariat sequencing, degradome-seq 등 아주 특징적으로 다른 놈들만 쳐도 금세 10개가 넘어갑니다.

그런데, 알고 보면 이 수많은 방법 중에 RNA를 시퀀싱하는 놈은 하나도 없습니다. 다 cDNA를 만들어서 증폭해서 DNA를 시퀀싱하죠. cDNA나 RNA나 결국 그 놈이 그 놈 아닌가 싶지마는, 변환 과정에 꽤 많은 정보를 잃어버립니다. 우선, 증폭. RNA에서 DNA를 만들어서 시퀀싱하기 좋은 형태로 딱 만들어주는 “라이브러리 프렙” 과정은 효율이 낮은 스텝이 많이 껴 있습니다. 그래서 증폭 없이는 기존 2세대 시퀀서는 거의 깨끗하게 돌릴 수 없는데요. 문제는 어떤 놈은 100배로 증폭되는 사이, 다른 놈들은 2배로도 증폭이 안 되는 일도 흔하다는 거죠. 이 문제가 가장 심각한 마이크로RNA 시퀀싱에선, 다른 RNA 2가지를 똑같은 양으로 넣고 라이브러리를 만들어도 결과는 100배 넘게 차이 나는 경우가 뭐 말할 필요도 없이 늘 있는 일입니다.

그리고, DNA로 변환하는 과정 중에 RNA의 화학적 수식 정보를 다 잃어버립니다. 후성전사체(epitranscriptome)가 요새 RNA쪽에서 핫한 키워드인데요. 최근 3년 간 mRNA에서도 N6-methyladenosine, N1-methyladenosine, pseudouridine, 5-methylcytosine이 발견되고 논문이 쑥쑥 잘 나오면서 RNA쟁이들이 수식된 RNA를 어떻게든 보려고 노력을 많이 하고 있죠. 그런데 DNA로 변환을 하게되면 그냥 밋밋한 A, T, C가 돼 버려서 재미가 없어집니다. 궁색하게 전처리를 어떻게든 해야 하는데 그래도 썩 마음에 들지는 않죠.

RNA쟁이들은 오랫동안 RNA를 있는 그대로 처음부터 끝까지 쭉쭉 읽어내면 얼마나 좋을까 하고 꿈꿔왔습니다. 3세대 시퀀서 중 가장 먼저 떴었던 HelicosPacBio도 그래서 direct RNA sequencing을 처음부터 그렇게 밀었죠. 리드 길이가 긴 것은 좋았지만, 역전사는 둘 다 피할 수 없었습니다. PacBio에서 methyladenosine을 구분할 수 있다는 논문도 몇 개 나오긴 했지만, 하기도 어려운데다 구별도 잘 안 되었습니다.

짜잔. 그래서 역전사가 필요없는 나노포어에서 멋진 기술을 내놓았습니다. 10명이 넘는 꽤 큰 팀을 오랫동안 운용해서 재작년부터 정보를 조금씩 흘리기 시작했죠. 올해 6월에는 direct RNA sequencing의 베타 프로그램을 시작했습니다. 8월에는 프리프린트 서버인 bioRxiv에 논문을 올렸습니다. 사실 논문이라고 부르기는 좀 부끄럽고 그냥 광고 내지 찜 정도로 봐 줄 수 있겠습니다. 메쏘드 부분이 전혀 구체적이지 않고, 대부분 정보를 숨긴데다가, 성능 평가 부분도 그냥 두루뭉술하게 퉁치고 지나가버렸습니다. 그래도 새로 공개된 정보가 많으니 한 번 자세히 뜯어봅시다~

나노포어는 다른 시퀀싱 방법들과 달리 방향을 마음대로 할 수 있습니다. 5′부터 읽을 수도 있고 3′끝 부터 읽을 수도 있죠. 방향에 따라 라이브러리 만드는 방법이 전혀 달라지고 나오는 시그널도 전혀 다르니 어디서부터 읽을지 잘 골라야 하죠. 상용화된 DNA 시퀀싱 키트에서는 5′부터 읽게 되어있는데, RNA sequencing에서도 작년 5월에 발표된 자료까지만 해도 5′부터 읽게 되어 있다가, 이번에 3′부터 읽는 것으로 바뀌었습니다. 아직 최종적으로 상용화 버전에서 어느 방향을 쓸지는 확정되지는 않았는데요. 5′부터 읽는 게 엄청나게 시그널 특성이 좋지 않는 한, 그냥 3′->5′을 유지할 가능성이 높습니다. Direct RNA sequencing에서는 양쪽 끝 중에 한 군데만 어댑터를 붙이면 되는데요, 5′끝보다 3′끝이 쓸 수 있는 무기(효소)도 훨씬 많고 5′캡이 막아주는 덕분에 간단한 프로토콜 만들기가 쉽죠. 그래서 이번 논문에서 쓰는 프로토콜은 이렇게 어댑터를 붙입니다.

나노포어 direct RNA sequencing 라이브러리 만드는 방법 중 하나
나노포어 direct RNA sequencing 라이브러리 만드는 방법 중 하나. Giralde et al. (2016) doi:10.1101/068809

이렇게 붙여서 나노포어 플로우셀에 넣으면 회색 반지모양으로 그려진 단백질이 RNA쪽 가닥을 잡고 조금씩 놓아주면서 나노포어에 통과시켜주게 됩니다. 이 단백질을 나노포어에서는 모터 단백질(motor protein)이라고 부르는데요. 모터 단백질을 쓰지 않으면 DNA나 RNA가 신호를 잡을 수 없을 정도로 너무 빨리 통과해버리기 때문에 신호 분석이 불가능합니다. 그렇다고 무한정 느리게 잡고 있으면 단일가닥 DNA나 RNA가 스스로 접히는 2차 구조나 랜덤하게 움직이는 신호까지 잡히는데다 일정 시간동안 통과하는 DNA/RNA 개수도 줄어들게 됩니다. 그래서 너무 빠르지도 않고 너무 느리지도 않은 기가 막힌 속도로 살짝 잡고 놓아주는 게 중요합니다. DNA를 5′에서 3′로 보내면서 살살 놓아주는 것과 RNA를 3′에서 5′로 보내면서 살살 놓아주는 것은 전혀 다른 얘기라서, 이번엔 이 모터 단백질도 바꿨다고 하네요. 하지만 구체적인 정체는 숨기고 있습니다.

자 이제 이렇게 시퀀싱이 됐으면, 베이스콜링 정확도는 얼마나 될지, RNA 화학적 수식은 잘 잡을 수 있는지가 모든 사람이 궁금해 하는 지점이 됩니다. 옥스포드 나노포어 R9의 DNA 시퀀싱 정확도는 1번 읽었을 때 85% 정도, 앞뒤로 2번 읽었을 때 95%로 알려져 있습니다. 자 그럼 direct RNA는…….? 대략 80% 된다고 합니다. -O-; 그런데 좀 그런게, 전체 리드 대상이 아니라 아주 전형적인 예라면서 특정 리드 1개만 보여주고 정확도를 80%라고 추정하고 있습니다. 어디서 사기를.. ㅋㅋ 전체로는 GAPDH 리드들을 모두 모아서 대략 96% 정도 시퀀스가 서로 같은 isoform 둘 중에 어느 것인지 매핑하면, 하나로 거의 확실히 구분할 수 있을 만큼은 된다고 합니다. (ㅎㅎㅎㅎ)

DRS에서 나온 서열 중 하나의 정렬. Giralde et al. (2016) doi:10.1101/068809
DRS에서 나온 서열 중 하나의 정렬. Giralde et al. (2016) doi:10.1101/068809

아직은 확실한 레퍼런스 DNA 또는 전사체 레퍼런스가 있을 때 아니면 쓰기가 어렵겠는데요. 그래도 열심히 align하면 대충 스플라이싱 구조 정도는 알아볼 수 있을 것 같습니다. 그렇다면 화학적 수식이 있는 것들은 구분이 될까요? 이거라도 잘 돼야 할텐데요.

나노포어 DRS에서 나온 m6A 주변 신호. Giralde et al. (2016) doi:10.1101/068809
나노포어 DRS에서 나온 m6A 주변 신호. Giralde et al. (2016) doi:10.1101/068809

다행히도 m6A는 위에서처럼 구분이 아주 잘 되네요. 나노포어에 통과하고 있는 베이스 외에 주변에 있는 녀석들도 전기전도도에 영향을 좀 미치다보니, 나노포어 신호는 주변 서열 영향을 많이 받는데요. 다른 서열 사이에 껴 있는 m6A도 구분이 잘 된다면 좋겠네요. 5월에 옥스포드 나노포어 사용자 모임(?)인 런던 콜링에서 Mark Akeson이 tRNA의 경우에는 알고리즘을 열심히 트레이닝하면 tRNA에 있는 각종 다양한 수식도 구분할 수 있다는 걸 보여줬으니, 이런 저런 데이터를 계속 쌓다보면 mRNA에서 다른 수식들도 잘 다룰 수 있게 되지 않을까 봅니다.

옥스포드 나노포어 R9의 주요 업그레이드 중에 딥 러닝 알고리즘(RNN)을 도입한 것이 있습니다. 이번 direct RNA sequencing에서는 RNN 대신 기존에 쓰던 HMM을 썼기 때문에, 베이스콜링 정확도나 화학적 수식 모두 개선의 여지가 있습니다. 아직 트레이닝도 다양한 상황에서 충분히 되지는 않았구요. 아마도 엔드 유저 입장에서 완전히 베이스콜링 된 것을 쓰자면 시간이 꽤 더 걸리겠지만, 신호 수준에서 분석하는 걸로는 지금도 RNA쟁이들에게 좋은 무기로 쓰일 수 있을 것 같네요.

참고로 (혹시나 궁금한 분이 있을까봐) 아직 옥스포드 나노포어는 IPO를 하지 않았습니다. (투자는 거의 20년에 걸쳐서 엄청 받았죠. ㅋㅋ)

모든 언어에는 긍정적 단어가 부정적 단어보다 많은가?

대략 100년 전 미국에서 “폴리애나”라는 동화가 출간됐다. 주인공인 “폴리애나”는 오랫동안 미국 문화에서 초낙천적인 성격의 대명사로 사랑받았다고 한다. 고아가 되어 이모 집에서 살게 된 폴리애나가 “모든 일에는 좋은 면이 있으니 그것을 찾아보자”하는 태도로 이모의 구박을 이겨내고 행복하게 살면서 주변 사람들한테도 그런 태도를 퍼뜨린다는 이야기다.

1969년 미국의 두 심리학자는 여러 문화권 언어들을 비교해 보고, 어떤 언어이건 긍정적인 뜻인 단어가 종류도 많고, 더 자주 사용되고, 다양한 문맥에서 사용된다고 “폴리애나 가설”을 세웠다. 이 가설을 검증하는 연구는 많이 있어서 특별히 새로울 것은 없지만, 며칠 전 새로 나온 이 논문에는 재미있는 점이 두 개 있다.

첫 번째, 10가지 언어에 대한 말뭉치에서 뽑은 단어를 모국어 사용자들에게 알바로 긍정-부정 지표를 매기게 시켜서 그 정도를 비교해 보니까 스페인어가 긍정적 단어가 가장 많이 사용되고, 중국어가 가장 덜 긍정적이었다. (한국어도 중국어와 비슷하다.) — 다만 이 부분은 말뭉치가 너무 작고 텍스트의 종류도 달라서 그냥 재미로 해 본 정도로 볼 수 있겠다.

두 번째, 이 논문 figure 4가 아주 멋진데, 소설 3권 (모비딕, 죄와 벌, 몬테크리스토 백작)을 놓고 소설의 진행 순서에 따라서 긍정적 단어와 부정적 단어의 빈도 변화를 딱 그렸더니만, 기승전결과 갈등구조가 똭! 하고 보이는 것! 이런 분석을 이용하면 스토리 구조가 비슷한 책을 보여준다거나, 하이라이트 부분을 자동으로 찍어서 그 부분을 보여줄 수도 있겠다. 다른 책도 찾아볼 수 있게 사이트도 만들었다. 해리포터를 보니까 그럴 듯 하다. ㅎㅎ;

* 관련 논문: Dodds et al. (2015) Human language reveals a universal positivity bias. Proc. Natl. Acad. Sci. U. S. A. doi:10.1073/pnas.1411678112

TAIL-seq 두 논문 뒷 이야기

올해는 어떻게 하던 일이 잘 풀려서 (작년에 리젝을 하도 많이 당해서 쭉 밀려서) 논문을 두 편 냈다. 하나는 poly(A) 꼬리 길이를 재는 방법을 만든 논문이고, 하나는 새로 만든 그 방법을 연구실에서 관심 많았던 주제에 적용한 논문이다. 많은 분들이 “왜 얘네들은 하던 miRNA말고 갑자기 뜬금없이 poly(A) 꼬리 길이를 쟀을까?” 궁금해 하시기도 하고, 멋쟁이 논읽남 박사님의 추천도 있고 해서, 독자들이 궁금해 할 (지도 모르는) 것들을 혼자 묻고 답하고 해 본다. ㅎ;

Poly(A) 꼬리 길이는 도대체 왜 재기 시작한 거냐?

제대로 있었던 그대로 설명하자면 얘기가 꽤 길다. 원래, 우리 랩은 miRNA의 전구체인 pre-miRNA와 pri-miRNA를 만지는 단백질들을 주로 연구해 왔다. 그러다가 2008-9년에 pre-miRNA의 3′끝에 U를 붙이는 단백질인 TUT4를 발견했고, 2012년엔 그렇게 U가 붙으면 생성과정이 더 잘 돌아가는 일부 pre-miRNA들을 발견했다. pre-miRNA만 열심히 들고 파던 중, RBP에 눈이 달려서 붙일 놈 사이즈를 대충 보고 덤비는 것도 아니고, 분명히 다른 RNA도 어떤 건 3′만 나왔다 하면 냅다 붙이는 현상이 분명히 있을 것이라고 얘기가 나왔다.

그러던 중, 2012년 U를 붙일 pre-miRNA를 물색해 주는 역할을 하는 LIN28A라는 단백질이 mRNA에 잘 붙는다는 논문을 내면서, “마음씨 착한” 리뷰어 중 한 명이 “논문 내용은 잘 모르겠고, LIN28A하면 TUT4, TUT4하면 U, 그러면 mRNA에도 U 붙이는 거 아니야?”라고 창의적 드립을 쳐서, “님, 그건 좀 너무 나가신 것 같지만, 너무 좋은 코멘트이니 감사합니다. 그거 하다가는 이 논문 안 끝나니 다음으로.. ㅈㅅ”  답장을 쓰고 일단 논문은 나왔다.

LIN28A가 붙는 곳이 3′ 끝 근처도 아니고 mRNA 전역에 흩어져 있다보니 당시엔 아주 진지하게 생각해 보지는 않았다. 그런데 지저분한 세포 안 세상엔 LIN28A 아니라도 뭐라도 순진한 poly(A) 끝에 뭔가 붙여줄 녀석이 있을 거라는 생각이 계속 들었고, 2013년 2월. 결국 이번 연구를 같이 했던 임재철군이 본격적으로 poly(A)뒤에 있는 것을 시퀀싱해서 알아내자는 프로젝트를 시작했다.

나는 한편 2012년 논문을 끝내고 다음 일은 뭐할까~ 물색하던 중 당시에 논문이 몇 개 연속으로 나왔던 적혈구의 일주기(circadian rhythm) 시스템에 완전 꽂혀서 한참 보다가, RNA조절쟁이들의 원수! 전사조절이 없으니 뒤벼보나마나 poly(A) 길이로 translation 조절이 엄청 중요한 것이 몇 개는 있을 것이다 하는 가설을 세우고서는, 그 가설과 사랑에 빠져버리고 말았다. ☞☜.. 그래서, 당시에 거의 없는 것이나 마찬가지였던 poly(A) 대량 길이재기를 어떻게든 해 보려고, 몇 가지 실험을 디자인했는데… 당장 싱싱한 적혈구를 대량으로 구하기도 힘들고, 일주기 실험하다가는 폐인을 면치 못한다는 여러 문제로 일단 다른 하던 일을 하면서 마침 마찬가지로 poly(A)가 통째로 시퀀싱 라이브러리에 들어있는 재철이의 라이브러리가 내용이 너무 궁금해서 분석을 도와주면서 엉뚱했던 poly(A) 길이 재기가 시작하게 됐다.

Poly(A) 꼬리 길이 재는 건 그냥 seq.count(‘A’)하면 되는 거 아닌가?

이게 우리 첫 논문의 핵심인데, 454던 일루미나던 증폭과정이 들어가 있는 모든 2세대 시퀀서들은 똑같은 염기가 반복되는 패턴에 매우 약하다. 454보다는 낫다고는 하지만, 일루미나도 20bp만 넘어가도 제 정신을 못 차린다. phasing과 pre-phasing이라고 부르는 문제와 polymerase jumping/skipping이라고 부르는 문제가 겹쳐서 그런 것인데 자세한 것은 링크 참조. 그래서 30nt만 해도 오차가 5nt 정도 나고, 60nt정도 되면 40-60nt이상 오차가 나기 시작해서, 150nt 정도 되면 아예 측정이 불가능하다. (시퀀스 가지고 아무리 좋은 오류 모델을 세워도 오차가 200nt 이상 난다.)

마침, 재철이와 나는, 많은 생물정보학 커뮤니티에서 “다들 필수라지만 현실에 있긴 있는거야?”라고 의심하는 “실험 설계 과정에서부터 공동 설계”를 진짜로 실천한 덕에, 어떻게 해석해야 할 지도 모르게 이상하게 나온 첫 데이터를 보고 바로 방향을 제대로 잡을 수 있었다. 이후 단계로 진행할 수 있었던 가장 중요했던 첫 실험 설계 포인트 몇 가지는 다음과 같다.

  • Poly(A)길이를 진짜로 잘 잴 수 있는지 테스트해 보려고 긴 poly(A)를 화학적으로 합성해서 넣어서 같이 시퀀싱했다. 그 덕에 얼마나 진짜로 안 되는 건지 알 수 있고, 다른 대안 알고리즘들을 시험해 볼 수 있었다.
  • Homopolymer가 시퀀싱이 잘 안 된다는 사실을 미리 어느 정도는 소문을 들어 알고 있었기에, basecalling을 다른 프로그램으로 해 보려고 형광신호를 정량한 원데이터인 CIF파일들을 저장해두어서 다행히도 나중에 자세히 들여다 볼 수 있었다. (CIF는 기본 옵션에서는 자동으로 시퀀싱 도중에 지워지게 되어있고, MiSeq에서는 심지어 공식 GUI에 없는 은밀한 방법을 써야 저장할 수 있다.)
  • 여러 필터 옵션을 끄고 시퀀싱과 분석을 했다. poly(A)가 껴 있으면 read quality가 낮다보니 basecalling 과정에서 QC하다가 빠져서 FASTQ에서 이미 거의 대부분 없어져 있고, 그나마 남은 것들도 보통 많이 적용하는 quality filter에서 다 없어져버린다. 우리는 현실을 있는 그대로 한 번 열심히 봐 보자! 하고 필터를 모두 끄고 본 덕에 poly(A)가 나오기는 나왔다는 사실을 알게 돼서 거기서 힌트를 얻어서 이후 분석을 시작할 수 있게 됐다.

일단 신호를 본 뒤로는 전형적인 GMHMM쓰면 쉽게 해결될 만한 모양이라, 대략 이틀 만에 알고리즘 구성과 테스트가 끝나버렸다.  하지만 더 간단하고 멋진 방법이 있을 것 같다는 생각에 다른 것도 해 보다가 그 이후 3주일을 뻘짓했다. ;ㅁ;

첫 번째 논문은 뒤가 왠지 허전한데 무슨 일 있었나?

알고리즘도 거의 완성하고 한창 재미있게 논문에 살을 붙이던 2013년 6월, 스위스 다보스에서 열렸던 RNA Society Meeting 2013에서 David Bartel 랩에서 poly(A) 길이를 시퀀싱으로 재는 방법을 발표했다. 두 번째 리비전을 얼마 전에 받았다는 걸 봐서는 accept가 머지 않은터라 우리는 완전 비상상황이 돼 버렸다. 사실 Bartel랩에서는 2012년에 이미 poly(A) 길이를 재는 걸 시도했었는데 본문에서 2페이지 가까이 되는 내용을 쓰고서도 초록에는 한 글자도 언급이 안 될 정도로 poly(A) 길이 재는 것 자체는 완전 망한터라 그냥 안 하려나보다 하고 있었는데, 오랫동안 쭉 진행하고 있었다고 했다. 그래서…. 열심히 달려서 우선 기술 자체에만 집중해서 서둘러서 논문을 준비해 9월에 첫 투고를 했다. 그 뒤로 1달 주기로 3연속 출판 거절ㅋ (어딘지는ㅋㅋ). 그러다가 결국 공개된 날짜 기준으로는 1달 정도 늦었지만, accept 날짜로는 크게 뒤지지는 않게 논문이 나왔다.

Bartel 랩에서 만든 방법하고는 어떤 차이가 있나?

Bartel 랩 방법 (PAL-seq)이 그냥 커피라면 우리 방법 (TAIL-seq)은 TOP.. (먼산)

목적은 비슷하지만 방법은 완전히 다르다. PAL-seq은 시퀀싱 방법 자체를 수정해서 poly(A) 길이에 비례하게 primer extension으로 biotin을 넣도록 한 다음에 streptavidin-fluorophore를 붙여서 한 방에 정량한다. 반면에 우리 방법인 TAIL-seq은 그냥 전통적인 paired-end 시퀀싱을 그대로 매우 오랫동안 한 사이클에 1nt 씩 합성해서 감지한다. 그래서 자연적으로 PAL-seq은 오차가 누적되지는 않기 때문에 긴 poly(A) (주로 150nt이상)를 잘 재는 편이고, TAIL-seq은 오차 누적효과가 있지만 신호의 양이 많고 1 nt단위로 신호가 나오기 때문에 150nt보다 짧은 것들을 잘 잰다.

무엇보다 큰 차이는 PAL-seq은 시퀀싱 과정 자체를 교체해버리기 때문에, 시퀀서를 직접 가지고 아주 모험적인 프로토콜을 공들여서 하는 사람들이 아니면 직접 써 보기 어렵지만, TAIL-seq은 그냥 세계 어디서나 일루미나 기계만 갖고 있으면 할 수 있기 때문에 굉장히 만만하다. citation은 우리꺼야 냠냠

그래 됐고, 얻은 결론은 뭔가?

두 논문에서 우리가 발견한 것을 요약하면 다음과 같다.

  • mRNA poly(A)뒤에 U가 생각보다 많음. 특히 짧은 poly(A)에 몰려 있다.
  • 의외로 poly(A) 길이는 mRNA translation과 전반적으로는 별 관련이 없다.
  • mRNA poly(A)뒤에 G도 제법 있는데, 이건 기능도 모르고 누가 붙이는 지도 모름. 아마도 mRNA를 보호하는 효과가 있지 않을까 예상.
  • poly(A) 뒤에 U 붙이는 것은 TUT4와 TUT7이 하는데, 두 단백질이 다 없어지면 세포가 죽는다.
  • TUT4와 TUT7을 줄이면 mRNA가 전반적으로 오래 사는 걸 봐서, U가 붙는건 mRNA decay에 관련있는 듯.
  • TUT4와 TUT7은 내재적으로도 짧은 poly(A)를 선호하고, poly(A)에 PABP까지 붙으면 그 경향이 더 뚜렷해진다.

베스트샷 하나만 꼽는다면?

TAIL-seq 자체에 대한 앞 논문 Fig. 1번도 좋아하긴 하지만 (ㅋㅋ 쑥스..), 미관상 이번 논문의 아이스크림 막대기 모양 그림이 마음에 든다. 보기만 해도 좀 달달하고 좋지 않나? ㅎ;;;

mRNA-urid-fig6-original

그럼 다음엔 뭐하나?

우선 우리가 원래 가장 궁금했던 TUT4와 TUT7의 mRNA꼬리에 U붙이기 문제는 이번 논문으로 해결했고, 다음에 뻔히 나올 수 있는 여러 분야에 적용하고 있는 중이다. poly(A)가 조절되는 걸 가지고 할 수 있는 후속 연구란 너무 뻔해서 비밀이라고 해도 다 예상이 가능할 것 같다. =.=

그리고, TAIL-seq 첫 논문에서 알고리즘에 대해서는 자세히 언급됐지만, 프로그램이 아직 공개되어 있지 않다. 프로그램은 지금 사람과 쥐가 아닌 다른 종에도 쉽게 적용할 수 있도록 아주 단순한 범용 프로그램으로 새로 만들고 있다. 기존 프로그램은 계산량이 워낙 많아서 클러스터 없이는 분석이 힘들었지만, 이번에 필요없는 계산을 많이 제거하고 Julia로 주요 부분을 거의 교체했다. 다른 일이 많이 겹쳐 있어서 늦어지고 있지만, 아마도 2015년 2분기 중에는 공개할 수 있을 것 같다.

연구에 참여한 사람과 사사

전체 연구 계획과 설계, 진행은 김빛내리 교수님, 장혜식, 임재철, 하민주 박사가 했습니다. TAIL-seq 기술은 장혜식, 임재철이 공동으로 설계하고 개발했습니다. 두 논문 모두 주요 생화학 실험은 임재철, 하민주 박사가 수행했습니다. 두 번째 논문 (Uridylation..)에는 권성철 박사, Dr. Dhirendra Simanshu가 실험을 도왔습니다. 이 연구는 기초과학연구원(IBS)의 연구비 지원으로 진행되었습니다.