01 High-throughput sequencing-RNA-Seq 소개
예를 들어, 이제 정상 신경 세포 그룹과 돌연변이 신경 세포 그룹이 있습니다. 돌연변이 세포는 정상 세포와 다르게 행동합니다. 우리는 이러한 차이를 일으키는 유전적 메커니즘이 무엇인지 알고 싶습니다. 이는 유전자 발현의 차이를 살펴보고 싶다는 의미입니다. 각 세포에는 여러 개의 염색체(염색체)가 있고, 각 염색체에는 여러 개의 유전자가 있습니다. 일부 유전자는 활성이고 일부는 비활성입니다. 고처리량 시퀀싱은 어떤 유전자가 활성이고 얼마만큼 전사되는지 알려줍니다. 우리는 RNA-Seq을 사용하여 정상 세포와 돌연변이 세포에서 유전자 발현을 검출할 수 있습니다. 그런 다음 두 세포 유형을 비교하고 돌연변이 세포에서 두 세포 유형이 어떻게 다른지 알아낼 수 있습니다.
RNA-Seq은 세 가지 주요 단계로 구분됩니다.
참고: 일반적으로 사용되는 Illumina 프로토콜과 시퀀서를 예로 들어 설명합니다. 하지만 다른 프로토콜과 시퀀서도 있다는 점을 기억하세요. 그것은 다릅니다.
RNA 전사체의 길이는 수천 염기일 수 있지만 시퀀서는 더 짧은 단편(200-300bp)만 서열 분석할 수 있기 때문에 이렇게 합니다.
이중 가닥 DNA는 RNA보다 안정적이며 증폭 및 변형이 쉽습니다.
어댑터는 두 가지 작업을 수행합니다.
참고: 이 단계는 100% 효율적이지 않습니다.
시퀀싱 어댑터가 있는 조각만 증폭됩니다.
시퀀싱하려는 DNA 조각이 수직 방향이라고 상상해 보세요. 왜냐하면 그것이 서열 분석기에 있기 때문입니다. 실제로 그리드에는 대략 4억 개의 세그먼트가 수직으로 배열되어 있습니다. 플로우 셀이라고 부르는 격자 모양의 조각 4개를 보여드리겠습니다. 이 기계에는 형광 탐침이 있고 다양한 색상의 탐침이 서로 다른 뉴클레오티드를 결합합니다. 프로브는 각 서열의 첫 번째 염기에 부착됩니다. 프로브가 부착되면 기계는 위에서 플로우 셀 사진을 찍습니다. 이 그림은 왼쪽 아래 모서리에 있는 첫 번째 베이스가 "A"이고 오른쪽 아래 모서리가 ''G''이며 그 뒤에 두 개의 'A''가 있다는 것을 기계에 알려줍니다. 그런 다음 기계는 프로브에서 색상을 씻어낸 다음 각 조각의 다음 염기에 결합하고 프로세스를 반복합니다. 이 과정은 기계가 각 뉴클레오티드의 서열을 결정할 때까지 반복됩니다.
때로는 프로브의 밝기가 높지 않아 기계가 올바른 색상을 판단하고 있는지 확신할 수 없습니다. 품질 점수는 기본 인식에 대한 기계의 신뢰도를 반영합니다. 이 경우 희미한 포인트는 낮은 품질 점수를 받습니다.
품질 점수가 낮은 또 다른 이유는 동일한 영역에 동일한 색상의 프로브가 많이 있기 때문입니다. 이를 '낮은 다양성'이라고 하며 단일 색상이 너무 많으면 확인하기가 어렵습니다. 단일 시퀀스를 식별하기가 어려워지고 색상이 함께 흐려집니다.
각 시퀀싱 "읽기"에는 4개의 데이터 행이 포함됩니다. 첫 번째 줄(항상 @'로 시작)은 시퀀스의 고유 ID입니다. 두 번째 줄에는 서열 조각의 염기가 포함되어 있습니다. 세 번째 줄은 항상 " " 문자입니다. 네 번째 행에는 서열 조각의 각 염기에 대한 품질 점수가 포함되어 있습니다.
이제 원시 데이터와 그 생성 방법을 이해했으므로 다음을 수행해야 합니다.
1. 정크 읽기 필터링
2. 고품질 변환 reads Align to Genome
3. 각 유전자에 대한 reads 계산
분석 전 마지막으로 하는 일은 데이터를 정규화하는 것입니다. 이는 한 샘플의 판독 품질이 더 낮을 수도 있고, 다른 샘플이 플로우 셀에서 약간 더 높은 농도를 가질 수 있기 때문에 각 샘플의 판독 값이 다르기 때문입니다. 예를 들어 샘플 1에는 635개의 읽기가 있고 샘플 2에는 1270개의 읽기가 있습니다. 이는 샘플 2의 유전자 전사량이 샘플 1의 2배라는 의미는 아닙니다. 반대로, 이는 샘플 2가 샘플 1보다 품질이 낮은 판독 횟수가 적고 플로우 셀에 더 많은 스팟이 있을 수 있음을 의미합니다. 그러나 판독 결과로 판단하면 샘플 2의 유전자 전사량이 샘플 1의 2배인 것으로 보입니다. 따라서 각 샘플에 할당된 읽기의 차이를 반영하기 위해 각 유전자에 대한 읽기를 조정해야 합니다. 가장 간단한 방법은 각 유전자에 대한 판독값을 각 샘플에 대한 총 판독값으로 나누는 것입니다. 그러나 이를 수행하는 더 정교한 방법이 많이 있습니다.
원시 데이터를 표시하려면 20,000개의 축이 있는 차트가 필요하므로 PCA(Principal Component Analysis) 또는 유사한 방법을 사용하여 데이터를 표시합니다. PCA는 데이터의 중요한 측면을 표시하는 데 필요한 축 수를 줄입니다. 이것은 신경 세포에서 수행된 RNA-seq 실험의 PCA 플롯입니다. "wt" 샘플은 "정상"입니다. "ko" 샘플은 연구원들이 돌연변이를 일으킨 샘플입니다. "ko" 샘플은 구석에 멋진 작은 클러스터를 형성합니다. "wt" 샘플은 모두 왼쪽에 있지만 y축에 분포되어 있습니다. 이러한 플롯이 표시되는 방식에서 가장 중요한 차이는 x축에 있고 y축의 차이는 중요하지 않습니다. 즉, "wt"와 "ko" 샘플 간의 차이가 가장 크다는 의미입니다. 추가 분석을 수행할 때 "wt2"를 제외할 수 있습니다.
요약:
이는 일반적으로 edgeR 또는 DESeq2를 사용하여 수행되며 결과는 일반적으로 이 차트를 사용하여 표시됩니다.