gieyoung0226의 등록된 링크

 gieyoung0226로 등록된 네이버 블로그 포스트 수는 163건입니다.

GWAS) PCA란 [내부링크]

Principal Component Analysis(PCA, 주성분분석) 간단하게 설명하면, "N차원의 변수들을 가장 잘 설명할 수 있는 축" 이다. 이러한 PC(주성분)에는 아래와 같은 특징이 있다. 첫번째 PC 에는 대부분의 변수들의 정보를 최대한 압축하여 입력한 다음 두번째 PC 에 나머지 정보들을 최대한 압축하여 입력하고 세번째 PC 에서도 마찬가지로 나머지 정보들을 최대한 압축하여 진행하는 방식으로 정보를 재활용하지 않기 때문에 서로간의 연관성이 없는, 각 PCs는 서로 연관성이 없다. 이런 정보는 GWAS과 같이 많은 변이를 예측 변수로 포함하는 고차원 데이터세트에서 발생할 수 있는 차원의 저주(Curse of dimensionality)를 해결하기 위해 유용하게 쓰인다. 차원의 저주(Curse of dimensionality) 차원의 저주란 변수의 수가 급격히 증가하는 고차원 데이터를 다룰 때 발생하는 어려움을 지칭하는데, GWAS 또한 같이 수 많은 변이를 예측변수로

GWAS)PCA 계산 방법(1) [내부링크]

PCA 계산 방법 연속 초기 변수의 범위 표준화 상관 관계를 식별하기 위한 공분산 행렬 계산 공분산 행렬의 고유 벡터와 고유 값을 계산하여 주성분을 식별 유지할 주성분을 결정하기 위해 특징 백터 구축 주성분 축을 따라 데이터 재구성 Step1. 표준화(Standardization) PCA를 진행하기 위해 표준화를 진행하는 이유는, 초기 변수의 분산에 민감하게 반응하기 때문인데, 초기변수의 범위 차이가 크다면, 넓은 범위에 존재하는 변수들은 대부분 좁은 범위에 존재하고, 이는 편차(bias)가 생긴 결과를 가져온다(0~100이라면, 대부분 0,1 사이에 존재함). 수학적으로는 z-score 를 사용하거나 log 값을 취하는 방법으로 표준화를 진행한다. #/bin/Rscript #log, N is number log(A, base=N) #Z-statistic qnorm(A) Step 2. 공분산 행렬 계산 변수들이 서로에 대해 평균과 얼마나 차이가 있는지, 어떤 관계가 있는지 확인하는

Genetic Relationship Matrix (GRM) [내부링크]

GCTA 와 SAIGE 에서 Genetic Relationship Matrix(GRM) 을 사용하여 GWAS 분석을 진행한다. GCTA에는 total SNPs를, SAIGE에서는 parameter를 추정하기 위하여 null model 에 fitting 하기 위해 sparse GRM을 사용한다. GRM 은 무엇일까? Genetic Relationship Matrix(GRM) Genetic Relationship Matrix는 SNPs와 Individuals 사이의 연관성을 나타내는 matrix이다. GCTA 실습 R code #Make simulate data n=5; m=3 set.seed(10) p = runif(m, min=0.2, max=0.5) ### allele frequency were draw from a uniform distribution x_A1 = t(replicate(n, rbinom(m, 1, p))) ### for the plink ped file x_A2

논문 pulish 후 느낀점 [내부링크]

석사기간동안 연구하던 내용을 썼던 2편의 논문이 최근에 공동1저자로 publish되며 마무리를 지었다. Publish 된 걸 보니까 이제서야 진짜로 대학원을 졸업한 기분이 든다. 학부를 순수 생물학으로 시작했던 내게 Bioinformatics는 매우 어려운 과목이었다. 유전체분석에서 절대로 빠질 수 없는 regression을 위해 배워야 했던 생소한 수학(linear allegra 등), windows가 아닌 linux 그리고 분명 한글로 써있는 KCI 논문임에도 이해하기 어려워하는 나를 보며 '과연 이 분야에서 논문 한 편은 써볼 수 있을까' 라는 생각이 들었었다. 그리고 이런 어려움은 나 혼자만의 어려움이 아닐거라는 생각이 들어서, 블로그에 공부한 내용들을 적기 시작했었다. 다행히 석사 기간동안 많은 지식과 피드백 그리고 연구자의 자세와 마인드를 알려주시고 지도해주신 너무나도 훌륭하신 지도교수님과 여러 발표회에 참여할 수 있는 기회를 주시고 다양한 NGS 데이터들을 분석해볼 수

SnpEff & SnpSift [내부링크]

변이(variant) 분석을 진행하다보면 한 두개 정도야 dbSNP 와 같은 데이터베이스에 접근해서 rsID, frequency 등의 정보를 볼 수 있지만, 많은 변이들을 확인해야 하거나 다양한 정보들을 확인하기 위해서 일일이 손으로 찾는다면 human error을 범할 수도 있고 시간도 오래 걸리게 될 것이다. 이를 위해 다양한 annotation tool 이 있지만, 그 중 무료로 사용 가능한 snpEff & SnpSift 를 소개한다. SnpEff (SNP Effect): SnpEff는 주로 유전체 데이터에서 발생한 단일 염기 다형성 (SNP), 삽입 및 삭제 (Indels)와 같은 변이들의 기능적 영향을 예측함. 주요 기능: 1. 변이의 기능적 영향을 예측하고, 유전체 주석(annotation)을 제공함. (GRCh38 기준, ensembl ID 로 mapping gene & variant type 제공) 2. 다양한 생물종에 대한 데이터베이스를 활용하여 변이의 기능을 예측함

PRSise-2 [내부링크]

GWAS(Genome-wide association studies)통해 다양한 질병 및 상태와 연관성이 있는 수많은 SNPs를 확인할 수 있다. PRS(Polygenic risk scores,다유전성 위험 점수)는 다양한 연구들에서 확인된 SNPs 에서 개개인의 alleles 의 effect(beta 값 등)을 더하여 다양한 질병 및 상태의 위험도를 계층화 할 수 있도록 도와준다. 이때, 어떤 SNPs를 사용하는 것이 좋을지를 결정하는 것이 필요한데, 가장 간단한 방법으로는 window size 내 가장 높은 p-value를 가지는 snp를 선별하는 방법 이 있지만, 매우 strict 방법이기 때문에, 유의미한 snps까지 제거될 수 있다. 예를 들어 LOAD(Late-onset alzheimer disease)의 APOE 가 있다. APOE type을 결정하는 두개의 snps는 매우 인접해있기 때문에, 일반적인 window size만 고려하게 된다면 둘 중 p-value가 높은 s

Imbalance GWAS 해결방법 [내부링크]

일반적으로 GWAS 를 진행할 때, 처음부터 디자인을 하는 경우가 아니라면 open database를 사용하게 될 것텐데, 계층화(stratification)분석으로 Case Control 을 디자인한게 아니라면 Case 대비 많은 수의 Control samples 을 다루게 된다. Control samples이 많은 상태로 GWAS를 분석하면 나타날 수 있는 문제점들과 해결방안에 대해 이야기 해보자. Control samples이 많은 상태로 GWAS를 분석하면 나타날 수 있는 문제점 1) 편향된 연관성 평가 : Case Control 그룹이 불균형하게 분포되면, 연구 결과가 Control 에 편향되어 실제로는 유의미하지 않은 변이가 통계적인 불균형으로 인해 특정 질병과 연관성을 나타날 수 있음. 2) 상대적으로 적은 수의 Case의 검정력을 낮춤 : 표본 크기가 작은 케이스 그룹은 통계적 검정력(힘)을 낮추게 됨으로 유전적 연관성을 식별하기 어렵게 만들 수 있음. 3) 위험율의

ICD10 Code - Neoplasm [내부링크]

의료 기록(Clinical information)의 표준화는 의사가 아닌 나와 같은 사람들에게 보다 정확하게 각 질병에 대한 이해를 도와줄 수 있다. 예를 들어 유방암 이라고 한다면 전이성, 침윤성, 발생위치 등에 따라 Malignant neoplasm of breast, Lobular carcinoma in situ, Intraductal carcinoma in situ, Other carcinoma in situ of breast, Carcinoma in situ of breast, unspecified 등 다양하게 나뉠 수 있다. 나와 같이 의사가 아닌 사람들은 임상정보만으로 어떤 암인지 구분하는 것이 어렵고, 구분한다고 하더라도 정확성을 검증 할 수 없다. 다양한 질병 및 상태에 대해 전문가가 정의를 해준다면, 의료정보를 사용하는 연구자의 입장에서는 편리함과 정확성을 가져갈 수 있다. 이를 위해 ICD-10(10차 버전, International Classification o

GWAS)로지스틱 회귀(2) - 관측값의 예측 확률 [내부링크]

로지스틱 회귀분석(logistic regression analysis)를 설명하기 위해 GLM의 MLE를 사용하여 회기계수를 계산하는 수식과 영상을 이전 포스트에서 설명하였다. 이을 통해 i번째 관측값에 대한 예측된 확률(πⅰ, =종속변수의 확률)을 예측할 수 있다. GLM으로 계산된 회기계수를 사용하면 i번째 관측값에 대한 에측된 확률을 계산할 수 있게 된다. χⅰ : 독립변수 Y : 종속변수(0 or 1) πⅰ 값 :ⅰ번째 관측값에 대한 예측된 확률 P(=1|χⅰ ) : χⅰ가 주어졌을 때, Y=1 일 확률 ß =로지스틱 회귀에서 추정된 값 로지스틱 회귀분석은 이항(Binary)분류 문제에서 진행하기에 종속변수 Y= 0 or 1로만 존재하며 최대 우도 추정법을 통해 게산된 회기계수(ß)를 추정하고, 이을 통해 i번째 관측값에 대한 예측된 확률(πⅰ, =종속변수의 확률)을 예측할 수 있다. 참고자료 : https://www.cog-genomics.org/plink/2.0/assoc

GWAS)로지스틱 회귀(1) - 최대 우도 추정법 [내부링크]

로지스틱 회귀분석(logistic regression analysis)는 이항(Binary)분류 문제에서 진행하기에 종속변수 Y= 0 or 1로만 존재하며 비선형을 선형으로 '일반화'시키는 일반화 선형모형(generalized linear model, GLM) 의 하나에 속하는 방법이다. GLM은 최대 우도 추정법(Maximum Likelihood Estimation, MLE) 를 통해 회기계수를 계산하게 된다. Y : 종속변수 ß0 =모델절편 ß1, ß2 , ... , ßn = 각각의 공변량에 대해 glm으로 계산된 계수값 χ1, χ2 , ... , χn = 각각의 독립변수 ε = 오차항 수식으로 보기 어렵다면, 아래 유튜브에 최대 우도 추정법에 대해 영상으로 설명하는 부분이 있으니 참고하면 좋을 것 같다. 참고자료 : https://www.cog-genomics.org/plink/2.0/assoc#glm Association analysis - PLINK 2.0 Associati

Correlation coefficient(CC) [내부링크]

Correlation coefficient(CC, 상관계수) 두 변수로 산점도 그래프를 그려보면 직선, 곡선 등 다양한 형태를 가질 수 있는데, 점들이 얼마나 직선에 가까운지 정도를 나타는 데 쓰이는 척도가 상관계수(Correlation Coefficient)이다. 곧, 상관계수란, 두 변수 X, Y 사이의 상관관계 정도를 숫자로 나타낼 수 있다. https://en.wikipedia.org/wiki/Pearson_correlation_coefficient 상관계수가 절대값 1에 가까울 수록, 곧 절대값의 크기가 클 수록 두 변수 X, Y 의 산점도는 직선관계에 가깝고 이는 두 변수 사이의 연관성이 크다는 것을 알 수 있지만, 반대로 0에 가까울 수록 연관성이 매우 약하다는 것을 의미한다. R에 기본으로 내장되어있는 함수 cor를 통해 이를 구현할 수 있다. cor(x, y = NULL, use = "everything", method = c("pearson", "kendall",

논문요약) Methylation age predictor in mouse [내부링크]

Babraham dataset로서, RRBS libraries를 사용한 new born, 14 weeks, 27 weeks and 41 weeks mice의 Tissues 사용 Elastic-net regression model를 통해 chronological age를 예측한 final predictor 인 329개의 selected CG sites는 DNA methylation levels 은 age 와 높은 연관성이 있었음 Age predictions using the human clock sites in mouse - 인간에서 나이를 예측할 수 있는 specific genomic loci 가 Mouse도 예측할 수 있는지 확인 - 175 개 중 age prediction에 사용할 수 있는지 평가하기 위해 age prediction model을 생성하여 175개의 regions이 age-related information 과 age를 예측할 수 있는지 확인하였을 때 모든 175개

Seurat (1) [내부링크]

10X 데이터를 분석을 진해하기 위해 cellranger 를 사용하면 barcodes.tsv, genes.tsv 그리고 matrix.mtx 형태의 데이터를 얻을 수 있다. Seurat 에 존재하는 Read10X function를 통해 해당 데이터들을 읽어드리면 gene by barcode(cell) 인 "Matrix" 형태를 얻게 된다. Read10X pbmc.data <- Read10X(data.dir = "../data/pbmc3k/filtered_gene_bc_matrices/hg19/") CreateSeuratObject > pbmc <- CreateSeuratObject(counts = pbmc.data, project = "pbmc3k", min.cells = 3, min.features = 200) > dim(pbmc.data) [1] 32738 2700 > dim(pbmc) [1] 13714 2700 > pbmc.data["OR4F5", 1:12] AAACATACAAC

t-test 와 t-test 내 p-value의 의미 [내부링크]

t-test란? 두 집단의 평균 등의 차이가 의미가 있는지 알아보는 검사방법으로 사용되며, 영가설 하에서 t-분포를 이루는 통계치를 사용한다. t-분포를 구하기 위해서 t-value를 구해야 한다. (Student's) t-value 계산방법 : t = 그룹간 평균의 차이가 클 때 큰 값을 가지게 세팅된 변수로서 그 식은 아래와 같다. t-value 를 통한 p-value 계산방법 : 각 비교하고자 하는 그룹의 분포의 평균(X) 과 표준편차(s) 를 사용하여 (Student's) t-value 를 구했다면 Probability density function(PDF)를 통해 t-distribution을 구하게 된다. 이를 통해 p-value를 구할 수 있다. 아래는 t-distribution의 모습이다. R 에 기본으로 내장되어 있는 t.test 함수를 통해 t값과 p-value를 계산할 수 있다. Reference : https://ko.wikipedia.org/wiki/%EC%8A

Seurat (2) - FindVariableFeatures [내부링크]

https://github.com/leegieyoung/scRNAseq/blob/master/Seurat/QC.R scRNAseq 코드 및 변수 설명 QC pipeline (One sample) QC <- function(dir,Sample,type){ print("Read10X") raw.QCdata <- Read10X(data.dir = paste0(dir,"/",Sample)) print("CreateSeuratObject") QCdata <- CreateSeuratObject(counts = raw.QCdata, project = type) QCdata[["percent.mt"]] <- PercentageFeatureSet(QCdata, pattern = "^MT-") QCdata[["percent.he"]] <- PercentageFeatureSet(QCdata, features = hemo) QCdata[["percent.ep"]] <- PercentageFeatureSe

Seurat(3) ScaleData RunPCA JackStraw [내부링크]

https://github.com/leegieyoung/scRNAseq/blob/master/Seurat/QC.R scRNAseq 코드 및 변수 설명 QC pipeline (One sample) NormalizeData FindVariableFeatures ScaleData (features를 통한 수를 정해주지 않으면 2000 개의 유전자로만 진행하게 되기에 정해주는 게 좋음, 이는 PCA 와 Clustering 결과에는 영향을 주지 않지만 DoHeatmap() 에 영향을 줄 수 있음) Shifts the expression of each gene, so that the mean expression across cells is 0. Scales the expression of each gene, so taht the variance across cell is 1 test <- function(x){ + A = paste("sum= " ,sum(x)) + B = paste("var=

Seurat - Normalize Data & GetAssayData [내부링크]

Seurat 에서 분석 진행 중 Normalized 단계가 있다. pbmc <- NormalizeData(pbmc, normalization.method = "LogNormalize", scale.factor = 10000) 이는 각 Cell 당 Feature(=gene)에 n수의 SD의 크기를 줄이기 위한 방법인데 그 중 default 값인 LogNormalize 에 대해 알아보고자 한다. normalization.method LogNormalize: Feature counts for each cell are divided by the total counts for that cell and multiplied by the scale.factor. This is then natural-log transformed using log1p. 이를 해석하면 이며 아래의 값을 통해 위 식이 맞는 것을 확인할 수 있다. > GetAssayData(pbmc, slot="counts")[c(74,

Seurat - Integration [내부링크]

Integration 시 features 의 수를 지정하게 되고 그 결과 assay 에 따라 features의 수가 다르다. > dim(GetAssayData(object=Plasma, slot="data",assay="integrated")) [1] 2000 2551 > dim(GetAssayData(object=Plasma, slot="data",assay="RNA")) [1] 33694 2551 그럼 features 의 변화가 있을까? 가 궁금했고 이를 확인해보았다. > GetAssayData(object=Plasma, slot="counts",assay="RNA")[c(23873, 23866, 32546),c(1,3:10)] 3 x 9 sparse Matrix of class "dgCMatrix" C69_AACATATGTCCTCG-1 C69_AACCTTACGCTCCT-1 C69_AAGATTACGAGGAC-1 IGHM 1 1 . IGHGP . 3 1 IGLL5 . . . C69

다중비교(multiple hypothsis test) [내부링크]

1종오류 모집단(실제)에서는 차이가 없지만 표본(일부분)에서 분석하니 집단간 차이가 있다고 판단하는 오류를 말한다. 다중비교, 곧 가설에 근거하지 않고 무작정 많은 비교를 하게되면 생기는 문제가 위와같은 1종오류가 많이 발생할 수 있다는 것인데, 실제로는 연관성이 없는데도 불구하고 우연에 의해 연관성이 나타나는 것 처럼 보이게 된다. 예를 들어 GWAS 같이 수십~수백만개의 SNPs를 phenotype에 따른 연관성을 분석하는 것과 같은 경우가 있다. 다중비교의 문제 중 하나인 1종오류의 증가를 보정하는 방법(FWER) Family-wise error rates(FWER)이란, 전체 가설에서 하나라도 잘못 기각 시킬 확률(false positive, 제 1종오류) 이를 줄이기 위해 쓰이는 방법 2가지를 소개하면 일반적으론 Bonferroni correction 을 사용하나 이는 지나치게 보수적인 방법으로 실제로는 연관성이 있는데도 이를 배제시킬 수도 있다. Free step-down

RNAseq)edgeR 원리 3) TMM [내부링크]

이전 포스팅에서 calcNormFactors 에 대해 설명했는데, 그 결과물인 effective library size 에 대해 설명해보겠다. cpm(counts-per-million)의 공식은 gene's counts / total counts * 1*10^6 이다. RNAseq의 경우 소수의 유전자들이 매우 높은 발현값을 가질 수 있다. 이로 인해 total counts의 값이 커지게 되고 낮은 발현을 가진 유전자들이더 낮은 값을 갖게 된다. 이를 보정해주는 방식 중 trimmed mean of M-values(TMM) 방식이 있으며 calcNormFactors 단계에서 이를 사용하여 total counts의 size 를 보정하는 scaling factors를 계산한다. effective library size = scaling factors * total counts 각 샘플당 1개의 scaling factors를 만들지만 이는 여러 샘플들 사이 most genes의 log-F

WGCNA-1, scale free network [내부링크]

Expression matrix Calculate Adjacency matrix Calculate TOM Similarity matrix WGCNA 논문에서 adjacency matrix에 대해 살펴보면 아래와 같다. P. Langfelder, S. Horvath, WGCNA: an R package for weighted correlation network analysis, BMC Bioinfo, 9, 559 (2008) 정리하자면 Expression data matrix 에서 수학적인 계산 방법으로 scale-free network 형태로 변환시켜 적절한 adjacency matrix 를 찾아간다. adjacency matrix를 계산하는 방법은 간단하게도 |cor(genei, genej)|Power of scale-free topology 인데 Power of scale-free topology 중 그중 scale free 가 무엇인지 알아보자. Scale-free networ

WGCNA-2, TOM(Topological Overlap Matrix) [내부링크]

Expression matrix Calculate Adjacency matrix Calculate TOM Similarity matrix TOM 이란? Topological Overlap Matrix 의 약어로서 TOM의 을 통해 직접적인(aij) 관계와 간접적인(Iij) 관계를 계산하는 방식이며 이를 통해 두 유전자의 유사성(similarity)를 계산할 수 있다. 계산과정은 아래와 같다. aij = The adjancency matrix of gene i and gene j. Iij = Gene i와 gene j 사이에 간접적인 관계를 갖는 값의 총량 aij는 검은 동그라미의 유전자들 사이의 관계이며 Iij는 검은 동그라미 주변의 투명한 동그라미 유전자가 여러개인 유전자의 값이다. 직관적으로는 아래 Scale free network. https://en.wikipedia.org/wiki/Scale-free_network 곧 TOM을 통해 직접적인(aij) 관계와 간접적인(Iij)

sPLS-DA [내부링크]

1. parse PLS discriminant analysis(sPLS-DA) 란 PLS (Partial Least Squares Regression) 목적 : PLS 를 통한 demension 축소 PCA는 Total feature를 통해 분류하지만, PLS 는 feature 와 class 까지 고려한 뒤 rotation을 진행하여 feature가 늘어선 방향이 class 와 잘 일치하는 co-variance 를 찾아주면 samples이 class 에 따라 Clustering 되는 방식을 볼 수 있음. 결국 PCA 기반 regression도 가능하겠지만, Class 에 대한 걸 요구하지 않고 total-variance 만 따지기에 class를 잘 나눌 수 있는 방식을 사용하였음. DA (discriminant analysis) 유전자 > 샘플 수 인 경우, overfitting 이 생길 수 있어 모델을 구축하게 되면 어떤 결과물도 맞출 수 있게 됨. Heatmap 상 같은 clus

베이지안(Bayessian) 추론 [내부링크]

베이지안 모델 이란 어떤 가설의 확률을 평가하기 위해 사전지식(prior)를 갖춘 뒤 관측결과를 기반으로 likelihood 를 계산하며 사전지식을 보정하는 과정을 통해 우리가 아는 지식(pre)을 보충해가는 것을 말함. 그래서 베이지안은 ML에서 중요함. ML은 데이터가 주어졌을 때 FB을 통해 보완해가는 것과 Bayessian 과 같은 개념. 따라서 Bayessian 모델은 인공지능 분야에서 베이지안 추론, 판별분석 등에 사용된다. 실제로 Deep learning(DL), 회귀분석, Bayessian 을 통한 모델들 중 Bayessian 이 정확하게 맞추는 경우가 많아서 중요함. 확률론에서는 기존 빈도를 기반으로한 확률이 있고 Bayessian 이 있다. Bayessian이 인공지능 파트에서 다뤄지는 이유는 "반복을 통해 학습한다" 라는 부분이 DL과 ML 와 비슷함. 베이즈 공식(Bayes formula) P(Bj|A) : 사후확률(Posterior), A가 발생한 경우의 Bj

판별분석(Discriminant analysis) [내부링크]

sPLS-DA 중 DA (discriminant analysis) 유전자 > 샘플 수 인 경우, overfitting 이 생길 수 있어 모델을 구축하게 되면 어떤 결과물도 맞출 수 있게 됨. Heatmap 상 같은 cluster 유전자 패턴이 비슷한 경우, 생물학적인 이유로 유전자 끼리 서로 independent 하지 않음 이런 경우 model fitting이 잘 안됨 DA 는 이런 경우에도 잘 작동한다고 알려져 있으며, PCA처럼 적은 수의 Component를 뽑아줄 수 있음. 판별분석(discriminant analysis)이란 두개 이상의 모집단(Phenotype)에서 추출된 표본들(Genes)이 지니고 있는 정보를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지를 결정해줄 수 있는 분석 방법. ex) 은행에서 부동산 담보 대출을 행하고자 하는 경우, 채무자가 대출금을 갚을 것인지, 그렇지 않을 것인지의 여부가 중요한 관심사이다. 이 경우 과거에 대출금 반황을 하지 않은 사

GWAS) Type1 Error, Type2 Error [내부링크]

어떤 검정(test)을 통한 의사결정을 할 때는, 일반적으로 분포(distribution)를 통해 나오는 "확률"을 기준으로 한다. predict \ label 암 정상 암 일 것이다(Positive) TP(예측 : 암, True) FP(예측 : 암, False) 정상인 일 것이다(Negative) FN(예측 : 암 아님, False) TN(예측 : 암 아님, True) 통계학 데이터를 만지다보면 P < 0.05 라는 걸 들어볼 수 있는데, 여기서 1종 오류와 2종 오류 라는 걸 들어봤을텐데 1종 오류란 Positive 로 예측(넌 유의한 snp야!)했지만, 실제론 유의하지 않은 오류 2종 오류란 Negative 로 예측(넌 유의하지 않은 snp야!)했지만, 실제론 유의한 오류 Case, Control 의 수가 서로 불균형하다면 1종오류의 발생확률이 증가(https://www.nature.com/articles/s41588-018-0184-y)하기 때문에 1종오류의 발생확률이 증가하

linux)lftp [내부링크]

파일을 한,두 개 정도 옮기는 경우 ftp / sftp 로도 가능하지만, 겹치는 파일이 있거나, 전송 중 끊긴 파일 같은 것들이 있는 경우 ftp/sftp 는 덮어쓰지만, 이를 위한 "미러링"기능이 있는 lftp 가 있다. lftp 사용방법 : lftp -u '사용자ID:비밀번호' sftp://서버주소 접속한 서버 : local 접속할 서버 : remote mirror : remote에서 local로 파일을 내려받는 경우(get) 사용 mirror -R : local 에서 remote로 파일을 올리는 경우(put) 사용 lftp -u '사용자ID:비밀번호' sftp://서버주소 "mirror /local파일위치 /remote파일위치" parrarel 병렬처리를 원하는 경우 사용 --parallel=n(숫자) lftp -u '사용자ID:비밀번호' sftp://서버주소 "mirror -R --parallel=10 /local파일위치 /remote파일위치"

선형대수) Cross product(외적) [내부링크]

외적(Cross product) 단어가 햇갈리지만, 주어진 벡터들과 수직으로 존재하는 벡터를 얻는 방법이다. 외적으로 넓이를 구하는 방법(라그랑주 항등식)

선형대수) eigenvalue, eigenvector, eigenspace, Diagonalization [내부링크]

eigenvalue, eigenvector, eigenspace Diagonalization

논문분석)Cibersortx [내부링크]

Abstract : Single cell RNAseq은 세포별 이질성(heterogeneity)을 특정화 할 수 있는 방법이지만, 현재는 규모가 큰 샘플 코호트에서는 관행적이지 않으며 일반적인 임상 치료 방법으로 모은 고정된 검체에서는 적용할 수 없다. Digital cytometry 방법인 CIBERSORT 는 bulk tissue transcriptomes 에서 cell type 별 abundances를 추정할 수 있는데, 논문에서 소개하는 CIBERSORTx는 물리적인 cell isolation 없이 cell-type-specific 하게 gene expression profiles 을 추정하는(infer) 머신러닝 방법을 사용하였다. CIBERSORTx 는 platform-specific한 변수를 최소화함으로서 대규묘 tissue dissection 으로부터 single-cell RNAsequencing 을 사용할 수 있도록 해준다. Introduction : 조직들은 기능들

RNAseq)edgeR 원리 1) [내부링크]

edgeR은 RNA counts data로부터 Differential Expression(DE) Analysis 를 진행하며 속도측면에서 빠르고 Bayesian gene-wise dispersion estimation을 구할 수 있기에 유전자와 전사체 간의 정보를 알 수 있습니다. RNA분석은 Count data를 그대로 사용하지 않고 normalization을 필요로 하며 edgeR에서 사용하는 normalization 과정 중 사용하는 옵션들에 대해 설명해보겠습니다. 1) DGEList > edgeR 에서 데이터를 효율적으로 사용할 수 있도록 List-based data 형태로 변환시켜주는 옵션이며 각각의 샘플에 대해 1) Counts data 2) Library.size(= sequencing depth = sums of the counts) 를 얻을 수 있습니다. x$samples. group을 정해주지 않아서 숫자형태 2) filterByExpr > Computer Cost

RNAseq)edgeR 원리 2) [내부링크]

1) DGEList 2) filterByExpr 3) calcNormFactors Differential Expression analysis 진행 중, 한 샘플에서 highly expressed genes 이 total library size에 상당한 부분을 차지한다고 가정하면, 그 외 genes 은 total library size에서 낮은 비율로 존재하게 되어 해당 샘플에서 down-regulated expression으로 예측되게 된다. calcNormFactors 은 이런 오류를 최소화 하기 위해 normalization을 진행하여 그 방법은 대부분의 genes 에 대해 samples 사이의 log fold change(logFC)값을 최소화하는 library sizes의 scaling factors를 찾아내어 normalization을 진행해준다. 찾아진 Scaling factors 값과 original library sizes의 값을 통해 만들어진 값을 effective

논문분석)Cibersortx-2 [내부링크]

Cell fractions(=proportions) between signature matrix and bulk RNAseq data 의 Platform-specific variantion을 줄이기 위해 batch correction scheme를 적용하니 scRNAseq 과 결과가 유사했다.

논문분석)Cibersortx-3 [내부링크]

LM22 라고하는 22개의 immune cell type을 통해 GEP를 진행해보았을 때 Group mode 에서 Adaptive noise filter를 적용하고 샘플 수에 늘어남에 따라(max : 302 개) 결과가 좋아짐을 확인할 수 있었음

Imputation)beagle [내부링크]

https://blog.naver.com/gieyoung0226/222352131971 논문분석)GWAS imputation - Introduction Microarray chip을 통한 분석은 50-100만개 (Korean Chip의 경우 83만개) 의 SNP(=marker)의 g... blog.naver.com

Cibersortx [내부링크]

https://blog.naver.com/gieyoung0226/222600007696 논문분석)Cibersortx Abstract : Single cell RNAseq은 세포별 이질성(heterogeneity)을 특정화 할 수 있는 방법이지만, 현... blog.naver.com https://blog.naver.com/gieyoung0226/222615381923 논문분석)Cibersortx-2 Cell fractions(=proportions) between signature matrix and bulk RNAseq data 의 Platform-sp... blog.naver.com https://blog.naver.com/gieyoung0226/222621010568 논문분석)Cibersortx-3 LM22 라고하는 22개의 immune cell type을 통해 GEP를 진행해보았을 때 Group mode 에서 Adaptive n... blog.naver.com

GOterm) NaviGO [내부링크]

Bulk RNAseq 분석 후 pathway 단계에서 GO term들이 너무 많이 나와서 어떻게 하면 묶을 수 있을까 하다가 발견한 web tools 인 NaviGO 을 찾았다. GO terms 들의 유사성을 확인할 수 있으며, 유사한 정도를 사용자가 직접 지정해줄 수 있고 6개의 서로 다른 similarity scores 로 계산되어 서로 유사한 질병간의 생물학적 차이를 파악할 때 유용하다. 또한 node 와 edge를 사용한 Visualization 까지 할 수 있어 다른 사람들에게 보여주기에도 유용했다. 그러나 Web tools 이기에 input으로 올라간 GO term 이 150개 정도만 넘어가도 매우 버벅이기에visualization을 기대하기엔 어렵고 각 score에 대한 csv file 까진 획득할 수 있어 각 GO term 중 사용자가 의미가 있다고 생각하는 정도만 추려서 넣어주는 게 좋을 것 같다.

TWAS) Error [내부링크]

모델을 구축한 후 아래와 같이 model에 사용된 snps 가 매칭되지 않다고 하는 에러 (INFO - 0% of model's snps used)의 이유 두 가지를 찾았다. 1) GWAS(plinkr format or dosage format) result의 snp_id 가 model 의 snp_id 와 일치하지 않는 경우 (ex rs429358 , 19:45411941) 2) SPrediXcan.py 옵션 중 BETA 값을 구했는데 zcore_column 이라고 기록한 경우 이다. 위 두 가지를 고려하였을 때 코드가 작동하였다. https://github.com/hakyimlab/MetaXcan GitHub - hakyimlab/MetaXcan: MetaXcan software and manuscript MetaXcan software and manuscript. Contribute to hakyimlab/MetaXcan development by creating an accou

Chisquare distribution [내부링크]

Credible Set 를 얻기 위해 신뢰구간을 설정하기 위한 분포로서 Chisqure distribution을 사용하는데, Chisqure distribution 에 대해 알아보고자 한다. Chisqure distribution : 확률밀도함수 형태의 경우 아래와 같이 normal distribution과 달리 대칭형태를 이루지 않는다. x축은 quantiles vecotr 이고, y축은 probabilities vector 이다. 이때 degree of freedom(=자유도)를 설정해줄 수 있는데, 보통 GWAS에서 Case-Control 분석을 진행하기에 자유도는 1로 설정한다. 출처 : wikipedia, k=자유도 분포의 합 = 1 임을 이용하여 얻어지는 누적분포함수는 아래와 같다. 출처 : wikipedia, k=자유도 이를 R 로 구현하자면 1) Density 2) distribution function 3) quantile function 4) random gener

Fine mapping 원리 [내부링크]

Fine-mapping 의 목적은 확인된 GWAS variants 로 부터 sets of Causal SNPs 를 확인하기 위한 방법이다. 많은 논문에서 사용 중인 Fine-mapping 방법은 Analytic and Translational Genetics Unit, Massachusetts General Hospital, Boston MA 의 Hailiang Huang 이라는 분이 만든 github 에 올라온 방법이다. 이 방법은 누저 Chisquare distribution 을 적용하여 통계적으로 접근하게 되는데 이에 대한 설명은 아래에 기록해두었다. https://blog.naver.com/gieyoung0226/222653785347 Chisquare distribution Credible Set 를 얻기 위해 신뢰구간을 설정하기 위한 분포로서 Chisqure distribution을 사용하는데, ... blog.naver.com 예를 들어 Case-Control GWAS(

NGS)dosage [내부링크]

Dosage의 사전적 의미를 확인해보면 dosage : The size or frequency of a dose of a medicine or drug. 라고 한다. 그러나 Gene 이나 Allele에 대해 dosage를 표기하는 경우들이 있다. SNP minor allele dosage SNP 에서 dosage 의 의미는 Genotype 에서 해당 Minor(or Major) allele의 frequency 다. 그래서 0 or 1 or 2 중 하나가 되며 Gene 에서 dosage 의 의미는 wiki 에서 확인해보면 아래와 같다. 이도 마찬가지로 genome 위에서 특정 gene 의 copy 수 라고 하기에 Gene dosage 와 SNP dosage 는 동일한 의미로 사용된다. Make referenece to : https://en.wikipedia.org/wiki/Gene_dosage Gene dosage - Wikipedia Gene dosage From Wikipedia

21년 7-8월 달리기 기록 [내부링크]

대학원에 오기 전, 회사에 면접을 보러 다닐 때 공통적으로 받았던 질문이 "스트레스를 해소하기 위해 하는 행동은 무엇입니까?" 였다. 머리 속이 복잡하거나 화가나는 일이 있으면 지칠 때 까지 뛰는게 나만의 스트레스 해소법이었는데 형식적인 답변처럼 보일 수도 있겠고 또 이걸 증명할 방법이 없었다. 대학원에 와서도 개인사로 인해 휴학하고 1년간 직장을 다닐 때에도 나만의 스트레스를 해소하는 방법은 여전히 "달리기" 이다. 문득 이걸 기록해두는 게 좋겠다 싶어 기록을 시작한 7-8월의 달리기 내용을 기록해보자 한다. 7월 주 3-4회 빈도로 뛰었다. 한 번 뛸 때 5-6 km 사이로 뛰는데 7월 14일 1km/6.13분 페이스로 뛰었었다. 8월 가입한 달리기 크루에서 루트를 추천해주셔서 한강을 바라보며 뛰는 루트로 변경하였다. 8월7일에 뛰었는데 뛰다보니 자정이 넘어서 8월8일로 기록이 찍혔다. 그리고 한달동안 기록을 재며 뛰니 속도가 빨라졌는데 1km/5.06분 페이스로 뛰었다. 속도가

21년 8-9월 달리기/하이킹 기록 [내부링크]

8-9월에는 10월에 뉴발란스에서 진행하는 10km 달리기 대회에 나가기 위해 준비하는 달이라고 생각하고 달리기 코스를 6km에서 10km로 연장하여 달려보았다. 아직은 10km 가 50분을 넘어가지만, 40분 후반대를 목표로 달려보고자 한다. 추가로, 9월 초에 친한 형과 관악산 등산을 다녀왔다. 러닝이랑 비슷하겠지 생각하고 런닝화를 신고 갔다가 발을 몇번 접질렸지만 새벽공기 마시며 등산하는 게 기분이 좋았다. 오늘은 혼자 관악산에 다녀왔는데 아마 매주 일요일 오전엔 등산을 다녀올 것 같다 :)

xshell에서 x11 display 사용하기(xming) [내부링크]

개인적으로 mobaxterm 보다 학생에게 무료로 배포하는 xshell 환경이 익숙하지만 x11 display 을 사용하여야 할 때 어쩔 수 없이 mobaxterm 을 사용하였다. xshell 제작사 내에 x-manager 가 있지만 유료만 존재하기에 이번에 무료로 사용 가능한 xming 을 통해 이를 해결해보자. https://xming.softonic.kr/ Xming 이 디스플레이 서버를 Windows에서 무료로 실행하십시오. xming.softonic.kr 보이는 것처럼 무료 소프트웨어이다. 위 프로그램 설치 후 xshell 에서 등록정보를 수정해주면 바로 사용이 가능하다. 등록정보 수정방법 세션 : 세션 - 등록정보 - ssh - 터널링 - X11 포워딩 - x11연결을 다음으로 전달합니다 - X DISPLAY : localhost:0 터미널 : export DISPLAY=myID:0 ex) $export DISPLAY=112.111.111.111:0

RNAseq) edgeR -1 [내부링크]

edgeR : Count table 을 받아서 DEG 계산가능 1) DGEList > edgeR 에서 데이터를 효율적으로 사용할 수 있도록 List-based data 형태로 변환시켜주는 옵션 edgeR stores data in a simple list-based data object called a DGEList. This type of object is easy to use because it can be manipulated like any list in R. Input으로 gene x sample 형태의 Count matrix 를 받고, Output으로 x$counts x$samples (x$samples$group x$samples$group x$samples$norm.factors) x$samples. group을 정해주지 않아서 숫자형태 를 내놓음 2) filterByExpr > Computer Cost 를 줄이기 위해 worthwhile Genes 만 추리게 됨 (t

RNAseq)salmon [내부링크]

Alignment tool 인 salmon 은 Transcript에 mapping 하기에 주로 RNAseq 에서 사용한다. Paired 데이터의 경우, paired 로 존재하는 reads만 사용하며, 각 Transcript 에 mapping 된 reads 의 수, TPM, Effective Lengh 를 계산해준다. NumReads bam read(single) paired bam read 810,724 394,261 TPM X = One Transcript https://www.reneshbedre.com/blog/expression_units.html 1) Normalization of X RPK X of RPK = (X 에 매핑된 reads의 수 x1,000) / X of Effective Length 2) Normalization of Total RPK 로 보정 X of TPM = X of RPK / Total PRK TPM(=abundance) = X 에 매핑된 reads의

GWAS)로지스틱 회귀(3) - 공변량(covairate) [내부링크]

Y : 종속변수 ß0 =모델절편 ß1, ß2 , ... , ßn = 각각의 공변량에 대해 glm으로 계산된 계수값 χ1, χ2 , ... , χn = 각각의 독립변수 ε = 오차항 공변량을 사용하면 어떤 부분에서 이점이 있을까? 공변량을 사용함으로서의 이점 : 간단하게 설명한다면 "잡음을 최소화" 할 수 있다는 이점이 있다. 예시로 치매를 들어보자면, Late Onset Alzheimer disease(LOAD)의 경우 Age와 Gender에 영향을 받는다고 알려져있다고 가정해보자(실제로도 그러하다). 그렇다면 아래와 같이 Age 와 Gender를 공변량으로 사용함으로서, SNP 외 다른 "잡음을 최소화" 할 수 있도록 보정해줄 수 있다. 참고자료 : https://www.cog-genomics.org/plink/2.0/assoc#glm Association analysis - PLINK 2.0 Association analysis Linear and logistic/Firth re

Bioinformatics : 네이버 블로그 [내부링크]

-Bioinformatics 한글화-공부했던 내용들을 정리하기 위한 블로그

RNAseq)GSEA - FC / GO [내부링크]

GSEA : http://blog.daum.net/_blog/BlogTypeView.do?blogid&#x3D;0MSQg&amp;articleno&#x3D;7...

귀무가설/가설검정/TP,NP,TN,FN [내부링크]

대립가설(H1) : 일반적으로 주장하고자 하는 사실 귀무가설(H0) : 기각하고자 하는 사실 p-value : 귀무...

t-test [내부링크]

https://www.youtube.com/watch?v&#x3D;mEWQ_vl3IPw 인강내용 정리 : t-test란 서로 다른 두 집단간...

통계 기본 용어 정리 [내부링크]

*분산(variance, V, var, б^2) : 변수들이 평균값을 기준으로 얼마나 흩어져있는지를 나타내는 정도 분산...

hypergeometric(초기하 함수) test [내부링크]

hypergeometric test에 접근하기 위한 순서가 있다. 초기하함수는 함수의 일종으로, 멱급수를 이용해 기하...

scikit-learn [내부링크]

Scikit-Learn 문법의 공통점 : 모델 불러오기 및 정의 - hyper parameter 세팅 from sklearn.svm import ...

maching learn 큰 틀 [내부링크]

데이터 가공 범주형 -&gt; 숫자 형태로 변환 -&gt; one hot 이진(이산) -&gt; 0 or 1 연속형 -&gt; Nomali...

Precision Recall AUC(ROC) [내부링크]

TP / TP + FP &#x3D; precision TP/ TP + FN &#x3D; recall recall 과 precision 은 공통적...

KNN 이란 [내부링크]

k-NN (k-Nearest Neighbors) 말 그대로 &quot;최근접 점(k)&quot;을 몇개로 정할 것인가 ? k 는 작고 1...

Classification Linear Model [내부링크]

분류형 선형 모델 Binary classification(이진 분류) 는 &quot;결정경계&quot; 가 존재하는 선형 함수이다...

Multiclassification Linear Regression [내부링크]

많은 classification LR 모델은 binary classification 방법을 지원하고 multiclassification 은 지원하...

나이브 베이즈 분류기 [내부링크]

sklearn엔 3가지 naive bayes 가 구현되어 있는데 GaussianNB 연속적인 데이터 고차원 데이터 Bernoull...

결정 트리(decision tree) - pre-pruning [내부링크]

classification &amp; regression 모두 사용되는 모델이며 decision tree 를 학습한다는 것은 정답에 가장 ...

ensemble decision tree [내부링크]

ensemble 은 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법이다. regression , classificat...

그래디언트 부스팅 회귀 트리(GradientBoostingClassifier) [내부링크]

여러개의 decision tree를 묶어 사용하는 ensemble 방법 중 하나 이다. 이름에 회귀가 있지만 분류, 회귀 ...

Kernelized support vector machines (SVM) [내부링크]

SVM 이란 ? SVC(선형 서포트 벡터 머신)을 사용하여 classification 를 풀었던 것의 확장 개념으로 i...

WES - trimmomatic - minlen의 이해 [내부링크]

Phred quality Score(Q-Score) Q &#x3D; -10 logP P &#x3D; 염기서열을 잘못 불러올 확률 Q10 &#...

2006 - cmap 에 대한 논문 분석 [내부링크]

C-map 을 알기 전에 이해해야 할 것들. Genomic signature Genomic signature는 genome 과 sequence에서...

haplotypecaller [내부링크]

gatk HaplotypeCaller -R ${ REFERENCE}  -I ${ sample} /05_BQSR/${ sample} .sorted.markedup...

mutect2 input file 분석 [내부링크]

이 글을 쓰는 이유는 Mutect2 tumor with matched normal 을 돌리던 중 outfile 인 vcf의 크기가 0 이여서...

REFERENCE(GRCh37.p13.genome.fa / ucsc.hg19.fasta) [내부링크]

이것에 대해 궁금해진 이유는, 처음에 기업에서 주는 interval_list 의 read sequence의 차이가 reference...

mutect2 (feat.PON) [내부링크]

https://gatk.broadinstitute.org/hc/en-us/articles/360035890491?id&#x3D;11127 https://gatk.broadinst...

Metabolomics technology and bioinformatics for precision medicine (미완성 - BI 내용 추가 필요) [내부링크]

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6954408/ https://www.ncbi.nlm.nih.gov/pmc/articles/...

haplotypecaller [내부링크]

Call germline SNPs &amp; Indels via local re-assembly of haplotypes. haplotype란? 부모세대의 유...

Connectivity map 에 대한 기초설명 [내부링크]

What is the Connectivity Map?? 질병-유전자-치료학 의 관계를 찾는 것. perturbation(질병으로부터 발...

Cmap data 부수기 [내부링크]

holdout_ground_truth_wtks_n1000x476251.csv.gz holdout_ground_truth_wtks_n3000x476251.csv.gz offline_...

The genetic and mechanistic Basis for Variation in gene Regulation 논문 요약 [내부링크]

최근까지, 우리는 많은 regulatory variants act 의 mechanisms 에 대해 알지 못했다. 예를 들자면 regulat...

A primer on deep learning in genomics(2019) [내부링크]

Abstract Deep learning 이란 대규조 data set에서 매우 복잡한 패턴을 식별할 수 있는 machine learning...

VCF file 읽기 (Mutect2, filtermutectcalls snpeff) [내부링크]

Mutect2 Filtermutectcalls snpeff mutect2 후 filtermutectcalls 을 통해 Filter 란에 무언가 추가됨을...

mySQL [내부링크]

SQL 써야하는데 배웠던게 postgreSQL 이라 리눅스에서 쓰려니까 모르겠어서, 빡쳐서 인강듣는다. 생...

WES 결과해석 [내부링크]

ICGC 확인해보니 아래와 같은 리스트가 나왔고 내가 만든 SC 와 비교해보았다. 일치하는 데이터가 08...

C-bioportal [내부링크]

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3956037/ cBio Cancer Genomics Portal : 다차원 암...

CTC data [내부링크]

lung cancer 에 anti EGFR 이 찾아진다면, 이것에 대해 항암제를 쓰겠지, 유전자발현 곧 CTC 를 어...

trimmomatic [내부링크]

http://www.usadellab.org/cms/?page&#x3D;trimmomatic 내가 원래 알기론 trimmomatic 에서 phred socre ...

haplotypecaller 작동원리 [내부링크]

용어설명 1. Active region : 변이가 발생하여 non-synomymous of genome 상의 위치 2. Pairwise alignme...

전치사 (윤문법) on [내부링크]

감사합니다 :) https://www.youtube.com/watch?v&#x3D;ylmAtLC8oRo 영어공부를 포기했던 이유가 그동...

전치사 (윤문법) up [내부링크]

https://www.youtube.com/watch?v&#x3D;y2OhrvIiRmw&amp;t&#x3D;221s 감사합니다 :) up : 위다 up - ...

(윤문법) 1~5형식 (미정리) [내부링크]

감사합니다 :) https://www.youtube.com/watch?v&#x3D;Z9hxGOVRh4U 5형식은 알면 좋을 정도이다. 없...

haplotypecaller (1) - haplotype [내부링크]

haplotype : haplotypecaller에서 사용하는 haplotype은 사전적 의미가 다르다. 먼저 사전적 의미를 알아보...

haplotypecaller (2) - active region [내부링크]

gatk 에서 말하는 haplotype이든, active region 이든 사전적 의미등과 다르니 햇갈릴 수 있다. 그러나 gat...

haplotypecaller (3) - k-mer , De-Bruijn graph(assembly graph) [내부링크]

haplotypecaller 는 NGS의 응용분야에서 정확한 유전자 유형을 쉽게 얻지 못할 수 있으니 불확실성을 가...

haplotypecaller (4) - pairHMM (미정리) [내부링크]

pairHMM부터는 만들어진 haplotypes은 정확도가 높은 편이니 Active region을 포함하고 있는 segment o...

haplotypecaller (5) - bayes rule [내부링크]

앞 과정에서 candidate variat site에 대한 read allele likelihoods 을 만들었다. 이제 sample의 각 site...

(윤문법) 구 와 절 [내부링크]

그동안 영문법 공부 와 논문을 보며 이질감을 느꼈던 게 &quot;저 선생님들은 1-5형식이 눈으로 보기만 해...

A global reference for human genetic variation [내부링크]

모든 인간의 조상이 똑같기에, a number of variants show large frequency differeneces among population...

(윤문법) 구 와 절(2) [내부링크]

접속사의 종류 등위 접속사 and or but 종속 접속사 that when ~~~~ 등등. 두 접속사의 쓰임은 완전 다르다...

(CTC) cancer sample sequencing analysis [내부링크]

암은 후천적인 체세포 돌연변이에 의해서 발생하는 질환이다. 이럴 경우에는 돌연변이가 일어난 조직 과 그...

bcftools (variant calling) [내부링크]

variant calling 결과를 담고 있는 vcf에 대해 알아보자. 특정 유전형의 좌표를 알기 위해서는 좌표위치를 ...

(윤문법) 준동사 (미정리) [내부링크]

준동사 to R (to부정사) R-ing (동명사 / 현재분사) p.p (과거분사) a 의 ㅔ ㅏ ㅓ 가 똑같은 발음인데 ...

Heuristic Methods [내부링크]

Dynamic Programming 의 문제점 : dynamic programming은 pairwise 방법으로 N2 process 이다. 그래서 ...

NGS) - HMM [내부링크]

https://www.youtube.com/watch?v&#x3D;HB9Nb0odPRs&amp;t&#x3D;11s paired HMM 에 대한 이해가 ...

NGS) WES에 사용되는 exome panel의 크기는? [내부링크]

WES에 사용되는 Exome panel을 통해 exon 을 캡쳐한다. 그렇다면 인간의 몸의 exon 의 크기는 얼마나 ...

samtools(mpileup) [내부링크]

Reference 기준으로 reads이 매핑된 bam file에서 locus 에 매핑된 nucleotides 가 궁금할 때 사용하는 툴...

NGS) .vcf file 다루기 - 여러명의 정보가 담긴 경우 [내부링크]

1. 여러명의 정보를 담은 vcf file 인 경우 한 명의 vcf file은 용량이 크지 않다. 하지만 한 vcf에 여러명...

igv 사용하기 [내부링크]

쉽게 말하면 2가지 방법이 있다. 1) locus 검색 2) gene 검색 1) locus 검색 reference 기준 다른 nt에 대...

bwa 란 (local alignment, global alignment) [내부링크]

가지고 있는 reads 를 reference sequence 에 mapping 하는 툴 이다. 알고리즘 위주보다 어떤 프로그램인지...

NGS) Alignment algorithm [내부링크]

Alignment methods 로는 크게 local alignment, global alignment 로 나뉘게 된다. 둘 다 dynamic program...

Dynamic Programming (동적계획법) [내부링크]

피보나치 수열은 1 1 2 3 5 8 13 . . . f(n) &#x3D; f(n-2) + f(n-1) , n &gt; 2 f(1) &#x3D; f(2) &#x3...

논문분석)Identifying Mendelian disease genes with the Variant Effect Scoring Tool(VEST) [내부링크]

In silico prediction 을 통해 Non-synomymous variant 이 gene에 얼마나 영향을 미치는지 예측하는 tool...

논문분석)predixcan [내부링크]

GWAS 데이터를 통하여 tissue 별 gene expression을 예측해주는 tool이다. Abstarct : GWAS 는 co...

GWAS)model association test [내부링크]

plink에는 질병과 variant 간의 association test 하는 방법으로 아래의 5가지 종류가 있다. --assoc --mod...

Whole genome sequencing 을 이용한 질병 유전학 연구 동향 - Bric 안준용 내용 요약 [내부링크]

전장 유전체 해독( Whole exome sequencing) 기술은 차세대 염기서열 분석(NGS)방법을 바탕으로 한 생...

Regression Linear model 이란(Ridge, Lasso) [내부링크]

회귀(regression)의 경우 선형 모델을 위한 일반화된 예측 함수가 있다. y &#x3D; wx + b 파라미터 w &#x3...

NGS) SNV,SNP,allele,haplotype,locus,LD 정리 [내부링크]

인간은 23쌍인 46개의 염색체를 가지고 있다. 하나는 아빠에게서, 하나는 엄마에게서 왔다. 그리고 각 아빠...

Liquid biopsy (액체생검) - ctDNA, CTC, exosome [내부링크]

WES 할 때 CTC 를 사용하였기에 CTC를 알아보고자 글을 쓴다. 액체생검(Liquid biopsy) 액체생검...

Microbiome)16S rRNA Miseq 원리 및 Amplicon과 library의 차이 [내부링크]

Microbiome 의 V4 region을 분석하는 방법에 대해 Miseq 에 관한 논문을 통해 알아보자. 일루미나의 Am...

(web) PolyPhen-2 및 사용방법 [내부링크]

ployphen-2 는 nsSNPs (nonsynonymous SNPs)에 대한 영향 정도를 계산해준다. 예를들어, TSG, On...

GWAS)하디 웨인버그 평형(HWE) 법칙 [내부링크]

대학교에서 1학년 때 가족간의 유전형 분석 문제를 풀기 위해 알아야 하는 하디 바인베르크 평형을 배우면...

GWAS 란 [내부링크]

Genome Wide Association Study Genome wide - 모든 유전체 위치에 대해서 Association Study - 연...

vcf file 이해하기 - REF, ALT, GT:AD [내부링크]

VCF file 에 대해 알아보자. VCF 에 보면 REF, ALT 라는 자리가 있다. ALT 에 대한 설명을 ...

annotation)snpEff [내부링크]

Input file : vcf file 형태의 SNP, Indel 을 넣어준다. Output file : snpEff 는 input file의 var...

annotation)CRAVAT [내부링크]

VEST - Pathogenicity impact CHASM - cancer driver impact AACR - american association f...

annotation)SNPsnap [내부링크]

Broad Institude 에서 제공해주는 web tool 이다. 1000Genome DB를 사용하여 annotation을 진행해준다...

annotation)Haploreg [내부링크]

Haploreg 글을 작성 중인 건 2021년이지만 마지막 업데이트는 2015.11.05 version 4.1(GRCh38 ver) 이...

Axiom)CEL file - DQC(1) [내부링크]

인턴기간동안 Bioinformatics분야에서는 본인이 분석하는 data가 어떤 것인지 명확하게 아는 게 중요하다...

Annotation)CrossMap (liftover) [내부링크]

오픈데이터를 만지다 보면 hg version이 맞지 않아서 liftover가 필요한 경우가 있다. SNP의 수가 적으...

GWAS)Bonferroni correction [내부링크]

FDR은 다중비교문제에서 1종 오류를 조절하는 방법이다. 앞에서 유의수준을 0.05 로 잡았을 때, 가정한 ...

GWAS) plink 는 어떻게 성별을 결정할까?? (1) [내부링크]

NGS 의 발전으로 분석비용이 내려가면서 genotype 의 수가 많아졌으나 해당하는 임상정보들을 분류하는 ...

GWAS) plink 는 어떻게 성별을 결정할까?? (2) [내부링크]

F-coefficient 값이 남성은 0.8 이상, 여성은 0.2 이상 인 이유에 대해 pseudoautosomal region 을 통해 ...

GWAS) plink QC pipeline [내부링크]

plink 1.9 version pipeline Input file : ped , map (or bed, bim, fam) 1. binary file 로 만들기 2. Q...

GWAS)plink annotation [내부링크]

plink QC 후 binary file output 은 bim, bed, fam 이다. 보통 업체에 microarray 로 분석을 의뢰할 경우...

GWAS) D prime(D') 과 R2 란? [내부링크]

LD에 대해 이전 블로그에서도 정리해두었지만 (LD란 ?) 한번 더 LD의 정의에 대해 위키를 통해 찾아...

논문분석)AD dementia Criteria [내부링크]

1. Introduction 1.1983년 NINCDS(Neurological and Communicative Disorders and Stroke) 와 ADRDA(Alzhiemer’s Disease and Related Disorders Association) 에서 AD(Alzheimer)criteria 를 만들었으나 임상 징후들과 생물학의 발전으로 이에 대한 수정사항이 필요함. 1) Dementia(치매)에는 여러가지 종류가 있었으나 과거엔 이를 구분하지 못했고 2) MRI, PET imaging, CSF(뇌척수액), AD dementia 와 MCI(인지장애)를 구분할 수 있는 biomarker 들을 통 한 진단이 가능해졌음 3) AD 의 유전적인 정보가 부족했었음(Early-onset, Inherited AD) 4) 과거엔 40세 미만에서 AD dementia가 발병해도 나이가 많은 경우의 환자와 pathophysiology(.......

논문분석)GWAS imputation - Introduction [내부링크]

Microarray chip을 통한 분석은 50-100만개 (Korean Chip의 경우 83만개) 의 SNP(&#x3D;marker)의 genotype을 확인할 수 있다. 100만개 정도의 SNP로 association study를 진행하기엔 인간의 유전자가 너무 길어서 실제 GWAS 분석에는 marker의 수를 늘릴 필요가 있다. 이러한 makrer의 수를 늘리는 방법이 바로 Imputation 이다. 오늘 쓰고자 하는 논문은 imputation tools중 하나인 beagle 에 대한 논문인데 현재 내가 GWAS Imputation시에 사용하는 Tools이 beagle 이기에 imputation에 대해 제대로 공부할 겸 겸사겸사 읽어보았다. Introduction : Imputation시 주형이 되는 refernece panel size는 크기가 커질수록 accurately imputed 된 v.......

NGS정리)한국인칩(Koreanchip) [내부링크]

Microarray chip GWAS 분석이나 RNA 발현량을 확인하기 위해 사용된다. (Microarray chip에 대한 원리 및 자세한 설명은 정리가 되는대로 기록하고자 함) 그러나 기존에 상용유전체칩(illumina chip 등)은 서양인 중심으로 제작되었다. 한국인의 유전체를 서양인 중심인 Chip으로 분석하는 경우 크게 나타나는 문제를 설명하면 한 사람의 전체 유전자는 30억 base pair 를 갖고 있으나 Chip 에 30억개를 모두 담을 수 없다. 그렇기에 Chip에 존재하는 probe는 30억개 중에서 특이하거나 중요한 SNP를 probe를 설정해야 하는데 allele 의 Frequency가 모든 사람에게서 또는 각 나라 사람들에서 비슷한 SNP 보다 MAF 가 낮은 SNP들을 통해 probe로.......

NGS tools 작동원리)OTV(off-target variant) [내부링크]

Microarray Chip에 GWAS분석을 맡기게 되면 CEL file과 library file, annotation file을 받을 수 있다. 이를 통해 plink등에서 사용할 수 있는 data형태로 만들 수 있다. CEL file을 확인하다 보면 아래처럼 SNP 별 cluster 를 확인해볼 수 있다. conversion type을 확인해보면 OTV (Off-Target Variant)라고 나오는 경우가 있을 것이다. 말 그대로 내가 생각했던 Target variant 가 아니라고 하는 것인데 좀 더 직관적인 형태를 본다면 이러한 형태를 확인할 수 있다. Chip의 probe에 따라 OTV는 위처럼 나오지 않을 수도 있지만 위처럼 OTV라고 나오는 경우가 있고 원인으로는 여러가지가 있겠지만 OTV model을 통해 이를 확인하게 된다.

국내 코로나19 분석결과 공유 [내부링크]

인턴 중인 회사에서 코로나 바이러스와 백신과의 관계 및 현재 신규 변이 바이러스를 분석하고 기사를 쓸 일이 있었다. 기사를 쓰기 위해 KOBIC에서 코로나 바이러스 데이터를 받아 분석한 돌연변이 형태와 계통도 분석 결과를 공유드리고자 한다. Structural and functional properties of SARS-CoV-2 spikeprotein: potential antivirus drug development for COVID-19 이라는 네이처에 기재된 논문을 참조하여 신규 변이들이 Spike protein과 관계가 있음을 확인하였고 S protein을 포커스로 하여 분석을 진행했다. 분석을 위해 사용한 코로나 바이러스는 KOBIC 을 통해 공급받았다./ 먼저 S protein에 대해 설명을 하자면 코로나19 의 경우 S.......

gatk)GetPileupSummaries - error [내부링크]

bam file 을 만들 때 input으로 chr1~chrM 까지만 넣어줬었는데 이렇게 진행한 경우 interval 이 중요하다는 걸 알았다. 이후 gnomad 데이터를 사용할텐데 이때 chr1~chrM 외 의 정보가 있다면 에러가 생기기에 interval에서 사용할 부분만 넣어주면 된다.

WES) Mutect2 force calling mode -bam file [내부링크]

reference에 alignment된 bam file의 크기가 12G 라고 가정해보자. realignment 된 bam file을 얻고싶어서 realignment tools을 사용하여 나오는 bam file의 크기는 600M 으로 약 1/20 이 줄어든다. * realignment tools 로 Mutect2 force calling mode 사용 (mutect2 force calling mode 추가옵션 : -L -active-probability-threshold 0.001 --max-reads-per-alignment-start 0 --min-base-quality-scrore 10 --pair-hmm-implementation FAST_AVAILABLE ) 이를 통해 알 수 있는건 mutect2의 원리가 seed(K-mer) 에서의 정보만 찾다보니 realignment 된 raw.bam 에 비해 많은 정보가 생략되었다는 것인데 gatk 에서 확인해보니 mutect에서 output.......

haplotypecaller (6) - result [내부링크]

mutect2와 haplotype의 기본적인 원리는 같기에 seed(K-mer)가 더 많은 mutect2를 통해 raw_alignment.bam 과 re_alignment.bam 의 차이를 알아보고자 한다. reference에 alignment된 bam file의 크기가 12G 라고 가정해보자. realignment 된 bam file을 얻고싶어서 realignment tools을 사용하여 나오는 bam file의 크기는 600M 으로 약 1/20 이 줄어든다. * realignment tools 로 Mutect2 force calling mode 사용, (mutect2 force calling mode 추가옵션 : -L --force-active ture -active-probability-threshold 0.001 --max-reads-per-alignment-start 0 --min-base-quality-scrore 10 --pair-hmm-implementation FAST_AVAILABLE ) chr7에 한.......

haplotypecaller - pairHMM (미정리) [내부링크]

pairHMM의 목적은 read와 haplotype 의 likelihood를 계산하기 위함이다. 이 계산은 baye&#x27;s rule에 적용할 것인데, variant site의 allele를 추정하기 위함이다. HMM algorithm은 매우 어렵지만, pairHMM은 HMM의 식만 가져왔다. 그래서 훨씬 간단하게 계산이 가능한데, R &#x3D; read H &#x3D; haplotype Mij &#x3D; Ri가 Hj에 align 될 때 2개의 subsequence (2개의 NT) 인 R1...Ri 와 H1...Hj가 나올 확률 Iij &#x3D; Ri 가 gap에 align 되었을 때 R1 ... Ri 와 H1 ... Hj 가 alignment 될 확률 Dij &#x3D; Hj가 gap에 align 되었을 때 R1 ... Ri 와 H1 ... Hj가 alignment 될 가능성 공부중

pathway분석) pathway 분석이란 [내부링크]

pathway 분석이라는 게 무슨말인지 이해가 안되었었는데, 이번에 CTC 공부하면서 이해하게 된 것 같다. 그래서 pathway 란 무엇인지 알아보고자 한다. pathway 분석은 RNA-seq 같은 enrichment analysis로 확인해볼 수 있다. enrichment analysis란 RNA-seq 은 micorarray보다 많은 samples를 분석할 수 있는데 두 방법 모두 발현량 정도의 차이를 확인 할 수 있다. (발현이 과발현(up-regulation) , 저발현(down-regulation) 되었는가 의 차이등) 발현의 차이가 생기는 건 promoter 서열이 변하거나 frame deletion/insertion 등으로 인해 start codon / stop codon에 영향이 가서 생기는 문제 또는 translation factor 이 과발현/저발현 되거나.......

pathway분석) GO (Gene ontologgy) 란 ? [내부링크]

http://geneontology.org/docs/ontology-relations/ GO (gene ontology) 란 유전자기능 연구를 위해 개별 유전자(gene)에 대해 유전자가 관련된 세포기작(biological process), 유전자가 가지는 분자기능(molecular fuctions), 유전자의 세포 내외 위치(cellular component)를 주석(Annotation)으로 달아오는 구조화된 모델이다. GO 는 amiGO 2 를 통해 검색할 수 있으며 QuickGo 를 통해 확인하게 되면 Accestor Chart 형태로 확인해볼 수 있어서 상하좌우 관계를 찾아볼 수 있다. 아래의 예시는 component 의 데이터를 Chart화 시킨 경우이다. 그러면 각각의 GO box에 대해 화살표가 각각 색이 다른 걸 확인해볼 수 있는데, 각 화살표의 색이 어.......

펌)Deep Learning, NLP, 그리고 Representation [내부링크]

https://dgkim5360.tistory.com/entry/deep-learning-nlp-and-representations-kr

R) Bioconductor 설치 [내부링크]

CNV 분석을 위해 R package를 설치해보고자 한다. R 을 사용할 때 사용하는 R의 version에 따라 code 가 달라진다. 어찌보면 Version에 따라 코드가 달라지는 건 당연하겠지만 익숙한 언어가 ptyhon인 내게 R 설치는 복잡했다. 내가 사용하는 R의 version은 3.6.2 version DNAcopy를 설치하기 위해서 R version 3.6 에서는 BiocManager 를 사용해야 한다고 한다. 그러나 BioManager version 또한 중요한데, 3.11 일 때는 안되고 3.10 이여야만 install 이 가능하다. 이후 원하는 package가 있다면, 이런식으로 설치하면 된다.

R) DNAcopy [내부링크]

http://www.bioconductor.org/packages/release/bioc/html/DNAcopy.html 미완료

web)gnomAD 란 - 미정리 [내부링크]

https://korbillgates.tistory.com/194

GWAS)다중검정의 문제 [내부링크]

다중비교문제란 가설에 근거하지 않고 무작정 많은 비교를 하다보면 실제 연관성이 없음에도 불구하고 우연에 의해 연관성이 있는 것처럼 나올 수 있는 걸 말한다. 예를들어 폐암과 연관성이 있는 Clinical features 를 확인해기 위해 100가지 features에 대해 연관성 분석을 한다고 가정해보자. 이때 유의수준 0.05 로 잡고 폐암의 case, control 를 수집하고 연속형 데이터일 땐 t-test, 범주형 데이터일 땐 카이제곱 검정을 수행시 유의수준 0.05 보다 낮게 나온 Clinical features 6 개가 나왔다. 하지만 100가지 요인에 대해 검증을 하나로 볼 때, 모든 변수가 연관성이 실제로 없더라도 평균 5개의 잘못된 결론을 내릴 수 있게 된다. 유의.......

RNAseq)ncRNA의 종류와 기능 [내부링크]

WES 이나 GWAS 의 결과물(polymorphism)을 보다보면 DNA에 해당하는 것도 있지만, RNA에 해당하는 것들도 있다 Central dogma 로, DNA -&#62; RNA -&#62; protein 이 결정되는데, Gene의 DNA를 분석하는 과정을 genomics 그러나 Gene의 DNA와 DNA와 DNA로 전사,번역되는 protein과 1:1 매칭이 된다면 21,000 개의 protein밖에 만들어지지 않는다. 곧 염기의 레벨로 본다면 30억 Basepairs 중 약 2%만이 실제 유전자가 차지하는 비율이 된다. 이러한 한계를 넘고자 mRNA 수준에서 다루게 되된다. DNA는 RNA가 되는 과정 중 splicing의 과정으로 여러종류의 proteins 을 만들 수 있고 발현량이 조절되기 도한다. Case, Control 을 비교하여 mRNA의 발.......

(web) Search to Genomic sequence (Using UCSC, NCBI) [내부링크]

1. Gene의 전체 genomic sequence(.fasta)를 알고 싶은 경우 : NCBI와 UCSC를 사용하면 된다. -NCBI 1) gene 찾기 https://www.ncbi.nlm.nih.gov/gene 에서 gene 을 검색한다. 2) Reference 선택 reference는 hg38, hg19가 있는데 이전 microarray부터 연구부터 쌓인 정보들은 hg19에 있어서 hg38을 reference로 사용한 경우, 사용할 수 없는 정보들이 있다. 보통 mapping에 hg19를 사용한다. NP랑 NM이 1:1 매칭이거나 보통 더 많다.(이유가 궁금하면 쪽지주세요) 보고싶은 NM에 마우스를 올려두면 이런식으로 박스가 뜰텐데, 보고싶은 서열을 확인하면 된다. 이렇게 하면 정방향의 sequence가 검색이 된다. -UCSC 1) gene 검색 https://genome........

(CTC) 폐암의 종류 및 관련 유전자 [내부링크]

먼저, 폐암에 대해 알아보자면 종류가 다양하며 각각 원인이 되는 대표적인 유전자들도 다르다. 그래서 먼저 종류부터 알아보자. 1) 폐암의 정의 암세포가 폐를 구성하는 조직에서 발생한 원발성 폐암과 암세포가 다른 기관에서 생겨나 혈관과 림프관을 타고 폐로 이동해 증식하는 전이성 폐암으로 나뉜다. 2) 폐암의 종류 폐암이란 현미경적으로 암세포의 크기와 형태에 따라 비소세포폐암(Non small cell carcinoma)과 소세포폐암(Small cell carcinoma)로 나뉜다. 이를 나누는 기준은 크기이며 현미경으로 암세포를 보았을 떄, 세포의 크기가 작은 경우, 소세포폐암, 작지 않은 경우 비소세포폐암이라 한다. 이렇게 구분하는 이유는 임상적 경.......

(NGS정리)Ts/Tv ratio [내부링크]

control 과 case에서의 차이가 분명하게 존재하였다. 그러나 normal 도 0.5에 근접하지 않았고 case도 2.5에 근접한 데이터가 많지 않음에 따라 NGS과정 중 정확하지 않은 것일 수 있겠다 싶었다.

R) Soft-wrap 자동 줄바꿈 옵션 [내부링크]

Soft-wrap 기능을 설정해두면 화면에서 넘어갈 정도로 길어진 내용은 자동으로 줄바꿈이 된다. Tools -&#62; global option -&#62; code -&#62; soft-wrap R source files

R) 한글이 깨지는 경우 [내부링크]

스크립트 내용 중에서 한글 부분이 깨저서 나오는 경우가 있는데, 대부분 문제의 이유는 인코딩 설정의 문제이다. Tools 0&#62; Project Options -&#62; Code Editing -&#62; UTF-8

R) 변수 설정 c() [내부링크]

python 의 list 와 비슷한 설정인 c() 와 seq(, , by&#x3D; ) 에 대해 알아보고자 한다.

R) 패키지 설치 [내부링크]

오픈소스 기반 R의 장점 중 하나로, 다른 사용자들이 만든 함수가 들어간 패키지를 사용하는 게 가능하다. 그래서 엄청 무겁지 않고 원하는 함수가 담긴 패키지만 설치할 수 있다는 장점이 있다. 패키지 설치 예시를 들어가보려고 한다. #install 1) install_packages(&#34;ggplot2&#34;) #load 2) library(ggplot2) function &#34;qplot&#34; in ggplot2 qplot은 빈도막대 그래프로서, c()에 담긴 변수의 빈도를 막대 그래프로서 나타낸다.

R) data.frame [내부링크]

a &#60;- c(var1, var2, var3, var4) b &#60;- c(var5, var6, var7, var8) dataframe 의 input 은 feature로서, Input 이 많아질수록 처리하기 어려운 &#34;빅&#34;데이터에 가까워진다.

NGS정리) Soft cliping [내부링크]

아직 NGS 관련 용어들이 한국어로 번역 이 잘 된 사이트가 없어서 공부하다가 막히는 경우가 많은 것 같다. Soft clip도 한국어로 번역된 곳이 없어서 Soft cliping 에 대해 다른 사이트의 정보를 번역해보았다. https://sequencing.qcfail.com/articles/soft-clipping-of-reads-may-add-potentially-unwanted-alignments-to-repetitive-regions/ Soft-clipping 이라고도 하며, read 의 양쪽(either side)가 reference genome에 매칭이 잘 되지 않은 부분들이 alignment할 때 무시하는 걸 말한다.(곧 mapping 이 100 bp 모두 mapping이 되지 않았더라도 mismatch된 부분을 무시한다는 뜻이다.)

haplotypecaller - smith waterman algorithm [내부링크]

De-Bruijn graph 를 통해 만들어진 각 active region에 해당하는 haplotypes과 해당하는 reference 를 비교한다. dynamic programming 과 유사한데, 이 둘을 비교하기 위해서 이러한 table을 모두 채워야 한다. 채워갈 때는, 아래, 오른쪽, 왼쪽아래 대각선 채우는 방법은 substitution matrix 와 Gap penalty 를 사용한다. 이렇게 채워진 table을 따라서 이렇게, 확실하지 않은 자리를 통해 variant site를 유추하게 된다. 유추할 때는 왼쪽, 위쪽, 왼쪽위 대각선 유추된 variant site를 통해 pairHMM에 사용하게 된다.

(윤문법) in vs at 간단 이해 및 구분하기 [내부링크]

in the morning in the afternoon in the evening at dawn at noon at midnight at과 in의 차이는 무엇일까?? in이라는 전치사는 경계가 있는 곳 안에 있는 의미이다. at은 점의 개념 임. 그래서 in은 한국에서 &#x3D; in korea (한국이라는 경계) at은 버스 정류장에서 &#x3D; at the bus stop (정확한 범위가 없는 그 지점) 그래서 뭔가 수치를 콕 찝어서 설명할 때는 at을 쓴다. 예를들어 시속 at 60 km, at 60 kg, at 9o&#x27;clock 같은 곳에 at을 쓴다고 본다. morning 이라는 건 해뜬 그때 ~ 정오 까지 the 는 범위를 정해주는 정관사임. 그래서 범위가 있고 그 범위를 정해주는 정관사인 in the morning dawn &#x3D; 동틀녘 이는 해가 뜨.......

Mutect2 [내부링크]

확률론적 분석법 확률론적 분석을 하기 위해서, 정상 샘플은 한가지 Allele로만 구성된 homozygous 이며 암 샘플은 heterozygous 한지를 검증하는 것이다. 그래서 아래 두가지 모두 다 통과할 경우에만 somatic mutation으로 채택될 수 있다. 1) 만일 정상 샘플에서 mismatch 를 보이는 reads가 있다면, 이는 반드시 시퀀싱 오류에 의한 것이여야 한다. 2) 암 샘플에서 발견되는 mismatch 들은 시퀀신 오류를 훨씬 뛰어넘는 likelihood를 보여야 한다. 위 두가지 조건에 대해 그림을 참고하여 설명해보자. 정상샘플에서는 5개 reads가 모두 &#x27;G&#x27; 이니까, homozygous 로 보이기에 통과한다. &#x27;T&#x27; 2개가 heterozygous하다 라는 모.......

Mutect2 tumor only mode filter [내부링크]

tumor only mode 에서 만들어지는 filter 정보들을 모아보았다. 종류만 225가지가 나온다. 너무 많으니 하나하나 의미있는 정보들을 모아보자. base_qual clustered_event contamination fragment germline haplotype map_qual multiallelic panel_of_normal PASS position slippage strand_bias weak_evidence ##FILTER&#x3D;&#60;ID&#x3D;base_qual,Description&#x3D;&#34;alt median base quality&#34;&#62; ##FILTER&#x3D;&#60;ID&#x3D;clustered_events,Description&#x3D;&#34;Clustered events observed in the tumor&#34;&#62; ##FILTER&#x3D;&#60;ID&#x3D;contamination,Description&#x3D;&#34;contamination&#34;&#62; ##FILTER&#x3D;&l.......