Coding/Python / MSA에 군집분석을 끼얹어보세요!.md

MSA에 군집분석을 끼얹어보세요!

조회

있는것도 복잡한데 저걸 왜 넣냐고요? 라이노바이러스는 좀 덜한데, 이게 기본적으로 300개씩 찾고 그렇다보니 계통수가 무지하게 길어집니다. 이러면 이걸 넣는 나도 고통이고 읽는 사람도 고통이예요. 거의 뭔 스크롤이여 스크롤. 근데 계층적 군집분석 결과가 덴드로그램인데 이거 목 꺾고 옆으로 보면 계통수거든요? 그리고 어쨌든 묶은거니까 이거 넣어보자 해서 넣었죠.


실루엣 계수

이게 원래는 군집 내에서의 응집도와 다른 군집간의 거리를 비교해서 군집분석이 잘 됐는지, 안 됐는지를 평가하는 지표인데 k-means나 k-medoid에서 군집 개수 나눌때도 쓴다. 그 개수가 돌려돌려 돌림판으로 나오는게 아닙니다… 그럼 계통수는 버리는건가요? 아니, 그거 보고 대충 개수 나눌수도 있다.

 

한타바이러스 실루엣 계수

이거 봐봐요 이걸로 뭘 어떻게 정할거야… 저거 계통수 산출한거에서 덩어리 수 보고 정했어요 결국…

 

k-medoid

아니 근데 왜 하필 저놈임? 일단 계통수를 만들고 쟤까지 진행하는거라 거리행렬이 준비되어있는데, k-medoid는 그 거리행렬을 주기만 하면 됩니다. 그리고 서열이 이미 준비되어있으니 대표서열로 걍 하면 되고, 이친구는 중앙값으로 하는거라 이상치에 영향을 덜 받는다.

 

아니 우리 거리행렬이 있었어요?

# 1. 거리 계산
calculator = DistanceCalculator('identity')
dm = calculator.get_distance(alignment)

이거 찾수?

 

인플루엔자 K-medoid

인플루엔자는 한 '아종' 안에서 갈라지는거고 코로나바이러스는 스파이크만 해서 트리 관련 통계가 한타, 라이노랑 다르지만 이건 일단 계통수만 도출할 수 있으면 다 그릴 수 있기 때문에 계통수를 대체할 수 있다. 단, 쿼리를 잘 짜야 한다는 거… 저기 혼자 떨어진 점 보여요? 저거 partial CDS인데 쟤 끼면 군집 분포가 이상해진다.

댓글

홈으로 돌아가기

검색 결과

"search" 검색 결과입니다.