그래프 알아보기-덴드로그램
모가지 오른쪽으로 90도 꺾고 보면 계통수임.
군집분석
내가 통계실전 시리즈에 올렸는지는 모르겠는데 군집분석이라는 게 있습니다. 이게 뭐냐고요? 예를 들어봅시다. 포켓몬을 구별하는 기준이랄 게 있잖아요. 1025마리의 포켓몬을 지방(최초로 추가된 세대)별로 나눌수도 있고, 전설의 포켓몬이나 환상의 포켓몬으로도 나눌 수 있고, 아니면 스타팅이냐 아니냐로도 나눌 수 있고, 타입이 하나냐 여러개냐로도 나눌 수 있다. 이런 식으로 어떤 데이터들을 음 이런 놈들을 묶어봐야겠군 하고 비슷한 놈들끼리 묶는 게 군집분석이다.
군집분석은 비지도학습이라는 게 특징이라 포켓몬 100마리 깔아놓고 이거 묶어보십쇼 하면 음 이거 불타입 이거 물타입 이거 풀타입 어 이거 타입 두개다 이런 식으로 지 알아서 묶어놓는 게 특징이다. 근데 덴드로그램 하다가 군집분석이 왜 나옴?
군집분석 중 하나가 Hierarchical clustering인데 우리말로는 계층적 군집분석이다. 이거 어디서 많이 봤다고요? 실례지만 생물학 전공이십니까? 아니면 바이오파이썬을 해보셨다건가? 아 ADsP 하셨어? 거기서도 다루긴 다룹니다 계층적 군집분석… 근데 계층적 군집분석이 덴드로그램이랑 뭔 상관이냐고요? 계층적 군집분석 결과가 덴드로그램으로 나옵니다.
덴드로그램

이거 어디서 많이 본 것 같지 않냐... 저 숫자 뭐냐... 저게 아마 맷플롭이나 씨본을 써서 그린걸겁니다. 근데 우리가 그려봐서 아시겠지만 그래프 그릴 때 보통 figsize 정하잖아요. 그리고 그 figsize에 상관없이 주피터에서 그래프 그릴때는 일단 콤퓨타 화면 사이즈로 나오게 되는데... 저 밑에 숫자가 뭔 뜻이냐면 이 밑에 가지가 이만큼 있다 뭐 그런 얘기다. 얘를 축약한 이유가 뭐냐... 저걸 축약 안 했다간 덴드로그램을 보는 여러분이나 여러분의 상사나 다같이 시각을 포기하게 됩니다. 그래프의 크기는 한정되어있잖아요.
덴드로그램 치면 연관검색어에 계층적 군집분석이 뜨는데 걔 결과가 이거거든요? 뭔가 계통수랑 유사하게 생겼죠? 저거 모가지 오른쪽으로 90도 꺾고 보면 계통수입니다. 저걸 보면서 음 쟤네들이 이렇게 묶였구만 하는겁니다.
MSA 할 때는 계통수를 냈었는데 포폴에는 계통수 대신 k-medoid가 들어갔죠? 일단 계통수가 너무 길고… (계통수는 Biopython으로 그린거라 축약 안됨) 이걸 그렇다고 일부만 자르고 올릴 수도 없고… 근데 계통수가 모가지 왼쪽으로 꺾고 보면 덴드로그램이고 덴드로그램이 계층적 군집분석의 결과물이잖아요. 그래서 어? 그럼 이거 군집분석 결과 올리면 안됨? 해서 k-medoid+산점도로 그린 걸 올린겁니다. 왜 k-medoid냐고요? 계통수 그릴때 거리행렬을 도출하기때문에 별도로 계산 안 하고 그걸로 걍 그리면 되거든요.
'Statistics' 카테고리의 다른 글
| 그래프 알아보기-간트차트 (0) | 2026.06.04 |
|---|---|
| 그래프 알아보기-히트맵 (0) | 2026.06.02 |
| 그래프 알아보기-퍼널 차트 (0) | 2026.05.26 |
| 그래프 알아보기-트리맵 (0) | 2026.05.21 |
| 그래프 알아보기-버블 차트 (0) | 2026.05.19 |