본문 바로가기
Coding/Python

Biopython-Clustering 입력 인자

by Lv. 35 라이츄 2022. 8. 21.

이거 튜토리얼에서 그냥 이런게 있다 하고 넘어가서 적음... 


Distance matrix

Data : 분석할 데이터니까 당연히 있어야 한다.
Mask(Default: None) : 결손된 데이터를 0으로 표시하는가? (None이면 모든 데이터가 존재하는 것)
Weight(Default: None) : 가중치. 거리를 계산할 때 반영된다고 한다.
Transpose(Default: 0) : True면 열간의 거리를, False면 행간의 거리를 계산한다.
Dist(Default: 'e') : 거리 함수. 디폴트는 유클리드 거리. (Distance 관련해서는 clustering 이론편을 참조)

 

Cluster distance

data : 분석할 데이터
mask : 결손된 데이터를 0으로 표시하는가? (None이면 모든 데이터가 존재하는 것)
weight : 가중치. 거리를 계산할 때 반영된다고 한다.
index1, index2 : 각각 첫번째, 두번째 클러스터에 포함되는 인덱스'들'. 리스트 혹은 정수 형태이다.
method : Cluster간 거리를 정의하는 방법. 
'a': 산술 평균
'm': 중앙값
's': 두 클러스터의 항목 중 가장 짧은 pairwise distance
'x': 두 클러스터의 항목 중 가장 긴 pairwise distance
'v': 두 클러스터의 항목간 평균 pairwise distance
dist : 위에 있는 거리 함수. 디폴트는 유클리드 거리.  관련해서는 위쪽을 참고할 것)
transpose : True면 열간의 거리를, False면 행간의 거리를 계산한다. (True면 컬럼)

 

평균/중앙값 클러스터링

data : 분석할 데이터(필수)
nclusters : 클러스터 개수(기본: 2)
mask : 결손된 데이터를 0으로 표시하는가? (None이면 모든 데이터가 존재하는 것, 기본: 없음)
weight : 가중치(기본: 없음)
transpose : True면 열간의 거리를, False면 행간의 거리를 계산한다. (기본: F)
npass : 알고리즘 가동 횟수(기본: 1)
method : k-mean이면 'a', k-median이면 'm'. 기본값은 a다.
dist : 거리(기본: e)
initialid : initial clustering을 정의한다. (기본: 없음)

 

medoid 클러스터링

distance : 얘는 특이하게도 어레이 자체가 아니라 거리 행렬이 필요하다. 
nclusters : 클러스터 개수(기본: 2)
npass : 알고리즘 가동 횟수(기본: 1)
initialid : initial clustering을 정의한다. (기본: 없음)

 

self organizing maps 

data : 데이터 
mask : 결손된 데이터를 0으로 표시하는가? (None이면 모든 데이터가 존재하는 것, 기본: 없음)
weight : 가중치(기본: 없음)
transpose : True면 열간의 거리를, False면 행간의 거리를 계산한다. (기본: F)
nxgrid, nygrid : 자체 계산되는 직사각형의 셀 수(기본: 2,1)
inittau : initial value(위에 썼던 타우값, 기본: 0.02)
niter : 반복 몇 번 할건디? (기본: 1)
dist : 거리(기본: e)

최근댓글

최근글

skin by © 2024 ttutta