일단 미리 말씀드리자면 결과 진짜 심각하게 시망했음…ㅋㅋㅋㅋㅋㅋ 걍 이렇게 하는구나만 알아두세요…# 군집분석용from scipy.cluster.hierarchy import dendrogram, linkagefrom scipy.cluster.hierarchy import fclusterfrom sklearn.preprocessing import OneHotEncoderfrom sklearn.preprocessing import StandardScaler # PCA에서 많이 보인 그 분from sklearn.metrics import pairwise_distances # 저친구가 거리행렬을 안주면 유혈사태(아니고 에러사태)가 납니다# k-meansfrom sklearn.cluster import KMean..
통계 하다 보면 정말 지겹게 나오는게 귀무가설과 대립가설이다. 그 왜 뭐 분석하고 나면 맨날 피밸류 뽑아서 유의수준(보통 0.05 아니면 0.01)보다 큰지 작은지 보잖아요. 이걸 왜 보는지 알려드림.귀무가설은 변화나 차이가 없다는 가정을 한 가설이다. 그러니까 얘랑 쟤가 또이또이 쌤쌤이다, 효과가 없다(약이나 어떤 방법 등), 상관관계가 없다(상관분석), 독립변수가 종속변수에 영향을 끼치지 못한다(회귀분석) 이런게 다 귀무가설이다. 그리고 얘는 기각당하는 게 팔자인 가설이다. 귀무가설이 기각되면 어어 하는거 샤피로-윌크랑 레빈검정말고 없었음... 걔들은 귀무가설 기각되면 정규성/등분산성 위반이라 비모수로 빠져야됩니다. 반대로 대립가설은 우리가 통계분석을 통해 입증해야 하는 가설이다. 그니까 피밸류가 유..
오늘 할 것은 피어슨 그리고 스피어만입니다. 둘이 뭔 차이인지는 이따 서술해드림. 들어가기 전에: 인과관계 vs 상관관계인과관계랑 상관관계를 혼동하시는 분들이 많은데 둘이 엄연히 다른거다. 인과관계는 너때문에 흥이 다 깨졌으니까 책임져고 상관관계는 너의 등장과 흥이 깨진 것 사이에 뭔가 있는 것 같은데? 이다. 둘이 혼동하지 마십쇼. 상관관계는 너때문에 흥이 다 깨졌으니까 책임져가 아니고 너의 등장과 흥이 깨진 것 사이에 뭔가 있는 것 같은데? 를 보는거다. 너때문에 흥이 다 깨졌으니까 책임져는 회귀분석에서 보십쇼. 피어슨 상관계수# 1. 선형 관계 데이터 (공부 시간 vs 시험 점수)study_hours = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])test_scores ..
오늘 해볼 건 어노바, 그러니까 분산분석입니다. 이건 뭐 없고 얘네'들' 중 뭔가 다른게 있나를 보는겁니다. 얘네'들'? 예. 보통 집단이 세개 이상이면 어노바 하고요, 비모수로 빠질거면 크러스칼 월리스(윌리스 아니고) 검정이라고 있어요. 둘 다 구체적으로 뭐가 다른지 보려면 후속 절차도 들어가야 하는데 어노바는 튜키(Tukey HSD)랑 놀고 크러스칼은 듄 테스트(Dunn's test)랑 놉니다.일원분산분석그 어노바가 독립변수 개수에 따라서 일원, 이원, 삼원(3개), 다변량(...) 이렇게 있습니다. 근데 나도 3원 이상은 안해봄... 여기서는 일원이랑 이원만 할겁니다. 예. 아무튼 일원은 뭐냐... 요인이 하나다 이겁니다. 예를 들자면 컨트롤, ACC(에틸렌 전구체), 에틸렌을 투여했을 때 식물체의..
여기 글을 꾸준히 보신 분들이라면(특히 통계쪽) t-test나 어노바같은거 할 때 정규성 어쩌고 하는 걸 보셨을것이다. 표본의 크기가 충분히 크기 않으면서 정규성 등분산성을 위반하면 티테스트 말고 비모수로 빠지라고 했잖아요. 아니 근데 정규성이 뭔데? 비모수검정은 뭔데? 정규성데이터가 정규분포를 따르는 특성이 정규성이다. 정규분포 그 종모양 아시죠?이게 평균(뮤)이 0, 표준편차(시그마)가 1이면 표준정규분포임다. 어떤 데이터가 정규성을 띤다는 건 분포가 저 모양이라는 얘기예요. 정규성을 확인하는 방법일단 내가 Python에서 쓰는 방법은 샤피로-윌크 검정이고 콜모고로프-스미노브 검정이나 앤더슨-달링 검정도 있다. 근데 가끔 그럴때 있음. 아니 샤피로 윌크 돌렸는데 피밸류가 0.06이예요. 그러면 통계상..
Student's t-test두 집단간의 평균 차이가 통계적으로 유의한지 확인하기 위해 쓰는 통계 분석 기법입니다. 스튜던트는 그 만든 양반 필명임. t-test의 종류1. 단일 표본 t-test: 단일 집단의 평균과 특정 값과의 차이가 통계적으로 유의미한지 확인할 때 쓴다.2. 독립 표본 t-test: 두 집단간 차이를 보는건데, 그 두 집단이 서로 다른 집단이다.3. 대응 표본 t-test: 두 집단이 비포 앤 애프터다. (예: 운동 전/운동 후)# 샘플 (샘플 크기가 충분)group_A = np.random.normal(loc=50, scale=10, size=50)group_B = np.random.normal(loc=55, scale=12, size=50)# 샘플(크기는 충분하지 않지만 조건은 ..
셋 다 일단 통계분석이긴 한데... 거기까진 감이 좀 오시죠? 근데 저게 다 뭐시여...? - PCA(Principal Component Analysis): 주성분분석- MCA(Multiple Correspondence Analysis): 다중 대응분석- FAMD(Factor Analysis of Mixed Data): 혼합 자료의 요인분석 (feat. 안티그래비티 번역)이렇다.일단 ADsP(혹은 빅분기나 ADP) 준비하셨던 분들 PCA 뭔지 들어보셨죠? 그죠. 그 차원 축소하는 그거. 나머지 둘은 PCA 칭구칭긔들… 그니까 똑같이 차원 축소 하는 애들이다. 아니 하나만 해도 골치아픈데 저런게 왜 세개나 있는데요? 그건 분석 들어가면서 설명드림.import numpy as npimport pandas a..
그 열역학 엔트로피를 아십니까? '평형 상태로의 이동 정도' 또는 '유효하게 이용할 수 있는 에너지의 감소 정도'나 '무효 에너지의 증가 정도'를 의미하며, 제 2 법칙에 의하면 항상 증가만 하는 그거 말이다. 섀넌 엔트로피도 그건데, 이제 그거는 '정보를 내보내는 근원의 불확실도를 나타내는 양' 또는 '정보량의 기대치'를 의미한다. 음… 쉽게 얘기하자면 엔트로피가 무질서도잖아요? 정보량의 무질서도 뭐 그런거라고 생각하시면 된다. 나도 뭔지 잘 모름. 스읍… 이게 정보 관련된거긴 한데 나도 잘 모르것다… 일단 내 이해한데까지는 설명해보겠음. 아무튼 저게 뭔지를 설명하기 전에 정보량이 뭔지를 먼저 이해해야 한다. 내일 해가 동쪽에서 뜨는거랑, 내일 출근길에 무심코 샀던 로또가 주말에 1등 되는거랑 어느쪽이..
일단 그… 뭔가 통계적으로 뭔가 있어야 하지 않나 싶어서 추가는 했습니다. 근데 아… 포폴에 쓸거 늘었어… 그거 하는김에 아예 그래프 칼라도 수정했습니다. 씨본 컬러맵이 이쁜게 많은건 맞는데, 그 컬러맵도 적재적소에 써야 해요.맨-휘트니 u 검정그… t-test라고 아시죠? 스튜던츠 t-test. 그게 단일집단이건 두개건 비포애프터건 비교할 때 쓰는 건 맞는데… 어? 그럼 티테스트 쓰면 되잖아요. 그죠 써도 되는데… t-test에는 조건이 있어요. 일단 샘플 수가 30개가 안되면 샘플 크기에 따라서는 정규성/등분산성을 확인하고 진행해야 하고, 너무 적으면(10개보다 적으면) 비모수검정으로 빠져야됩니다. 그 일단 스튜던츠씨는 t가 대문자인지 소문자인지 딱 정해주고 다시 가시면 되겠고… 그럼 그 정규성이랑 ..