이거는 말 그대로 플레이스토어 앱 정보가 있는 데이터인데… 본인 아이폰 씁니다. 근데 왜 플레이스토어죠? 앱스토어 데이터가 없다. 참고로 전처리 할거 꽤 있으니까 잘 따라오십쇼.전처리가격 정상화가격 정상화는 투트랙으로 이뤄질건데, 일단 앱 가격에 붙어있는 $를 다 빼고 float으로 만들어줄거다. 그리고 결측값도 채워줄건데, 결측값이 있는 앱들은 다 무료 앱이라 0으로 때울거다. # 일단 저 달러부터 떼보시죠 playstore_df['Price']0 NaN1 NaN2 NaN3 NaN4 NaN ... 82 $4.9983 $3.4984 $6.9985 $4.9986 $3.99Name: Price, Length: 87, ..
있는것도 복잡한데 저걸 왜 넣냐고요? 라이노바이러스는 좀 덜한데, 이게 기본적으로 300개씩 찾고 그렇다보니 계통수가 무지하게 길어집니다. 이러면 이걸 넣는 나도 고통이고 읽는 사람도 고통이예요. 거의 뭔 스크롤이여 스크롤. 근데 계층적 군집분석 결과가 덴드로그램인데 이거 목 꺾고 옆으로 보면 계통수거든요? 그리고 어쨌든 묶은거니까 이거 넣어보자 해서 넣었죠.실루엣 계수이게 원래는 군집 내에서의 응집도와 다른 군집간의 거리를 비교해서 군집분석이 잘 됐는지, 안 됐는지를 평가하는 지표인데 k-means나 k-medoid에서 군집 개수 나눌때도 쓴다. 그 개수가 돌려돌려 돌림판으로 나오는게 아닙니다… 그럼 계통수는 버리는건가요? 아니, 그거 보고 대충 개수 나눌수도 있다. 이거 봐봐요 이걸로 뭘 어떻게 정할..
일단 미리 말씀드리자면 결과 진짜 심각하게 시망했음…ㅋㅋㅋㅋㅋㅋ 걍 이렇게 하는구나만 알아두세요…# 군집분석용from scipy.cluster.hierarchy import dendrogram, linkagefrom scipy.cluster.hierarchy import fclusterfrom sklearn.preprocessing import OneHotEncoderfrom sklearn.preprocessing import StandardScaler # PCA에서 많이 보인 그 분from sklearn.metrics import pairwise_distances # 저친구가 거리행렬을 안주면 유혈사태(아니고 에러사태)가 납니다# k-meansfrom sklearn.cluster import KMean..
그렇다. 대망의 2부가 돌아왔다. 이게 정보 확인하는거 생략하고도 분량 꽤 되니까 알아서 쫓아오십쇼. 다음편에 태블로 얘기만 할거라서 이번편에 다 끝낼거임.전처리쓸 칼럼만 추리기이게 칼럼이 되게 많은데 그걸 우리가 다 쓸 게 아니거든요? 그래서 쓸 것만 추린 다음에 데이터프레임을 재구성하고 그걸 csv파일로 보내야 합니다. 왜냐고? 그걸 보내야 태블로에서도 쓰죠.analysis_column = ['CHROM','POS','REF','ALT','CLNSIG','CLNVC','GENEINFO','CLNREVSTAT'] # 칼럼 뭐하는건지 위에 있어요1. CHROM: 염색체(몇 번 염색체인지)2. POS: 염색체 어디?3. REF, ALT: 비포&애프터 (REF에 있는 시퀀스가 ALT로 바뀐 변이다)4. CL..
이거 3부작입니다... 일단 분석을 하다 말았고, 태블로도 써야됨.clinvar는 유전적 변이와 인간의 표현형과의 관계에 대한 데이터를 수집하여 보관하는 데이터베이스이다. 이게 데이터가 어떻게 되어있냐면 몇번 염색체 어디에 뭐가 어떻게 뻑나면 어떤 변이더라~ 이런게 들어있는데, vcf파일입니다. 이거 분석하려면 여는것부터 골치아픔. 근데 이게 된다고요? 내가 vcf파일 상태로는 열기도 조작하기도 귀찮아서 아예 거기 안에 있는 내용을 데이터프레임화하고 csv로 만드는 코드를 짰음.VCF파일 내용물'1', '66926', '3385321', 'AG', 'A', '.', '.', 'ALLELEID=3544463;CLNDISDB=Human_Phenotype_Ontology:HP:0000547,MONDO:MOND..
카테고리를 보고 이게 여기가 맞나 싶으셨죠? 맞습니다. 파이썬 코딩한거임.그 공식은 뭔지 구글에 찾아보면 나오는데, 뭐 희석할때 농도 얼마 맞추려면 얼마나 넣어야되나 구할 때 쓰는 공식입니다. 근데 계산할때 단위는 맞추셔야 됩니다. 한쪽은 리터인데 한쪽은 밀리리터면 계산 뻑나요. # M1V1 = M2V2# 이거 되게 간단한 희석 농도 구하는 공식입니다. # 예를 들어서 100mM 염화나트륨 용액 xml를 넣어서 50mM 염화나트륨 100ml를 만들어야 해요. 그러면 100 * x = 50 * 100이 되거든요. # 그러면 100x = 5000이니까 100으로 나누면 x = 50이 됩니다. # 예시를 몰(M)로 들어서 글치 스톡 솔루션(농축액)에도 적용되는 공식입니다 이거. # 참고로 단위 통일하셔야 합니..
https://www.kaggle.com/datasets/otegbolamarvellous/post-covid-video-games-worldwide-2021-2025이거 했음.전처리결측값 처리meta_df_na = meta_df.query('User_Score.isna()').indexmeta_df.loc[meta_df_na]결측값 있는 칼럼이 저기말고 없는데, 확인해보니까 그 뭐라고 해야 되지? 리뷰가 너무 적어서 평점을 모을 수 없는? 그런 게임들이었음. 그런건 tbd라고 하는데 저기다가 그거 때려박으면 평점이 문자가 돼서 문제가 터져요. meta_df['User_Score'] = pd.to_numeric(meta_df['User_Score'], errors='coerce')그래서 이렇게만 함. 결..
오늘 할 것은 피어슨 그리고 스피어만입니다. 둘이 뭔 차이인지는 이따 서술해드림. 들어가기 전에: 인과관계 vs 상관관계인과관계랑 상관관계를 혼동하시는 분들이 많은데 둘이 엄연히 다른거다. 인과관계는 너때문에 흥이 다 깨졌으니까 책임져고 상관관계는 너의 등장과 흥이 깨진 것 사이에 뭔가 있는 것 같은데? 이다. 둘이 혼동하지 마십쇼. 상관관계는 너때문에 흥이 다 깨졌으니까 책임져가 아니고 너의 등장과 흥이 깨진 것 사이에 뭔가 있는 것 같은데? 를 보는거다. 너때문에 흥이 다 깨졌으니까 책임져는 회귀분석에서 보십쇼. 피어슨 상관계수# 1. 선형 관계 데이터 (공부 시간 vs 시험 점수)study_hours = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])test_scores ..
오늘 해볼 건 어노바, 그러니까 분산분석입니다. 이건 뭐 없고 얘네'들' 중 뭔가 다른게 있나를 보는겁니다. 얘네'들'? 예. 보통 집단이 세개 이상이면 어노바 하고요, 비모수로 빠질거면 크러스칼 월리스(윌리스 아니고) 검정이라고 있어요. 둘 다 구체적으로 뭐가 다른지 보려면 후속 절차도 들어가야 하는데 어노바는 튜키(Tukey HSD)랑 놀고 크러스칼은 듄 테스트(Dunn's test)랑 놉니다.일원분산분석그 어노바가 독립변수 개수에 따라서 일원, 이원, 삼원(3개), 다변량(...) 이렇게 있습니다. 근데 나도 3원 이상은 안해봄... 여기서는 일원이랑 이원만 할겁니다. 예. 아무튼 일원은 뭐냐... 요인이 하나다 이겁니다. 예를 들자면 컨트롤, ACC(에틸렌 전구체), 에틸렌을 투여했을 때 식물체의..
Student's t-test두 집단간의 평균 차이가 통계적으로 유의한지 확인하기 위해 쓰는 통계 분석 기법입니다. 스튜던트는 그 만든 양반 필명임. t-test의 종류1. 단일 표본 t-test: 단일 집단의 평균과 특정 값과의 차이가 통계적으로 유의미한지 확인할 때 쓴다.2. 독립 표본 t-test: 두 집단간 차이를 보는건데, 그 두 집단이 서로 다른 집단이다.3. 대응 표본 t-test: 두 집단이 비포 앤 애프터다. (예: 운동 전/운동 후)# 샘플 (샘플 크기가 충분)group_A = np.random.normal(loc=50, scale=10, size=50)group_B = np.random.normal(loc=55, scale=12, size=50)# 샘플(크기는 충분하지 않지만 조건은 ..
셋 다 일단 통계분석이긴 한데... 거기까진 감이 좀 오시죠? 근데 저게 다 뭐시여...? - PCA(Principal Component Analysis): 주성분분석- MCA(Multiple Correspondence Analysis): 다중 대응분석- FAMD(Factor Analysis of Mixed Data): 혼합 자료의 요인분석 (feat. 안티그래비티 번역)이렇다.일단 ADsP(혹은 빅분기나 ADP) 준비하셨던 분들 PCA 뭔지 들어보셨죠? 그죠. 그 차원 축소하는 그거. 나머지 둘은 PCA 칭구칭긔들… 그니까 똑같이 차원 축소 하는 애들이다. 아니 하나만 해도 골치아픈데 저런게 왜 세개나 있는데요? 그건 분석 들어가면서 설명드림.import numpy as npimport pandas a..
오늘은 좀 다채롭습니다. 왜냐고? 뭐가 많이 들어서.그 우리 이제 할만큼 하셨으니까... 전처리는 다 안올릴게여... 내가 귀찮아서 이러는거 맞음. 내가 네이버 티스토리 미디움에 동시에 올리는데 그러면 복붙을 몇 번 하는겁니까...배경설명이번에 가져온 데이터베이스의 주제가 Kinase Inhibitor입니다. 이게 뭔데요? 를 설명하려면 kinase와 inhibitor를 다 설명해야 하는데… 아… Kinase는 뭐에 인산기를 붙이는 효소입니다. 인산기는 PO4(3-)고, 그걸 어디다가 붙이는 놈들이 다 카이네이스예요. 인산기를 어디다가 붙이는가는 효바효(효소 바이 효소)지만 어쨌든 인산기를 갖다 붙입니다. 보통 ATP에서 떼다가 붙이긴 합니다만. 자, 그럼 인히비터에 대한 얘기를 해봅시다. 우리 몸의 모..