있는것도 복잡한데 저걸 왜 넣냐고요? 라이노바이러스는 좀 덜한데, 이게 기본적으로 300개씩 찾고 그렇다보니 계통수가 무지하게 길어집니다. 이러면 이걸 넣는 나도 고통이고 읽는 사람도 고통이예요. 거의 뭔 스크롤이여 스크롤. 근데 계층적 군집분석 결과가 덴드로그램인데 이거 목 꺾고 옆으로 보면 계통수거든요? 그리고 어쨌든 묶은거니까 이거 넣어보자 해서 넣었죠.실루엣 계수이게 원래는 군집 내에서의 응집도와 다른 군집간의 거리를 비교해서 군집분석이 잘 됐는지, 안 됐는지를 평가하는 지표인데 k-means나 k-medoid에서 군집 개수 나눌때도 쓴다. 그 개수가 돌려돌려 돌림판으로 나오는게 아닙니다… 그럼 계통수는 버리는건가요? 아니, 그거 보고 대충 개수 나눌수도 있다. 이거 봐봐요 이걸로 뭘 어떻게 정할..
카테고리를 보고 이게 여기가 맞나 싶으셨죠? 맞습니다. 파이썬 코딩한거임.그 공식은 뭔지 구글에 찾아보면 나오는데, 뭐 희석할때 농도 얼마 맞추려면 얼마나 넣어야되나 구할 때 쓰는 공식입니다. 근데 계산할때 단위는 맞추셔야 됩니다. 한쪽은 리터인데 한쪽은 밀리리터면 계산 뻑나요. # M1V1 = M2V2# 이거 되게 간단한 희석 농도 구하는 공식입니다. # 예를 들어서 100mM 염화나트륨 용액 xml를 넣어서 50mM 염화나트륨 100ml를 만들어야 해요. 그러면 100 * x = 50 * 100이 되거든요. # 그러면 100x = 5000이니까 100으로 나누면 x = 50이 됩니다. # 예시를 몰(M)로 들어서 글치 스톡 솔루션(농축액)에도 적용되는 공식입니다 이거. # 참고로 단위 통일하셔야 합니..
결론부터 말하자면 분석은 된다. 되는데 데이터 리소스를 NCBI로 하는 건 비추다. 왜냐고? 그 이유는 올리면서 말해드림..def plot_lht_family_tree(alignment_file): align = AlignIO.read(alignment_file, "fasta") calculator = DistanceCalculator('identity') constructor = DistanceTreeConstructor(calculator, 'nj') tree = constructor.build_tree(align) fig = plt.figure(figsize=(15, 8)) ax = fig.add_subplot(1, 1, 1) plt.title("Arab..
https://seaborn.pydata.org/tutorial/color_palettes.html Choosing color palettes — seaborn 0.13.2 documentationChoosing color palettes Seaborn makes it easy to use colors that are well-suited to the characteristics of your data and your visualization goals. This chapter discusses both the general principles that should guide your choices and the tools in seaborn thseaborn.pydata.org여기 들어가보면 아주 온갖..
https://koreanraichu.tistory.com/760 포켓몬 이로치가 나올 확률로 이항분포를 때려보자일단 이항분포가 뭐냐… 특정 확률(p)을 가진 베르누이 시행을 n번 독립적으로 반복했을 때, 성공하는 횟수(X)에 대한 이산 확률 분포라고 한다. Pass or Fail 뭐 이런건데, 여기서 중요한 건 결과가koreanraichu.tistory.com이거 파이썬으로 하는거 맞음.성비와 이항분포포켓몬에는 성비가 존재한다. 성비가 불명(무성)이거나 한쪽으로 쏠려있는 경우도 있지만 보통은 암수가 다 있는데 비율이 다른 경우가 많다. 님들 솔직히 세꿀버리 비퀸 만들어야되는데 암컷 안떠서 피눈물 흘리신 적 있으시죠? 난 있음... 아오 포고 야도뇽이 자꾸 수컷만 나와서 대환장파티여... # p(성비):..
여러분은 데이터를 분석할 때 제일 먼저 해야 하는 게 뭔지 아십니까? 물론 데이터를 얻는걸 제일 먼저 해야겠지만, 데이터를 다 얻고 나면 데이터를 체크하고 전처리로 뭘 할 지를 정해야 한다. 근데 지금 리눅스 업글중이라 둘 다 다룰 수 있을지는 모르겠음.df.info()데이터프레임의 정보를 확인할 수 있다. RangeIndex: 299 entries, 0 to 298Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 age 299 non-null float..
일단 결론부터 말하겠음. 아직 중순 안됐으면 연초나 마찬가지니까 지금 당장에라도 담배 끊으십쇼.# 모듈import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom lifelines import KaplanMeierFitter # 이친구가 생존곡선을 잘 그려요 아무튼 그럼 import GEOparse # NCBI GEO에 접근할 때 필요함 from Bio import Entrez # NCBI 창고털이 드가자 # 그래프를 그리기 위한 기본 설정plt.rcParams['font.family'] = 'Nanumbarunpen'# plt.rcParams['font.family'] = 'AppleGothic'..
베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률사이의 관계를 나타내는 정리이다. 뭔 개소리임? ㅈㅅ 나도 이해를 못했음. 사전 확률(기존 믿음)과 새로운 정보(증거)를 결합하여 사후 확률(갱신된 믿음)을 계산하는 확률론적 방법이라고 하는데 이것도 확 와닿는 얘기는 아니었습니다. 이거 공식은 되게 심플... 할수도 있고 아닐수도 있음.공식이 이게 다인데 보통 P(B)는 안준다. 그래서 저걸 또 전확률의 정리? 그걸 써서 구해야된다. 근데 저 바는 뭔데요? 조건부확률(P(A|B) = 어떤 사건(B)이 이미 일어났다는 전제 하에, 다른 사건(A)이 일어날 확률)이다. 그 생선님이 유튜브에 올린거 보면 비유를 개찰떡으로 해놨는데 봅시다. 어떤 게임의 가챠 확률표에서 SSR 확률이 0.001%이고 SSR ..
좋은 소식. 이거는 전편 후편 없다. 나쁜 소식. 트리가 한타떄에 비해 안이쁘다.# 모듈import numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cm # 넌 뭐냐 from Bio import Entrez, SeqIO # 왼쪽: 일단 털어보자/오른쪽: 시퀀스 다루려면 필요합니다. 필수임. from Bio import AlignIO # 서열 분석해줄 친구from Bio import Phylo # 트리 그릴라면 필요해요 from Bio.Phylo.TreeConstruction import DistanceCalculator, DistanceTreeConstructorimport io # 누구세요?import subprocess # 서브 프..
https://koreanraichu.tistory.com/824 한타바이러스의 시퀀스를 받아서 MSA를 해보자 (전편)https://koreanraichu.tistory.com/79 Biopython으로 MSA 해보기MSA: multiple sequence alignment 여기에 관한 이론적인 설명은 나중에 또 입 털어드림 ㅇㅇ 아 참고로 MSA 관련해서 다른건 다 결과가 제대로 나왔는데koreanraichu.tistory.com우리 여기서 MSA 돌릴 FASTA파일 저장했죠? 후편에서는 그걸로 분석을 돌릴건데… 아… 이거 트리땜에 개노가다했음… 그것도 트리 얘기하면서 얘기해드리겠음.# 바이러스 DNA가 세그먼트별로 섞여있습니다. (S, M, L)# 이거 분류 안하면 MSA 뻑나요. s_segment..
https://koreanraichu.tistory.com/79 Biopython으로 MSA 해보기MSA: multiple sequence alignment 여기에 관한 이론적인 설명은 나중에 또 입 털어드림 ㅇㅇ 아 참고로 MSA 관련해서 다른건 다 결과가 제대로 나왔는데 툴 관련해서 결과가 안나왔어요 이게 암만 찾아도koreanraichu.tistory.com여기서 MSA 해볼때 clustalW랑 muscle 안돼서 못했잖아요? 경로 입력해야되는데 리눅스 경로가 어디있는지 안나옴+which 몰라서. 근데 맥이나 리눅스에서는 which를 써서 설치 경로를 찾을 수 있습니다. 그러니까 해보자 이거임.배경뜬금없이 바이러스가 왜 나왔는가… 생물정보학 하면 보통은 유전자 시퀀싱 많이 하죠? 근데 뽑아서 시퀀싱..
셀레늄 배운김에 함 해봤음. 일단 클린바가 뭐냐면 유전적 변이와 인간의 표현형(phenotype)과의 관계에 대한 데이터를 수집하여 보관하는 데이터베이스이다. 이 코드를 매일 돌릴 필요는 없지만, 얘네가 데이터베이스다보니 주기적으로 업데이트를 함. 그니까 최신정보가 필요할때 쓰시면 되겠다.from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import Select# 웹드라이버 실행driver = webdriver.Chrome() # 구글 크롬driver.get('https://www.ncbi.nlm.nih.gov/clinvar/') # Clinvar 접속print(..
그… 시계열 데이터를 아십니까? 가로축이 시간인 데이터라고 보면 된다. 예를 들자면 나는 오늘 얼마나 걸었는가, 어제랑 비교해서는 얼마나 걸었는가, 얼마나 퍼잤는가, 오늘 삼전은 몇만전자인가(…) 뭐 그런거 말이다. 시계열의 대표적인 예시가 주식이다. 아니 오늘 판다스 통계분석을 하는데 diff()가 나온거임. 이게 뭐냐면 차분이거든요? 이 차분이 뭐냐면... 시계열 데이터는 슈뢰딩거도 무덤에서 기함할 정도로 평균과 분산이 아주 널을 뛰기때문에 이걸 정상화할 필요가 있는데, 그 정상화 절차다. 그리고 ARIMA에서 I를 맡고 있지. 그럼 AR이랑 MA는 뭔데요? AR은 자기상관이고 MA는 이동평균이다. 이동평균은 또 뭔데요? 12345 있으면 123 234 345 이런식으로 범위를 옮겨가면서 평균 내는 ..