Coding/Python

MSA에 군집분석을 끼얹어보세요!

있는것도 복잡한데 저걸 왜 넣냐고요? 라이노바이러스는 좀 덜한데, 이게 기본적으로 300개씩 찾고 그렇다보니 계통수가 무지하게 길어집니다. 이러면 이걸 넣는 나도 고통이고 읽는 사람도 고통이예요. 거의 뭔 스크롤이여 스크롤. 근데 계층적 군집분석 결과가 덴드로그램인데 이거 목 꺾고 옆으로 보면 계통수거든요? 그리고 어쨌든 묶은거니까 이거 넣어보자 해서 넣었죠.실루엣 계수이게 원래는 군집 내에서의 응집도와 다른 군집간의 거리를 비교해서 군집분석이 잘 됐는지, 안 됐는지를 평가하는 지표인데 k-means나 k-medoid에서 군집 개수 나눌때도 쓴다. 그 개수가 돌려돌려 돌림판으로 나오는게 아닙니다… 그럼 계통수는 버리는건가요? 아니, 그거 보고 대충 개수 나눌수도 있다. 이거 봐봐요 이걸로 뭘 어떻게 정할..

Coding/Python

M1V1 = M2V2

카테고리를 보고 이게 여기가 맞나 싶으셨죠? 맞습니다. 파이썬 코딩한거임.그 공식은 뭔지 구글에 찾아보면 나오는데, 뭐 희석할때 농도 얼마 맞추려면 얼마나 넣어야되나 구할 때 쓰는 공식입니다. 근데 계산할때 단위는 맞추셔야 됩니다. 한쪽은 리터인데 한쪽은 밀리리터면 계산 뻑나요. # M1V1 = M2V2# 이거 되게 간단한 희석 농도 구하는 공식입니다. # 예를 들어서 100mM 염화나트륨 용액 xml를 넣어서 50mM 염화나트륨 100ml를 만들어야 해요. 그러면 100 * x = 50 * 100이 되거든요. # 그러면 100x = 5000이니까 100으로 나누면 x = 50이 됩니다. # 예시를 몰(M)로 들어서 글치 스톡 솔루션(농축액)에도 적용되는 공식입니다 이거. # 참고로 단위 통일하셔야 합니..

Coding/Python

코로나바이러스 MSA

나도 이걸 4번까지 하게 될 줄은 몰랐음…개요여러분들 다들 아시죠? 코로나19가 우리를 어떻게 변화시켰는지... 저는 자가격리도 해보고 걸려도 봤습니다. 자가격리때 다들 헐 어카냐 했는데… 저는 태생이 집순이라 1도 데미지 없었고요.. 격리소가 을지로 근처라 원격으로 명동성당 루기아 줘팼습니다. 창고는 언제나 열려있소# 쿼리 조건: SARS-CoV-2 (코로나19), Spike 단백질 위주로 털어보기# 2025년 최신 데이터 + 사람 숙주 조건query = "SARS-CoV-2 AND S[Gene Name] AND 2025[PDAT] AND Homo sapiens[Host]"# 1. ID 리스트 가져오기handle = Entrez.esearch(db="nucleotide", term=query, retm..

Coding/Python

라이노바이러스 유전자로 MSA를 해보았다

얘는 스케일이 좀 다운됐음... 왜냐고요? 게놈이 7500bp거든요. 이걸 인플루엔자나 한타때처럼 2~300개 돌린다? 켜놓고 자고 일어나야됩니다. 아니 리눅스로 하셨어요? 걔로 하면 중간에 뻗음. 맥북으로 돌린건데도 이정돕니다.쟤는 또 뭐 하는 애임?여러분 감기랑 독감이랑 다릅니다. 단순히 증상이 다른게 아니라 원인 병원체가 달라요. 독감은 인플루엔자가 원인이고 감기는 라이노바이러스라는 놈이 원인이거든요? 다른 바이러스도 있다만. 그거 아십니까? 감기에는 약이 없음. 아니 저희 병원가면 약 주는데요? 그건 '증상을 완화시키는' 약이지 감기 바이러스를 조지는 약이 아닙니다. 아니 그럼 감기약이라고 하면 안되는거 아닌가요? 진정하십쇼. 감기 바이러스는 스포닝풀에서 저글링 뽑아내는것처럼 캐많아요. 그걸 일일..

Coding/Python

식물 데이터도 분석이 되나요?

결론부터 말하자면 분석은 된다. 되는데 데이터 리소스를 NCBI로 하는 건 비추다. 왜냐고? 그 이유는 올리면서 말해드림..def plot_lht_family_tree(alignment_file): align = AlignIO.read(alignment_file, "fasta") calculator = DistanceCalculator('identity') constructor = DistanceTreeConstructor(calculator, 'nj') tree = constructor.build_tree(align) fig = plt.figure(figsize=(15, 8)) ax = fig.add_subplot(1, 1, 1) plt.title("Arab..

Coding/Python

매우 주관적인 씨본 컬러맵 고르는 방법

https://seaborn.pydata.org/tutorial/color_palettes.html Choosing color palettes — seaborn 0.13.2 documentationChoosing color palettes Seaborn makes it easy to use colors that are well-suited to the characteristics of your data and your visualization goals. This chapter discusses both the general principles that should guide your choices and the tools in seaborn thseaborn.pydata.org여기 들어가보면 아주 온갖..

Coding/Python

포켓몬과 이항분포

https://koreanraichu.tistory.com/760 포켓몬 이로치가 나올 확률로 이항분포를 때려보자일단 이항분포가 뭐냐… 특정 확률(p)을 가진 베르누이 시행을 n번 독립적으로 반복했을 때, 성공하는 횟수(X)에 대한 이산 확률 분포라고 한다. Pass or Fail 뭐 이런건데, 여기서 중요한 건 결과가koreanraichu.tistory.com이거 파이썬으로 하는거 맞음.성비와 이항분포포켓몬에는 성비가 존재한다. 성비가 불명(무성)이거나 한쪽으로 쏠려있는 경우도 있지만 보통은 암수가 다 있는데 비율이 다른 경우가 많다. 님들 솔직히 세꿀버리 비퀸 만들어야되는데 암컷 안떠서 피눈물 흘리신 적 있으시죠? 난 있음... 아오 포고 야도뇽이 자꾸 수컷만 나와서 대환장파티여... # p(성비):..

Coding/Python

데이터프레임의 정보를 확인하는 몇 가지 방법

여러분은 데이터를 분석할 때 제일 먼저 해야 하는 게 뭔지 아십니까? 물론 데이터를 얻는걸 제일 먼저 해야겠지만, 데이터를 다 얻고 나면 데이터를 체크하고 전처리로 뭘 할 지를 정해야 한다. 근데 지금 리눅스 업글중이라 둘 다 다룰 수 있을지는 모르겠음.df.info()데이터프레임의 정보를 확인할 수 있다. RangeIndex: 299 entries, 0 to 298Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 age 299 non-null float..

Coding/Python

폐암 데이터를 분석해서 생존률을 비교해보자

일단 결론부터 말하겠음. 아직 중순 안됐으면 연초나 마찬가지니까 지금 당장에라도 담배 끊으십쇼.# 모듈import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom lifelines import KaplanMeierFitter # 이친구가 생존곡선을 잘 그려요 아무튼 그럼 import GEOparse # NCBI GEO에 접근할 때 필요함 from Bio import Entrez # NCBI 창고털이 드가자 # 그래프를 그리기 위한 기본 설정plt.rcParams['font.family'] = 'Nanumbarunpen'# plt.rcParams['font.family'] = 'AppleGothic'..

Coding/Python

베이즈 정리

베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률사이의 관계를 나타내는 정리이다. 뭔 개소리임? ㅈㅅ 나도 이해를 못했음. 사전 확률(기존 믿음)과 새로운 정보(증거)를 결합하여 사후 확률(갱신된 믿음)을 계산하는 확률론적 방법이라고 하는데 이것도 확 와닿는 얘기는 아니었습니다. 이거 공식은 되게 심플... 할수도 있고 아닐수도 있음.공식이 이게 다인데 보통 P(B)는 안준다. 그래서 저걸 또 전확률의 정리? 그걸 써서 구해야된다. 근데 저 바는 뭔데요? 조건부확률(P(A|B) = 어떤 사건(B)이 이미 일어났다는 전제 하에, 다른 사건(A)이 일어날 확률)이다. 그 생선님이 유튜브에 올린거 보면 비유를 개찰떡으로 해놨는데 봅시다. 어떤 게임의 가챠 확률표에서 SSR 확률이 0.001%이고 SSR ..

Coding/Python

인플루엔자의 해마글루티닌 게놈을 받아서 MSA를 해보자

좋은 소식. 이거는 전편 후편 없다. 나쁜 소식. 트리가 한타떄에 비해 안이쁘다.# 모듈import numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cm # 넌 뭐냐 from Bio import Entrez, SeqIO # 왼쪽: 일단 털어보자/오른쪽: 시퀀스 다루려면 필요합니다. 필수임. from Bio import AlignIO # 서열 분석해줄 친구from Bio import Phylo # 트리 그릴라면 필요해요 from Bio.Phylo.TreeConstruction import DistanceCalculator, DistanceTreeConstructorimport io # 누구세요?import subprocess # 서브 프..

Coding/Python

한타바이러스의 시퀀스를 받아서 MSA를 해보자 (후편)

https://koreanraichu.tistory.com/824 한타바이러스의 시퀀스를 받아서 MSA를 해보자 (전편)https://koreanraichu.tistory.com/79 Biopython으로 MSA 해보기MSA: multiple sequence alignment 여기에 관한 이론적인 설명은 나중에 또 입 털어드림 ㅇㅇ 아 참고로 MSA 관련해서 다른건 다 결과가 제대로 나왔는데koreanraichu.tistory.com우리 여기서 MSA 돌릴 FASTA파일 저장했죠? 후편에서는 그걸로 분석을 돌릴건데… 아… 이거 트리땜에 개노가다했음… 그것도 트리 얘기하면서 얘기해드리겠음.# 바이러스 DNA가 세그먼트별로 섞여있습니다. (S, M, L)# 이거 분류 안하면 MSA 뻑나요. s_segment..

Coding/Python

한타바이러스의 시퀀스를 받아서 MSA를 해보자 (전편)

https://koreanraichu.tistory.com/79 Biopython으로 MSA 해보기MSA: multiple sequence alignment 여기에 관한 이론적인 설명은 나중에 또 입 털어드림 ㅇㅇ 아 참고로 MSA 관련해서 다른건 다 결과가 제대로 나왔는데 툴 관련해서 결과가 안나왔어요 이게 암만 찾아도koreanraichu.tistory.com여기서 MSA 해볼때 clustalW랑 muscle 안돼서 못했잖아요? 경로 입력해야되는데 리눅스 경로가 어디있는지 안나옴+which 몰라서. 근데 맥이나 리눅스에서는 which를 써서 설치 경로를 찾을 수 있습니다. 그러니까 해보자 이거임.배경뜬금없이 바이러스가 왜 나왔는가… 생물정보학 하면 보통은 유전자 시퀀싱 많이 하죠? 근데 뽑아서 시퀀싱..

Coding/Python

클린바 가서 VCF 자동으로 받기 시스템

셀레늄 배운김에 함 해봤음. 일단 클린바가 뭐냐면 유전적 변이와 인간의 표현형(phenotype)과의 관계에 대한 데이터를 수집하여 보관하는 데이터베이스이다. 이 코드를 매일 돌릴 필요는 없지만, 얘네가 데이터베이스다보니 주기적으로 업데이트를 함. 그니까 최신정보가 필요할때 쓰시면 되겠다.from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import Select# 웹드라이버 실행driver = webdriver.Chrome() # 구글 크롬driver.get('https://www.ncbi.nlm.nih.gov/clinvar/') # Clinvar 접속print(..

Coding/Python

의도와 많이 달라졌지만 Python으로 ARIMA를 해보자

그… 시계열 데이터를 아십니까? 가로축이 시간인 데이터라고 보면 된다. 예를 들자면 나는 오늘 얼마나 걸었는가, 어제랑 비교해서는 얼마나 걸었는가, 얼마나 퍼잤는가, 오늘 삼전은 몇만전자인가(…) 뭐 그런거 말이다. 시계열의 대표적인 예시가 주식이다. 아니 오늘 판다스 통계분석을 하는데 diff()가 나온거임. 이게 뭐냐면 차분이거든요? 이 차분이 뭐냐면... 시계열 데이터는 슈뢰딩거도 무덤에서 기함할 정도로 평균과 분산이 아주 널을 뛰기때문에 이걸 정상화할 필요가 있는데, 그 정상화 절차다. 그리고 ARIMA에서 I를 맡고 있지. 그럼 AR이랑 MA는 뭔데요? AR은 자기상관이고 MA는 이동평균이다. 이동평균은 또 뭔데요? 12345 있으면 123 234 345 이런식으로 범위를 옮겨가면서 평균 내는 ..

홈으로 돌아가기

검색 결과

"search" 검색 결과입니다.