'BioPython' 태그의 글 목록

Biopython-dbSNP와 Clinvar

이놈들아 이것도 되면 좀 된다고 말좀 해줘... 참고로 이거 어떻게 알았냐면 면접보는 회사에서 발표주제 중 하나가 저 두놈이었는데 찾다보니 NCBI에서 만든거네? -> Entrez에 있네? -> 비켜봐 시켜볼 게 있어(주섬주섬 파이참을 켠다) 가 된 거임. dbSNP from Bio import Entrez Entrez.email = "blackholekun@gmail.com" # 내가 누구인지 말해주는 과정이 필요하다고... # 이메일은 자기꺼 그냥 쓰세요 handle = Entrez.esearch(db="snp", term="EGFR", retmax="40" ) record = Entrez.read(handle) print(record) 참고로 db에는 snp라고 써야지 dbsnp라고 쓰면 안된다. ..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython-Q&A

Q&A지만 자문자답이다. 어쨌든 질답은 맞음 Q1. MSA의 그 clustalW랑 MUSCLE은 어찌됐나요? A1. 그거 둘다 깔아야 됩니다. OS 박고 경로 박아서 돌리는 거 나오긴 했는데 트라이 해보려고 했더니 윈도 기준이네... 머슬은 경로 박아서 해봤는데 커맨드만 나와서 MSA는 터미널로 돌리고 있습니다. 리눅스는 clustalw와 MUSCLE 둘 다 일단 설치해두면 터미널에서 돌릴 수 있습니다. (py파일로 아웃풋 설정도 가능) Q2. 일부 건너뛴 챕터들이 있던데...? A2. 실습용 자료 구하기가 빡세거나(얘네도 다 안올려줌...) MSA처럼 할 수 없는 여건인 경우 건너뜁니다. 그래서 16 17(이건 하려고 했는데 wordcloud 하느라 시간 다 잡아먹음) 건너뛰고 케그 했지... Q3. ..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 KEGG 탐방하기

쿡북 분량 개짧음 진짜 이거보다 짧을수가 없음. KEGG? https://www.genome.jp/kegg/ KEGG: Kyoto Encyclopedia of Genes and Genomes www.genome.jp Kyoto Encyclopedia of Genes and Genomes의 준말. 그렇다, 이름에 교토가 들어간 걸 보면 아시겠지만 일제 DB다. 여기가 메인페이지 여기가 KEGG brite. 본인이 자주 가는 곳이다. 생각보다 쏠쏠한 정보가 많고 KEGG brite의 경우 golden standard dataset이라고 해서 야먀니시가 인공지능 학습시킬 때 쓴 데이터셋(GPCR, 효소, 핵 리셉터, 트랜스포터) 분류별로 약물 타겟을 알려준다. Parsing 파싱할거면 일단 파일이 당신 컴퓨터..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython-Entrez에서 논문 제목 긁어와서 Wordcloud 만들기

Project wordcloud의 극초반 코드. from Bio import Entrez # 논문 긁어올 때 필요한거 from wordcloud import WordCloud from wordcloud import STOPWORDS import matplotlib.pyplot as plot # Wordcloud 그릴 때 필요한거 Entrez.email = "blackholekun@gmail.com" handle = Entrez.esearch(db="pubmed", term="Arabidopsis[title]", retmax="15") record = Entrez.read(handle) IdList=record['IdList'] # 일차적으로 Pubmed에서 논문을 찾을 수단인 PMID를 입수한다. # 날..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython-Clustering 입력 인자

이거 튜토리얼에서 그냥 이런게 있다 하고 넘어가서 적음... Distance matrix Data : 분석할 데이터니까 당연히 있어야 한다. Mask(Default: None) : 결손된 데이터를 0으로 표시하는가? (None이면 모든 데이터가 존재하는 것) Weight(Default: None) : 가중치. 거리를 계산할 때 반영된다고 한다. Transpose(Default: 0) : True면 열간의 거리를, False면 행간의 거리를 계산한다. Dist(Default: 'e') : 거리 함수. 디폴트는 유클리드 거리. (Distance 관련해서는 clustering 이론편을 참조) Cluster distance data : 분석할 데이터 mask : 결손된 데이터를 0으로 표시하는가? (None이면..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 Clusting analysis 하기 (실전편)

와! 드디어 실전인가요? 근데 실전 생각보다 노잼임... Distance matrix 거리 행렬. 두 점간의 거리를 배열해 행렬로 나타낸 것이다. 점이 N개일 때 Distance matrix는 N*N으로 표기할 수 있다. import numpy as np import pandas as pd from Bio.Cluster import distancematrix data=np.array([[0, 1, 2, 3],[4, 5, 6, 7],[8, 9, 10, 11],[1, 2, 3, 4]]) matrix = distancematrix(data) # 뭐야 이거 왜 한영키 안먹어요 distances = distancematrix(data, dist='e') print(distances) [array([], dtype..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 Clusting analysis 하기 (이론편)

분량도 분량인데 spyder에서 한영키가 안돼서 그거땜시 늦었음... 이게 한 글에 다 쓰기엔 좀 분량도 분량인데 이게 생각보다 설명이랑 코딩이랑 나뉘어있어서 이론편 실전편 나눕니다. 이건 clustering 중 하나인 hierarchical clusting. 오늘 할 게 대충 이런거다. Cluster? 비슷한 특성을 가진 데이터 집단을 클러스터라고 한다. 데이터의 특성이 비슷하면 같은 클러스터, 다르면 다른 클러스터에 속한다. 클러스터링 하는 방법이 여러개가 있는데 여기서는 k-mean, k-median, k-medoid랑 hierarchical clustering에 대해 그냥 개 간단하게 설명하고 넘어간다. Hierarchical clustering 앞에 k-들어가는 것과 달리 계층적 클러스터링이라고..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 Sequence motif analysis 하기

모티브 찾으면 구조 모티브가 나오는데 이거는 '단백질이나 핵산과 같은 사슬 모양의 생체 분자에서 진화적으로 관련이 없는 다양한 분자에서 나타나는 일반적인 3차원 구조'로 정의한다. 근데 여기서 다루는 모티브는 그거 말고 시퀀스 모티브... 대충 이런거다. 위 그림은 뭔 시퀀스인지는 모르겠으나 3, 4, 5번째 염기가 GAA가 압도적으로 많은 듯. 오늘은 대충 from Bio import motifs 이런거 부른다. Motif object 객체 생성하기 from Bio import motifs from Bio.Seq import Seq instances=[Seq("TGTCGTATCG"),Seq("GTAAATAGCC"),Seq("GTAAATAACC"),Seq("TCGCGGAGCC"),Seq("ATGTGCCA..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 Phylogenetic tree 그리기

걍 메가 쓰세여... 메가가 편해... 짱이야 메가... 계통수? 계통수... 그러니까 Phylogenetic tree는 이런거다. (...) 유전자나 단백질 시퀀스 분석(균이라면 16s rRNA라던가)을 통해 얘네가 얼마나 가까운지를 알아내게 되면 그걸 저런 식으로 그려서 나타내는 것. 저렇게 생물 종에 따라 그리는 경우도 있고, 특정 단백질의 homolog나 다른 생물종에서 같은 역할을 하는 단백질에 대해서 저걸 그리기도 한다. 와! 계통수! 그려보자! from Bio import Phylo tree = Phylo.read("/home/koreanraichu/Deinococcus.ph", "newick") 이걸 쓰면 그릴 수 있는데... 어디가 일로와 끝까지 듣고 가... 저것만 쓰면 그려는 주는데 ..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 PDB 탐방하기

PDB!! PDB!! 들어가기 전에 PDB는 protein data bank의 약어이기도 하고, 거기서 제공하는 파일 형식이기도 하다. 여기서는 그냥 PDB라고 하면 데이터뱅크, PDB '파일'이라고 하면 PDB 파일이다. 그리고 이새기들 쿡북쓰기 귀찮았는지 모듈 불러와야 하는 거 빼먹더라... 니들도 일하기 싫었구나 파일 읽기 쓰기도 있긴 한데 그건 생략. 읽는것도 하난가 두갠가 오류나서 안됐다. 이 섹션에서 읽을 파일은 1) mmCIF 2) MMTF 3) PDB파일 4) PQR 이다. mmCIF from Bio.PDB.MMCIFParser import MMCIFParser parser = MMCIFParser() structure = parser.get_structure("7f0l", "/home/k..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 Swiss-prot과 ExPASy 데이터베이스 탐방하기

근데 스위스프롯은 긁어와서 저장 안됨? 첫빠따는 파싱이 국룰이지 파싱 방법이 네 가지가 있는데 gZIP은 생략. gZIP 파일을 못 구했다. handle=open('/home/koreanraichu/Q63HQ2.txt') print(handle) import gzip handle = gzip.open("myswissprotfile.dat.gz", "rt") from urllib.request import urlopen url = "https://raw.githubusercontent.com/biopython/biopython/master/Tests/SwissProt/F2CXE6.txt" handle = urlopen(url) print(handle) from Bio import ExPASy handle ..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms

Biopython으로 Entrez database 탐방하기

이것이 그... BLAST 만든 NCBI에 있는 데이터베이스다. 미국답게 스케일 개크다. 들어가기 전에 보통 Biopython을 쓰거나 랜덤, 넘파이, 판다스를 쓸 때는 뭘 모셔와야 하는데, Entrez에 접속하는 모듈도 마찬가지다. 근데 바이오파이썬은 그걸 떠나서 모셔오는 게 너무 핵가족 스케일이여. 아무튼... 그래서 이번에는 from Bio import Entrez 이걸 필두로 뭘 많이 모셔올 예정인데... 아니 아직 아냐 마저 듣고 가. Entrez에 접속해서 뭘 하려면 저거 말고 필수적으로 입력해야 하는 게 있다. 1. 너님의 API 키 2. 너님의 메일 주소 3. 너님의 매개 변수 셋 중 하나는 반드시 입력해야 하고, 여기서는 이메일을 입력할건데 저거 뭐 이메일 제출한다고 CIA에서 당신 털러..

format_list_bulleted Coding/Python
· 2022. 8. 21.
textsms