Coding/Python (114)


Faker

혹시 T1의 살아있는 전설이자 불사대마왕인 대상혁님을 찾아 오셨다면 일단 기습숭배 후 뒤로가기를 눌러주시길 바랍니다. 여기서 말하는 페이커는 파이썬 라이브러리임. 파이썬 많이컸네 대상혁님 존함을 라이브러리로 쓰고 이게 맞음? 페이커는 뭐 하는 라이브러리냐… 왜 우리 가끔 플랫폼 서비스 예시같은 거 들때 홍길동 나오죠? 영미권에서는 John Doe(남성) 혹은 Jane Doe(여성)를 많이 사용하는데, 요런 더미데이터를 만들어주는 라이브러리이다.from faker import Fakerfake = Faker()print(fake.name())이렇게 하면 가명이 나오고, 이런식으로 이메일이나 전화번호같은 것도 만들 수 있다. 다른거랑 조합해서 인스타그램 아이디를 임의로 만들 수도 있고, IPv4도 만들더라고..

플랫폼/데이터 엔지니어링 과제 풀이 (도커가 뭐길래)

플랫폼/데이터 엔지니어링 과제 풀이 (도커가 뭐길래)

저번편 3줄요약1. 마! OOP다!2. 마! 이벤트 찍어낸다!3. 마! 후행 이벤트도 찍어낸다!도커가 뭐길래일단 본인은 도커가 뭔지는 모름. 근데 써봤습니다. 프롤로그에서 SQLD 준비할 때 리눅스에서 오라클 썼다고 했는데, 리눅스에서 오라클 돌리려면 도커를 설치해야 합니다. 그리고 도커는 컨테이너를 실행하고 뭘 해야 하기 때문에 컨테이너 키고 오라클 키고 으아악 오타 멈춰 가라 지에딧! 하면서 쿼리를 짰어요… 도커는 컨테이너를 활용하여 소프트웨어를 배포 및 구동하기 위한 오픈 소스 플랫폼입니다. 내가 맞게 이해한건지는 모르겠는데, 오라클을 도커에서 돌릴때 도커 컨테이너를 먼저 켰던것도 오라클이 들어있는 컨테이너를 열어서 적재된 오라클(과 관련된 모든 것들)을 다 꺼내는 절차를 거쳐야 하는거고, 여기에 ..

플랫폼/데이터 엔지니어링 과제 풀이 (구현)

플랫폼/데이터 엔지니어링 과제 풀이 (구현)

저번 글 3줄요약1. 이렇게 된 이상 최소한의 설치로 간다2. 이렇게 된 이상 화합물 DB로 간다3. 이렇게 된 이상 VScode를 켜자저번 시간에는 이벤트를 만들기 위한 구상을 했고... 이번에는 그래서 어떻게 구현했는지를 얘기할거다. 도커는... 다음편에 얘기합시다... 제가 문외한이라고 했잖아요? 심지어 도커 컨테이너 만들줄도 모름… 이걸 혼자서 한 건 아니고, 일부는 구글 검색하고 일부는 채찍피티 부려먹었다. 제미나이는 사고모드 안 하면 에미나이 되더라고…테이블 생성import sqlite3 # SQLiteconn = sqlite3.connect("events.db")cursor = conn.cursor()전에도 얘기했지만 SQLite는 파이썬 깔 때 알아서 따라오는 친구라 설치를 할 필요가 없습..

플랫폼/데이터 엔지니어링 과제 풀이 (Prologue-문제 그리고 구상)

플랫폼/데이터 엔지니어링 과제 풀이 (Prologue-문제 그리고 구상)

일단 데이터 관련해서도 직무가 크게 데이터 분석이랑 엔지니어링 있습니다. 둘이 하는 일이 아예 다른데 분석은 주어진 데이터를 지지고 볶아서 어떤 인사이트를 내는거고 데이터 엔지니어링은 데이터 분석, AI 모델링, 의사결정에 필요한 데이터를 안정적으로 수집, 저장, 처리, 변환하는 시스템(파이프라인)을 설계 및 구축하는거임. 그리고 내가 이력서 준비한거나 부트캠프 들었던건 다 분석쪽인데... 오 여기 근무조건 개꿀 이러고 이력서랑 포폴 냈던 직무가 엔지니어링인겁니다. 그러니까 데이터 분석 이력서랑 데이터 분석 포폴로 데이터 엔지니어링 직무에 냈는데 서류합격을 해서 과제를 받고 오늘 새벽 3시까지 해서 제출 완료한겁니다… 예… 둘이 하는 일이 아예 다르잖아요? 해보니까 분석이랑 엔지니어링이랑 둘이 공통점은..

Polars 데이터프레임도 시각화가 되나요?

Polars 데이터프레임도 시각화가 되나요?

보통 판다스 데이터프레임 불러와서 지지고 볶고 뭐 해요? 그래프 그리죠. 표로 정리해서 보여주는것보다 그래프 딱 만들어서 도표 딱 보여주면 기깔나쟎아요? 그겁니다. 그리고 우리가 제일 많이 쓰는 맷플롭이나 씨본(+Plotly)에서도 폴라스를 받아줄지 궁금해서 해봤습니다. 이번에 써 볼 데이터프레임은 파일 불러온거 하나(켐플) 있고, 직접 만든거 하나 있습니다.import polars as plimport matplotlib.pyplot as pltimport seaborn as snsimport plotly.express as px # 프로젝트 이런거 아니니까 걍 얘 부를게여위에서부터 순서대로 폴라스, Matplotlib, 씨본, Plotly임다. 불러오십쇼. pyarrow는 불러올 필요 없고 설치만 하..

Polars를 써보자

엥? 폴라스? 그게 뭐예요오? Polars is an open-source library for data manipulation, known for being one of the fastest data processing solutions on a single machine. It features a well-structured, typed API that is both expressive and easy to use. 뭐라는겨 싶겠지만 폴라스는 판다스 비슷한 일을 한다. 데이터프레임을 만들거나 불러오거나 하는 모든 일들이 가능한데 일단 읽는 속도가 판다스보다 20배 빨랐음. 뭐 메모리 어쩌고 하던데 나는 컴퓨터 아키텍쳐까지는 잘 모르니까 패스하고... 판다스랑 좀 다른 부분이 있다는 건 유념하십쇼.im..

MSA에 군집분석을 끼얹어보세요!

있는것도 복잡한데 저걸 왜 넣냐고요? 라이노바이러스는 좀 덜한데, 이게 기본적으로 300개씩 찾고 그렇다보니 계통수가 무지하게 길어집니다. 이러면 이걸 넣는 나도 고통이고 읽는 사람도 고통이예요. 거의 뭔 스크롤이여 스크롤. 근데 계층적 군집분석 결과가 덴드로그램인데 이거 목 꺾고 옆으로 보면 계통수거든요? 그리고 어쨌든 묶은거니까 이거 넣어보자 해서 넣었죠.실루엣 계수이게 원래는 군집 내에서의 응집도와 다른 군집간의 거리를 비교해서 군집분석이 잘 됐는지, 안 됐는지를 평가하는 지표인데 k-means나 k-medoid에서 군집 개수 나눌때도 쓴다. 그 개수가 돌려돌려 돌림판으로 나오는게 아닙니다… 그럼 계통수는 버리는건가요? 아니, 그거 보고 대충 개수 나눌수도 있다. 이거 봐봐요 이걸로 뭘 어떻게 정할..

M1V1 = M2V2

카테고리를 보고 이게 여기가 맞나 싶으셨죠? 맞습니다. 파이썬 코딩한거임.그 공식은 뭔지 구글에 찾아보면 나오는데, 뭐 희석할때 농도 얼마 맞추려면 얼마나 넣어야되나 구할 때 쓰는 공식입니다. 근데 계산할때 단위는 맞추셔야 됩니다. 한쪽은 리터인데 한쪽은 밀리리터면 계산 뻑나요. # M1V1 = M2V2# 이거 되게 간단한 희석 농도 구하는 공식입니다. # 예를 들어서 100mM 염화나트륨 용액 xml를 넣어서 50mM 염화나트륨 100ml를 만들어야 해요. 그러면 100 * x = 50 * 100이 되거든요. # 그러면 100x = 5000이니까 100으로 나누면 x = 50이 됩니다. # 예시를 몰(M)로 들어서 글치 스톡 솔루션(농축액)에도 적용되는 공식입니다 이거. # 참고로 단위 통일하셔야 합니..

코로나바이러스 MSA

나도 이걸 4번까지 하게 될 줄은 몰랐음…개요여러분들 다들 아시죠? 코로나19가 우리를 어떻게 변화시켰는지... 저는 자가격리도 해보고 걸려도 봤습니다. 자가격리때 다들 헐 어카냐 했는데… 저는 태생이 집순이라 1도 데미지 없었고요.. 격리소가 을지로 근처라 원격으로 명동성당 루기아 줘팼습니다. 창고는 언제나 열려있소# 쿼리 조건: SARS-CoV-2 (코로나19), Spike 단백질 위주로 털어보기# 2025년 최신 데이터 + 사람 숙주 조건query = "SARS-CoV-2 AND S[Gene Name] AND 2025[PDAT] AND Homo sapiens[Host]"# 1. ID 리스트 가져오기handle = Entrez.esearch(db="nucleotide", term=query, retm..

라이노바이러스 유전자로 MSA를 해보았다

얘는 스케일이 좀 다운됐음... 왜냐고요? 게놈이 7500bp거든요. 이걸 인플루엔자나 한타때처럼 2~300개 돌린다? 켜놓고 자고 일어나야됩니다. 아니 리눅스로 하셨어요? 걔로 하면 중간에 뻗음. 맥북으로 돌린건데도 이정돕니다.쟤는 또 뭐 하는 애임?여러분 감기랑 독감이랑 다릅니다. 단순히 증상이 다른게 아니라 원인 병원체가 달라요. 독감은 인플루엔자가 원인이고 감기는 라이노바이러스라는 놈이 원인이거든요? 다른 바이러스도 있다만. 그거 아십니까? 감기에는 약이 없음. 아니 저희 병원가면 약 주는데요? 그건 '증상을 완화시키는' 약이지 감기 바이러스를 조지는 약이 아닙니다. 아니 그럼 감기약이라고 하면 안되는거 아닌가요? 진정하십쇼. 감기 바이러스는 스포닝풀에서 저글링 뽑아내는것처럼 캐많아요. 그걸 일일..

식물 데이터도 분석이 되나요?

결론부터 말하자면 분석은 된다. 되는데 데이터 리소스를 NCBI로 하는 건 비추다. 왜냐고? 그 이유는 올리면서 말해드림..def plot_lht_family_tree(alignment_file): align = AlignIO.read(alignment_file, "fasta") calculator = DistanceCalculator('identity') constructor = DistanceTreeConstructor(calculator, 'nj') tree = constructor.build_tree(align) fig = plt.figure(figsize=(15, 8)) ax = fig.add_subplot(1, 1, 1) plt.title("Arab..

매우 주관적인 씨본 컬러맵 고르는 방법

https://seaborn.pydata.org/tutorial/color_palettes.html Choosing color palettes — seaborn 0.13.2 documentationChoosing color palettes Seaborn makes it easy to use colors that are well-suited to the characteristics of your data and your visualization goals. This chapter discusses both the general principles that should guide your choices and the tools in seaborn thseaborn.pydata.org여기 들어가보면 아주 온갖..