Python (259)


Faker

혹시 T1의 살아있는 전설이자 불사대마왕인 대상혁님을 찾아 오셨다면 일단 기습숭배 후 뒤로가기를 눌러주시길 바랍니다. 여기서 말하는 페이커는 파이썬 라이브러리임. 파이썬 많이컸네 대상혁님 존함을 라이브러리로 쓰고 이게 맞음? 페이커는 뭐 하는 라이브러리냐… 왜 우리 가끔 플랫폼 서비스 예시같은 거 들때 홍길동 나오죠? 영미권에서는 John Doe(남성) 혹은 Jane Doe(여성)를 많이 사용하는데, 요런 더미데이터를 만들어주는 라이브러리이다.from faker import Fakerfake = Faker()print(fake.name())이렇게 하면 가명이 나오고, 이런식으로 이메일이나 전화번호같은 것도 만들 수 있다. 다른거랑 조합해서 인스타그램 아이디를 임의로 만들 수도 있고, IPv4도 만들더라고..

플랫폼/데이터 엔지니어링 과제 풀이 (도커가 뭐길래)

플랫폼/데이터 엔지니어링 과제 풀이 (도커가 뭐길래)

저번편 3줄요약1. 마! OOP다!2. 마! 이벤트 찍어낸다!3. 마! 후행 이벤트도 찍어낸다!도커가 뭐길래일단 본인은 도커가 뭔지는 모름. 근데 써봤습니다. 프롤로그에서 SQLD 준비할 때 리눅스에서 오라클 썼다고 했는데, 리눅스에서 오라클 돌리려면 도커를 설치해야 합니다. 그리고 도커는 컨테이너를 실행하고 뭘 해야 하기 때문에 컨테이너 키고 오라클 키고 으아악 오타 멈춰 가라 지에딧! 하면서 쿼리를 짰어요… 도커는 컨테이너를 활용하여 소프트웨어를 배포 및 구동하기 위한 오픈 소스 플랫폼입니다. 내가 맞게 이해한건지는 모르겠는데, 오라클을 도커에서 돌릴때 도커 컨테이너를 먼저 켰던것도 오라클이 들어있는 컨테이너를 열어서 적재된 오라클(과 관련된 모든 것들)을 다 꺼내는 절차를 거쳐야 하는거고, 여기에 ..

플랫폼/데이터 엔지니어링 과제 풀이 (구현)

플랫폼/데이터 엔지니어링 과제 풀이 (구현)

저번 글 3줄요약1. 이렇게 된 이상 최소한의 설치로 간다2. 이렇게 된 이상 화합물 DB로 간다3. 이렇게 된 이상 VScode를 켜자저번 시간에는 이벤트를 만들기 위한 구상을 했고... 이번에는 그래서 어떻게 구현했는지를 얘기할거다. 도커는... 다음편에 얘기합시다... 제가 문외한이라고 했잖아요? 심지어 도커 컨테이너 만들줄도 모름… 이걸 혼자서 한 건 아니고, 일부는 구글 검색하고 일부는 채찍피티 부려먹었다. 제미나이는 사고모드 안 하면 에미나이 되더라고…테이블 생성import sqlite3 # SQLiteconn = sqlite3.connect("events.db")cursor = conn.cursor()전에도 얘기했지만 SQLite는 파이썬 깔 때 알아서 따라오는 친구라 설치를 할 필요가 없습..

플랫폼/데이터 엔지니어링 과제 풀이 (Prologue-문제 그리고 구상)

플랫폼/데이터 엔지니어링 과제 풀이 (Prologue-문제 그리고 구상)

일단 데이터 관련해서도 직무가 크게 데이터 분석이랑 엔지니어링 있습니다. 둘이 하는 일이 아예 다른데 분석은 주어진 데이터를 지지고 볶아서 어떤 인사이트를 내는거고 데이터 엔지니어링은 데이터 분석, AI 모델링, 의사결정에 필요한 데이터를 안정적으로 수집, 저장, 처리, 변환하는 시스템(파이프라인)을 설계 및 구축하는거임. 그리고 내가 이력서 준비한거나 부트캠프 들었던건 다 분석쪽인데... 오 여기 근무조건 개꿀 이러고 이력서랑 포폴 냈던 직무가 엔지니어링인겁니다. 그러니까 데이터 분석 이력서랑 데이터 분석 포폴로 데이터 엔지니어링 직무에 냈는데 서류합격을 해서 과제를 받고 오늘 새벽 3시까지 해서 제출 완료한겁니다… 예… 둘이 하는 일이 아예 다르잖아요? 해보니까 분석이랑 엔지니어링이랑 둘이 공통점은..

clinVar EDA를 Polars로 해보자-Appendix. 각 변이별 일짱

clinVar EDA를 Polars로 해보자-Appendix. 각 변이별 일짱

그 전에 clinVar 하면서 태블로 대시보드 만들었죠? 거기서 염색체별로 Top 25 만들고 그랬는데… 그거를 이제 CLNVC(변이)별로 뭐가 제일 많은지 보자는 얘기다. SNV는 저번 글에 나와있었기 때문에 생략.들어가기 전에-이게 뭔 변이임?이 블로그에 들어오시는 분들중에는 생물정보학을 하고 있거나, 나처럼 업으로 삼지는 않았지만 거기에 관심이 있거나, 생물학 전공인 경우도 있겠지만 어때요? 여기 들어와서 clinVar라는 걸 처음 보신 분도 계시지 않습니까? 그래요, 그겁니다. EDA 따라오면서도 이게 뭐여 해서 뭔가 찾아보니 보이는 것은 꼬부랑글씨였으며… 물론 유전자에 문제가 생긴다고 다 질병이 되는 건 아니고, 피부 색이나 눈 색, 머리카락 색같이 사람의 형질이 달라지는 경우도 있긴 있습니다...

clinVar EDA를 Polars로 해보자-Pathogenic EDA

clinVar EDA를 Polars로 해보자-Pathogenic EDA

지난 이야기: 아 염색체별로 CLNSIG 비중이 이렇구나Pathogenic 일로와봐 pathogenic_df = clinvar_df.filter(pl.col('CLNSIG_Group') == 'Pathogenic')이렇게 하면 됩니다.CLNVC별로 보기clnvc_grp = clinvar_df.group_by('CLNVC').agg( pl.col('CLNSIG').count().alias("Total")).sort('Total', descending=True)묶어드렸습니다^^ fig = go.Figure()fig.add_trace( go.Bar(x = clnvc_grp['CLNVC'], y = clnvc_grp['Total'], marker_color = px.colors.sequential...

clinVar EDA를 Polars로 해보자

clinVar EDA를 Polars로 해보자

전에 깔짝깔짝 판다스랑 비교했던 폴라스로… EDA가 될지 해봤다. 그래서 전에 했던거랑 내용은 같은데, 비교하는 툴이 달라지는겁니다. 이거 아마 포폴에도 폴라스 플롯틀리로 올라갈듯함. 근데 새로 나온건 알겠어, 이걸 써봐야 해? 네카라쿠배의 배에서 쓴답니다. 전처리는 이전 과정이랑 비슷하니까 그룹바이랑 필터 위주로 ㄱㄱ합시다.clinvar_df = pl.read_csv('data/clinvar_20260404.csv', infer_schema_length=0)얘는 판다스에서 붙는 메모리 관련 옵션이 아예 안 붙는다. 근데 뭔가 붙어있지 않냐고? 걍 열면 Original error: invalid primitive value found during CSV parsing 에러 뜨니까 걍 다 읽고 판별하셈 한..

Polars 데이터프레임도 시각화가 되나요?

Polars 데이터프레임도 시각화가 되나요?

보통 판다스 데이터프레임 불러와서 지지고 볶고 뭐 해요? 그래프 그리죠. 표로 정리해서 보여주는것보다 그래프 딱 만들어서 도표 딱 보여주면 기깔나쟎아요? 그겁니다. 그리고 우리가 제일 많이 쓰는 맷플롭이나 씨본(+Plotly)에서도 폴라스를 받아줄지 궁금해서 해봤습니다. 이번에 써 볼 데이터프레임은 파일 불러온거 하나(켐플) 있고, 직접 만든거 하나 있습니다.import polars as plimport matplotlib.pyplot as pltimport seaborn as snsimport plotly.express as px # 프로젝트 이런거 아니니까 걍 얘 부를게여위에서부터 순서대로 폴라스, Matplotlib, 씨본, Plotly임다. 불러오십쇼. pyarrow는 불러올 필요 없고 설치만 하..

Polars를 써보자

엥? 폴라스? 그게 뭐예요오? Polars is an open-source library for data manipulation, known for being one of the fastest data processing solutions on a single machine. It features a well-structured, typed API that is both expressive and easy to use. 뭐라는겨 싶겠지만 폴라스는 판다스 비슷한 일을 한다. 데이터프레임을 만들거나 불러오거나 하는 모든 일들이 가능한데 일단 읽는 속도가 판다스보다 20배 빨랐음. 뭐 메모리 어쩌고 하던데 나는 컴퓨터 아키텍쳐까지는 잘 모르니까 패스하고... 판다스랑 좀 다른 부분이 있다는 건 유념하십쇼.im..

Medical Cost Personal Datasets

이거어어어어는... 돌리는건 하나 돌렸습니다. 그럼 왜함? 그 옵튜나인가 뭔가 하는 거 써보려고 했음.Optuna파이썬 라이브러리인데, 하이퍼파라미터 튜닝할때 쓴다. 모델 학습 전 사용자가 직접 설정하는 외부 구성 변수를 하이퍼파라미터라고 하는데, 이걸 사람이 수동으로 일일이 조정해가면서 어느 조건에서 내 모델을 뽕을 잘 뽑을지를 고민...하면서 일일이 하다 보면 할 것도 많고 파라미터 하나하나 일일이 손대가면서 찾기도 힘들잖아요? 그 노가다를 알아서 해주는게 옵튜나입니다. 모델 바이 모델이라 함수에 집어넣는 게 다른데, 아무튼 이거 이거 이거 해줘 하면 지 알아서 음 이렇군 하면서 오케이 가릿 이걸로 진행시켜 한다. 모델에 따라서는 시간이 좀 걸리기도 합니다.안하면 섭한 전처리자녀 수 범주화# 자녀 ..

Red Wine Quality

오늘은 회귀입니다. …회기는 그 경희대 있는 지하철역이예요 선생님들.주성분분석머고 오늘은 ML 안함? 아니 할건데… 저게 회귀분석 할거라고 했죠? 저 데이터 칼럼이 12개인데 하나빼고 다 독립변수니까 지금 독립변수가 11개거든요. 그거 그대로 때려박으면 다중공선성 터질수도 있으니까 압축할 수 있는건 압축하고 가자 이겁니다. 11개 언제 넣었다 뺐다 할거임? wine_x = wine.copy()X = wine_x.drop('quality', axis=1)y = wine['quality']# 1. 스케일링 (PCA 전 필수!)scaler = StandardScaler()X_scaled = scaler.fit_transform(X)# 2. PCA 객체 생성 (일단 모든 성분을 다 뽑아봅니다)pca = PCA(..

Palmer Archipelago (Antarctica) penguin data

예… 그… 펭귄 데이터입니다. 그건 아는데 이걸 왜 꺼냈냐… 분류 할거라서 꺼냈습니다. 예. 아니 진짜 할거임.전처리 하기 전에...그냥 EDA였으면 범주화하고 결측값 확인하고 채우거나 날리거나 했을텐데, 이번에는 그렇게 하고 땡 하면 안된다. 왜냐… 무작정 아무 칼럼이나 학습하는데 썼다간 모델 성능이 떨어지거든요. 그리고 범주형 칼럼중에 학습에 쓸 칼럼은 인코딩도 해 줘야 한다. 학습에 쓸 수 없는 칼럼 날리기내 일일이 올리기 귀찮아서 올리지는 않는다만... 분석하기 전에 항상 .head()랑 .column 써서 뭐 있는지 보고 가죠? shape는 잘 안씀... 아무튼. 거기서 칼럼들을 확인해보고 우선 날릴 것부터 정할거다.# Copypenguin_drop = penguin.copy()# 하고 날려날려..