Coding/EDA

Google Play Store – Most Downloaded Android Apps

이거는 말 그대로 플레이스토어 앱 정보가 있는 데이터인데… 본인 아이폰 씁니다. 근데 왜 플레이스토어죠? 앱스토어 데이터가 없다. 참고로 전처리 할거 꽤 있으니까 잘 따라오십쇼.전처리가격 정상화가격 정상화는 투트랙으로 이뤄질건데, 일단 앱 가격에 붙어있는 $를 다 빼고 float으로 만들어줄거다. 그리고 결측값도 채워줄건데, 결측값이 있는 앱들은 다 무료 앱이라 0으로 때울거다. # 일단 저 달러부터 떼보시죠 playstore_df['Price']0 NaN1 NaN2 NaN3 NaN4 NaN ... 82 $4.9983 $3.4984 $6.9985 $4.9986 $3.99Name: Price, Length: 87, ..

Coding/EDA

얘! clinvar도 EDA가 된단다! (3)

생각보다 분량은 없지만 일단 태블로로 넘어와봤다. 전에도 얘기했지만 염색체가 25개(상+성+미토)라고 했잖아요? 이거 25개를 일일이 파이썬으로 그리면 코딩하는 나도 고달프고 읽는 당신들도 고달프다. 근데 태블로에는 대시보드라는 게 있어요. 그래서 시트 만들고 대시보드에서 필터걸고 염색체별로 볼 수 있음. 파워포인트 애니메이션마냥 스무th합니다 움직임도.대시보드+스토리보드 구성1페이지각 염색체별... 그니까 1번, 2번 이런 식으로 볼 수 있다. 염색체별 변이 TOP 25(변이가 가장 많은 상위 25개), 염색체 내 유전자의 CLNSIG 및 CLVNC 비율이 들어가있다. 그러니까 파이썬에서 일일이 다 할 필요 없이 여기다가 필터 걸어두고 저 표에 있는 염색체 번호를 누르면 무슨 염색체 내에서 변이가 가장..

Coding/EDA

얘! clinvar도 EDA가 된단다! (2)

그렇다. 대망의 2부가 돌아왔다. 이게 정보 확인하는거 생략하고도 분량 꽤 되니까 알아서 쫓아오십쇼. 다음편에 태블로 얘기만 할거라서 이번편에 다 끝낼거임.전처리쓸 칼럼만 추리기이게 칼럼이 되게 많은데 그걸 우리가 다 쓸 게 아니거든요? 그래서 쓸 것만 추린 다음에 데이터프레임을 재구성하고 그걸 csv파일로 보내야 합니다. 왜냐고? 그걸 보내야 태블로에서도 쓰죠.analysis_column = ['CHROM','POS','REF','ALT','CLNSIG','CLNVC','GENEINFO','CLNREVSTAT'] # 칼럼 뭐하는건지 위에 있어요1. CHROM: 염색체(몇 번 염색체인지)2. POS: 염색체 어디?3. REF, ALT: 비포&애프터 (REF에 있는 시퀀스가 ALT로 바뀐 변이다)4. CL..

Coding/EDA

얘! clinvar도 EDA가 된단다! (1)

이거 3부작입니다... 일단 분석을 하다 말았고, 태블로도 써야됨.clinvar는 유전적 변이와 인간의 표현형과의 관계에 대한 데이터를 수집하여 보관하는 데이터베이스이다. 이게 데이터가 어떻게 되어있냐면 몇번 염색체 어디에 뭐가 어떻게 뻑나면 어떤 변이더라~ 이런게 들어있는데, vcf파일입니다. 이거 분석하려면 여는것부터 골치아픔. 근데 이게 된다고요? 내가 vcf파일 상태로는 열기도 조작하기도 귀찮아서 아예 거기 안에 있는 내용을 데이터프레임화하고 csv로 만드는 코드를 짰음.VCF파일 내용물'1', '66926', '3385321', 'AG', 'A', '.', '.', 'ALLELEID=3544463;CLNDISDB=Human_Phenotype_Ontology:HP:0000547,MONDO:MOND..

Coding/EDA

Ramen ratings

https://www.kaggle.com/datasets/residentmario/ramen-ratings Ramen RatingsOver 2500 ramen ratingswww.kaggle.com그... 돈코츠 이런거 아니고 우리 먹는 라면임다.데이터 입수import kagglehub# Download latest versionpath = kagglehub.dataset_download("residentmario/ramen-ratings")print("Path to dataset files:", path)ramen_df = pd.read_csv(f'{path}/ramen-ratings.csv')우리는 지혜롭게 해결해야 합니다. 창고 원격으로 털어가라고 줬으면 걍 원격으로 털어갑시다.전처리결측값 처리ra..

Coding/EDA

Post-COVID Video Games Worldwide (2021-2025)

https://www.kaggle.com/datasets/otegbolamarvellous/post-covid-video-games-worldwide-2021-2025이거 했음.전처리결측값 처리meta_df_na = meta_df.query('User_Score.isna()').indexmeta_df.loc[meta_df_na]결측값 있는 칼럼이 저기말고 없는데, 확인해보니까 그 뭐라고 해야 되지? 리뷰가 너무 적어서 평점을 모을 수 없는? 그런 게임들이었음. 그런건 tbd라고 하는데 저기다가 그거 때려박으면 평점이 문자가 돼서 문제가 터져요. meta_df['User_Score'] = pd.to_numeric(meta_df['User_Score'], errors='coerce')그래서 이렇게만 함. 결..

Coding/EDA

또 ChEMBL을 털어보았다

오늘은 좀 다채롭습니다. 왜냐고? 뭐가 많이 들어서.그 우리 이제 할만큼 하셨으니까... 전처리는 다 안올릴게여... 내가 귀찮아서 이러는거 맞음. 내가 네이버 티스토리 미디움에 동시에 올리는데 그러면 복붙을 몇 번 하는겁니까...배경설명이번에 가져온 데이터베이스의 주제가 Kinase Inhibitor입니다. 이게 뭔데요? 를 설명하려면 kinase와 inhibitor를 다 설명해야 하는데… 아… Kinase는 뭐에 인산기를 붙이는 효소입니다. 인산기는 PO4(3-)고, 그걸 어디다가 붙이는 놈들이 다 카이네이스예요. 인산기를 어디다가 붙이는가는 효바효(효소 바이 효소)지만 어쨌든 인산기를 갖다 붙입니다. 보통 ATP에서 떼다가 붙이긴 합니다만. 자, 그럼 인히비터에 대한 얘기를 해봅시다. 우리 몸의 모..

Coding/EDA

캐글 EDA-마! 서퍼티파이! (2)

https://koreanraichu.tistory.com/839 캐글 EDA-마! 서퍼티파이!https://www.kaggle.com/datasets/serkantysz/550k-spotify-songs-audio-lyrics-and-genres/data 550K Spotify Songs: Audio, Lyrics & GenresEnhanced Music Dataset with Audio Features, Lyrics, Genres & Artist Metadatawww.kaggle.com참고로 본인은 스포티파koreanraichu.tistory.com우리 어제 전처리까지 하고 끝냈음… 기억하시죠? 하다하다 VScode가 뻗었다고…아티스트 분석여기는 뭐 없어서 분량도 짧다. # 1그룹에 다 몰렸구나.....

Coding/EDA

캐글 EDA-마! 서퍼티파이!

https://www.kaggle.com/datasets/serkantysz/550k-spotify-songs-audio-lyrics-and-genres/data 550K Spotify Songs: Audio, Lyrics & GenresEnhanced Music Dataset with Audio Features, Lyrics, Genres & Artist Metadatawww.kaggle.com참고로 본인은 스포티파이 계정이 있습니다. 왜냐고? 포슬립 사운드트랙이 거기 있으니까...import kagglehub# Download latest versionpath = kagglehub.dataset_download("serkantysz/550k-spotify-songs-audio-lyrics-and-ge..

Coding/EDA

그냥 해보는 ChEMBL EDA

이걸 근데 카테고리를 만들어야될지는 모르겠음… 이걸 매일 할 것 같지는 않고… 켐블서 특정 분자나 질환 치면 관련 화합물이 쭈루룩 나옵니다. 그거갖고 한거임.거 정보좀 봅시다df.shape()(63, 29)켐블 데이터 특: 칼럼 엄청 많음 df.info()RangeIndex: 63 entries, 0 to 62Data columns (total 29 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ChEMBL ID 63 non-null object 1 Name 62 non-null object ..

Coding/EDA

캐글 EDA-Video game sales

https://www.kaggle.com/datasets/gregorut/videogamesales Video Game SalesAnalyze sales data from more than 16,500 games.www.kaggle.com본인은 겜덕후다. 자타공인 겜덕후이고 모바일 피씨 콘솔 할 것 없이 어지간한 게임은 다 했으며 가끔 무지하게 주관적인 리뷰를 올리기도 하고 집에는 각종 노랑뚱띵이와 굿즈들이 가득한. 그런데 비디오 게임 판매량 데이터??? 야이씨 이건 겜덕후로써 못참지! 해서 제미나이를 부려먹었다.모듈import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# 그래프 기본 테마 설정sns..

홈으로 돌아가기

검색 결과

"search" 검색 결과입니다.