그래프 알아보기-산점도(스캐터 플롯)

반응형

산점도가 뭐냐… 점은 점이다. 그리고 산은 散(흩어질 산)… 그러니까 한자를 풀면 흩어진 점 그림정도가 되겠다. 구글에서 스캐터 플롯 찾아보면 뭔 점들이 직교좌표계 위에 흩어져있는 걸 볼 수 있음.


산점도는 언제 쓸까

산점도 얘기하면서 직교좌표계 위에 흩어져 있다고 했는데, 일단 씨본의 스캐터플롯을 보자. seaborn.scatterplot을 보면 매개변수 중에 x랑 y가 있죠? 꺾은선이나 막대 이런거는 데이터프레임 주면 씨본이 알아서 이건가 하고 그려주기도 하지만, 산점도의 경우 x랑 y를 다 입력해줘야 한다. 둘 중 한쪽만 입력하면 씨본이 이런 씨본 이게뭐여 하면서 에러를 퉤 한다.

 

그 예전에 내가 바이러스 MSA 하면서 회색 안개같은거 그려진거 올렸었죠? 그게 스피어만 상관분석 결과를 산점도로 그린거다. 그러니까 거기 있는 회색 안개가 다 점들임. 근데 그렇게 해서 뭘 보는데요? 내가 상관분석이라고 했잖아요… 상관분석은 얘랑 쟤랑 상관관계가 있는지, 있다면 얼마나 강한지를 보는거다. 거기서 좌상-우하로 나왔으니 음의 상관관계고, rho가 -0.95정도 나왔으니까 급나 강한 음의 상관관계인거다.

 

켐블 데이터갖고 그렸던 것들 중에는 HBA, HBD로 그린것도 있는데, 이거는 상관관계를 본다기보다는 분포를 보는 것에 가깝다. 왜 그렇게까지 하냐고? 산점도 그린 다음에 X, Y 둘 다 5보다 작은 애들 있으면 RO5 위반 안 하는 애들 분포가 이렇구나 하고 보는거다. HBA가 하나일때 HBD가 몇 개인 애들이 있는지 뭐 그런거다.

 

추세선

이 글 읽는 분들 중에 생물학 전공 계십니까? 생물학 전공이고 실험수업 들었다면 한번쯤은 들어봤거나 직접 해봤을 실험 중에 브래드포드 어세이(Bradford assay)라는 게 있다. 뭔지 아시죠? BSA 녹여서 OD 재갖고 뭐 곡선 그리잖아요. 그게 단백질의 농도를 보기 위한 실험인데, 그 실험에서 임의의 단백질 농도를 유추하기 위해서 standard curve라는 게 필요하다. 그리고 그것때문에 BSA 녹여서 다는거고. 근데 그 standard curve를 그릴 때는 엑셀로 그리니까 꺾은선그래프로 그리거든요? 그리고나서 추세선이라는 걸 그립니다. 그래갖고 그 식에 대입하면 미지 시약의 단백질 농도가 나오는거임.

 

근데 왜 선을 그려요? 그 작대기를 그려서 이 데이터의 추세를 보는겁니다. 그래서 추세선 그리고 R^2까지 내놓는데 그게 1에 가까울수록 좋은거고 반대로 1과 멀어지면 실험 시투더망인거다. 깊게 들어가자면 골아픈데 아무튼 그래요...

 

참고로 에미나이 피셜로는 이상치 찾을때도 쓴다는데 이상치 찾으실거면 걍 빡스플롯 그려보십쇼.

반응형