Statics / 섀넌 엔트로피.md

섀넌 엔트로피

조회

그 열역학 엔트로피를 아십니까? '평형 상태로의 이동 정도' 또는 '유효하게 이용할 수 있는 에너지의 감소 정도'나 '무효 에너지의 증가 정도'를 의미하며, 제 2 법칙에 의하면 항상 증가만 하는 그거 말이다. 섀넌 엔트로피도 그건데, 이제 그거는 '정보를 내보내는 근원의 불확실도를 나타내는 양' 또는 '정보량의 기대치'를 의미한다. 음… 쉽게 얘기하자면 엔트로피가 무질서도잖아요? 정보량의 무질서도 뭐 그런거라고 생각하시면 된다. 나도 뭔지 잘 모름.

 

섀넌 엔트로피 공식

스읍… 이게 정보 관련된거긴 한데 나도 잘 모르것다… 일단 내 이해한데까지는 설명해보겠음. 아무튼 저게 뭔지를 설명하기 전에 정보량이 뭔지를 먼저 이해해야 한다. 내일 해가 동쪽에서 뜨는거랑, 내일 출근길에 무심코 샀던 로또가 주말에 1등 되는거랑 어느쪽이 정보량이 많게요? 후자임다. 해는 별 일 없으면 매일 뜨지만, 로또는 어우 이거는 꿈에 돌아가신 조상님이 똥묻은 돼지를 안고 나와야 될까말까여…

 

그럼 이렇게 얘기해봅시다. 동전을 던져서 앞면이 나올 확률은 1/2죠? 뭐 99% 앞면이 나오게 조작한 동전이 아니라면 말이다. 그리고 주사위를 던져서 1의 눈이 나올 확률은 1/6이다. 이것도 뭐 도박묵시록 카이지에 나오는 속임수 주사위가 아니라면 말이지... 이 때, 주사위를 던져서 1의 눈이 나올 확률이 정보량이 더 많다고 한다.

 

아니 근데 본인도 모르는 걸 왜 꾸역꾸역 설명까지 하십니까? 이걸 MSA 하면서 해서요. 예? 그게 뭔데요? 멀티플 시퀀스 얼라인먼트(Muitiple Sequence Alignment)다. 지금까지 여기 올린게 라이노바이러스, 인플루엔자, 한타바이러스 세개였는데 그 세개에 다 MSA 결과랑 섀넌 엔트로피, 그리고 계통수가 들어가 있다.


근데 그게 뭔데 왜 여기서 튀어나옵니까? 그게 DNA나 RNA, 단백질 서열을 정렬하는겁니다. 근데 이제 여러개를.

그게 하면… 아니 파이썬으로 돌린건 저렇게는 안 나옴. 저거는 따로 전용 소프트웨어에서 돌린거고 파이썬에서 보는거는 저 때깔을 빼야 합니다. 한타바이러스같은 경우 서울, 한탄, 푸말라 이런 식으로 발생 지역에 따라 다른데 갸들도 공통분모가 있을 거 아니예요. 어느 지역 바이러스가 어디랑 얼마나 같더라… 이런 걸 보는거다. 바이러스를 예시로 들어서 그렇지, 모든 생물종이 공통으로 갖고 있는 단백질로 MSA 돌려서 종간에 보존되는 시퀀스(구역)가 있나를 볼 수도 있다.

 

그럼 이제 섀넌 엔트로피와 통계분석이 왜 들어갔는지를 얘기해봅시다... 그 위에서 내가 확률이 낮을수록 정보량이 많다고 했죠? 정보량이 많을수록 섀넌 엔트로피가 더 높다. 어떤 일이 일어날 확률이 낮을수록 무질서도가 쭉쭉 올라간다고 보시면 되는데... 아니 그게 바이러스랑 뭔 상관인데요?

 

님들이 알고 있는 바이러스의 특징이 뭔가요? 일단 숙주가 없으면 증식이고 나바리고 못하고. 그리고! 그리고!! 변이가 개쩔어요. 얘는 무슨 3보 1변이야… 전염병 주식회사에서도 바이러스는 변이가 정말 개쩔어줍니다. 숨만 쉬면 변이야 숨만 쉬면… 근데 얘네가 앞뒤 안 가리고 마구잡이로 변이하는 게 아니라, 변이하는 부분이 따로 있어요. 보통은 꺾은선그래프같은 걸로 그리기도 하고 내가 그린건 뭔 삐죽삐죽 잔디인형같은 게 있는데, 그 피크가 높을수록 엔트로피가 높다는 얘기가 됩니다. 그게 뭘 의미하냐면 그 구역은 변이가 자주 일어난다, 이 얘기예요. 내가 거기가 뭐 하는 구역인지는 모르지만 아마도 면역 회피나 증식 관련된 구역일거임.

 

그럼 피크가 상대적으로 낮은 구역도 있나요? 있습니다. 바이러스가 변이율이 높은 건 맞는데, 걔도 앞뒤 안 가리고 변이하면 X됩니다. 아니 생각해봐요. 막 변이했다가 캡시드 하나 안 만들어져서 게놈 패킹이 제대로 안 되면 나갈 수 있겠음? 나가서 증식해야되는데 비상사태예요 이거. 막 변이했다가 게놈 합성에 문제 생기면? 그대로 나가리 되는겁니다 그거. 그런 이유로 변이율이 쩔어줌에도 보존되는 구역이 있고, 끊임없이 변이하는 구역이 있다는 걸 섀넌 엔트로피로 확인한거다. 관련된 통계분석도 귀무가설 보시면 'Hantavirus S segment의 변이는 무작위적으로 발생하며, 특정 위치에 선호적으로 집중되지 않는다.'잖아요.


그래서 최근에 뭣때문에 개고생을 했느냐... 저 MSA 사진에 하이픈이 갭입니다. 저게 쭉 이어진 게 아니고 자리 맞출라고 벌려놨다 이 얘기임. 제미나이 이 에미나이가 처음에 짜 준 코드가 갭을 그대로 엔트로피에 계산해버려서 로직 수정한다고 피똥싼겁니다... 그걸 한타랑 인플루엔자에도 다 반영하느라고 진짜 피똥쌌음...

 

근데 이 글이 왜 통계 카테고리에 있냐고요? 네이버 블로그는 수학 카테고리가 따로 있는데 여기는 그 카테고리가 없습니다. 

그니까 봐줘잉. 

댓글

홈으로 돌아가기

검색 결과

"search" 검색 결과입니다.