이건 사실 데이터 사이언스쪽 용어긴 함. 근데 이 카테고리에 컴퓨터 사이언스 얘기도 쓰니까 걍 넘어가자.
그래서 이걸 왜 갑자기 쓰고 앉았냐... 기출문제 풀다가 틀렸음. 이메일이 비정형 데이터래...
이메일이 비정형 데이터라고요?
일단 내가 하도 얼척없어서 이메일이 비정형 데이터인 이유를 GPT와 클로드에게 물어봤다. 그랬더니
1. 사람 입장에서는 이메일을 쓸 때(특히 비즈니스 메일, 혹은 교수님께 문의 메일같은 거 보낼 때) 정해진 형식이나 양식, 써야 할 말과 쓰면 안될 말이 있고, 언어야 천차만별이겠다만 그게 어쨌든 문자니까 정형 아니야? 라고 생각할 수 있다. 나도 그랬거든... 근데 컴퓨터 입장에서는 본문 길이도 일정하지 않고, 패턴도 뭐가 뭔지 모르겠는 그냥 무언가다.
2. 생각해보자. 우리가 이메일 본문에 글자만 넣는가? 표도 들어가고 그림도 들어가고 동영상…은 용량때문에 안될거같은데 아마 짧은건 들어가겠지… 그리고 헤드헌터분들은 이메일 서명란에 가끔 그림(명함)이 들어가 있는 경우도 있다. 일단 본문에 들어가는 이미지부터 비정형 데이터이다.
3. 우리가 제일 많이 헷갈리는게 연패라는 단어의 의미인데, 이게 연속으로 이겼다는건지 연속으로 졌다는건지 우리도 아리까리할 때가 많다. 컴퓨터 입장에서 사람이 쓰는 말이 이렇다. 예를 들어서 같은 '네'여도 어떤 상황에 쓰느냐에 따라 의미가 다르기때문에 이 '네'가 뭔 의미인지 컴퓨터는 모른다.
4. 이메일에 첨부하는 파일은 형식 제한이 없다. 그러니까 xls파일도 되고 음악 파일도 되고 동영상 파일도 일단은 되는데 용량제한이 있을 뿐이고 이미지, PDF 등 온갖 것들을 다 보낼 수 있다.
이러한 이유로 이메일은 비정형 데이터라고 한다.
왜죠?
일단 왜인지를 알아보기 위해서는 정형 데이터와 비정형 데이터에 대해 알아봐야 한다.
정형 데이터와 비정형 데이터를 나누는 기준이 컴퓨터 기준이라고 보면 된다. 우리가 일반적으로 정형 데이터로 분류하는 엑셀 데이터나 DB테이블은 그 안에 들어가는 데이터에 정해진 형식이 있다. SQL 해보신 분들이라면 테이블 만들때 스키마에서 얘 데이터 타입이 날짜여 숫자여 타임스탬프여 텍스트여 몇자까지여 이런걸 정했을 것이다. 엑셀의 경우 문자로 치면 문자, 숫자로 치면 숫자가 알아서 입력되고 말이다. 그래서 컴퓨터가 아 이건 문자구나, 아 이건 숫자구나, 이건 날짜구나 하고 알 수 있다.
반면 비정형 데이터는 컴퓨터 입장에서 그래서 얘 형식이 뭔데요? 가 된다. 몬드리안의 그림 아시죠? 검은 선으로 그은 그림. 그게 우리가 볼 때는 추상화긴 하지만 아 선이 반듯하고 대충 이렇게 공간을 나눠서 칠했고 뭐 이런 게 있지만, 컴퓨터 입장에서는 그게 '정해진'게 아니라는 거다. 몬드리안이 캔버스에 칠한 물감은 사람 입장에서는 사각형이 있는 그림이지만 컴퓨터 입장에서는 스키마가 없는 그냥 이미지 파일인 것이다.
컴퓨터 입장에서 '정해진' 데이터는 스키마가 미리 설정되어 있다는 의미이다. 그러니까 1) 뭐가 있고 2) 얘가 어떤 데이터이고 3) 뭐 제약같은 거 붙어있는지 4) (DB라면) 필수로 입력받아야 하는 게 뭔지 이런 걸 딱딱 확인할 수 있는 걸 정해진 데이터라고 한다. 이 제약이라는 게 단순히 크기 제한에만 국한된 게 아니다. 가끔 회원 가입 필드에 뭐 입력하다가 삐끗해서 오타나고 그러면 올바른 형식이 아닙니다 뜨죠? 그런것도 포함이다.
그러니까 정형, 비정형 여부는 사람 입장이 아니라 컴퓨터 입장에서 봐야 하고, 이메일은 컴퓨터 입장에서 길이가 일정하지 않은데다가 자연어+이미지나 다른 비정형 데이터가 들어가 있을지도 모르는 그냥 비정형 그 잡채라는 얘기. 걍 그렇게 이해했음.
아, 참고로 반정형 데이터도 있다. HTML이나 JSON같은 건 구조가 정해져 있긴 하지만 그 내용물까지 정해진 건 아니기때문에 반정형이라고 하는데... 어? 그럼 FASTA파일도 반정형인가? 형식은 있지만 시퀀스 길이는 랜덤이잖음. NCBI 가서 사람 유전자 인트론까지 찾아보면 막 몇천만자 뜨고 그런다. 이런것도 컴퓨터가 바로 이해하기는 어렵기때문에 중간과정을 거쳐야 한다.
이모지는 정형? 비정형?
미리 말씀드리자면, 클로드랑 GPT한테 물어보긴 했는데 얘네가 가끔 뻘소리를 하기때문에 이게 긴지 아닌지는 전문가에게 따로 또 물어봐야 한다.
이모지가 뭐냐고? 👍<<얘가 이모지다. 본문에 글자처럼 쓸 수 있지만, 문자라기보단 뭔가 그림에 가깝다. 그리고 클로드와 GPT 둘 다 이모지를 비정형 데이터라고 했는데, 그 이유는 역시나 '이모지가 그림이라서'가 아니라, 이모지 역시 문맥에 따라 의미가 일정하지 않기 때문이다. 그니까 저 따봉을 썼는데 반어법일 수도 있잖음.
'Coding > 코딩잡담' 카테고리의 다른 글
| 걍 간단한걸로 만들걸… ㅡㅡ (0) | 2025.10.03 |
|---|---|
| 너란 SQL... (0) | 2025.09.30 |
| 코딩할때 많이 활용하는 사이트 모음 (0) | 2024.05.19 |
| 우분투 부팅디스크를 만들어보자 (0) | 2024.03.10 |
| 오라클 클라우드 김서버씨 종료... (0) | 2024.01.10 |