카테고리 없음

Messy Data - 지저분한 데이터

torukmakto 2023. 7. 14. 20:52

Tidy Data와 반대되는 Messy Data (지저분한 데이터)에 대해 알아 봅니다.

 

역시나 Hadley Wickham (해들리 위컴) 교수님의 'Tidy Data' 논문에는

Messy Datasets에 대해 다음과 같이 설명하고 있습니다.

 

1. Column headers are values, not variable names.

    >> 열(column) 머리글은 변수 명이 아닌, 값으로 되어있음.

 

'column'이 값(value)으로 되어 있음

 

2. Multiple variables are stored in one column.

    >> 여러 변수가 하나의 열(column)에 저장 되어있음.

 

'column' 컬럼에 '성별' 과 '나이' 가 혼재되어 있음

 

3. Variables are stored in both rows and columns.

    >> 변수가 행(row)과 열(column) 모두에 저장 되어있음.

 

'tmax'(최고온도), 'tmin'(최저온도) - 행(row), 'd1'(첫째날), 'd2'(둘째날) - 열(column)

 

4. Multiple types of observational units are stored in the same table.

    >>  여러 유형의 관측단위가 같은 테이블에 저장 되어있음.

 

'track'(노래제목) 과 'rank'(순위), 'artist' 와 'time' 반복

 

5. A single observational unit is stored in multiple tables.

   >>  단일  관측단위가 여러 테이블에 저장 되어있음.

 

출생아 이름 관련 Table 1, Table 2