부트캠프와 다른 AI학교,
AI는 아이펠에서 배우세요
#빅데이터 

정형데이터 비정형데이터 쪽집게 비교 분석

데이터의 종류는 크게 정형 데이터, 비정형 데이터, 반정형 데이터로 나뉩니다. 이것이 왜 이렇게 나뉘는 지는 데이터의 정의와 개념을 이해해야 합니다. 본 글에서는 데이터의 개념과 데이터의 종류들을 알아봅니다.

2022-10-21 | 류한웅

정형 비정형 데이터의 종류를 비교 분석을 통해 알아봅시다!

안녕하세요~ 🙂 이번 글에서는 데이터의 종류에 대해서 알아보겠습니다!

하지만 종류를 알기 전에 저희는 먼저 데이터가 무엇인지 그 개념을 먼저 이해하고, 어떻게 저장되는지 알아야 되겠습니다 

그렇다면 데이터의 개념을 먼저 이해를 하고 따라가봅시다. Let’s go!!

데이터란?

위키피디아

자료(資料, data, 데이터, 문화어: 데타)는 수, 영상, 단어 등의 형태로 된 의미 단위이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 된다.

네이버

데이터의 사전적 정의는 “이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료”

  1. 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료.
  2. 관찰이나 실험, 조사로 얻은 사실이나 자료.
  3. 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료

 

관점에 따라서 정의가 조금씩 다르긴 하지만 여기서 공통적으로 알 수 있는 건, 데이터는 관찰이든, 실험이든, 분석이든 어떤 작업에 대한 원천이 되는 것라는 점입니다.

그렇기 때문에 데이터는 4차 산업의 새로운 원유라고도 합니다!!

데이터는 새로운 오일입니다!

데이터는 기름이다

출처 : https://www.linkedin.com/pulse/data-new-oil-llew-adamson

 

SVP Gartner, 2011년 Peter Sondergaard: “정보는 21세기의 석유이며, 분석은 연소 엔진입니다.”

 

IBM CEO인 Ginni Rometty는 2013년 Council on Foreign Relations에서 한 연설에서 다음과 같이 말했습니다. “데이터를 차세대 천연자원으로 생각하시기 바랍니다.”

 

인지 과학자이자 실리콘 밸리의 역사 저자인 피에로 스카루피(Piero Scaruffi)는 “석유와 데이터의 차이는 (불행히도) 더 많은 석유를 생산하지 않는 반면, 데이터 제품(자율주행 자동차, 드론, 웨어러블 등)은 더 많은 데이터를 생산한다(평소 어디에서 운전하는지, 얼마나 빠르게/잘 운전하는지, 누가 누구인가). “당신과 함께 등)”

 

많은 잘나가는? 사람들은 이미 데이터를 원유라고도 많이 비유합니다!

원유라는 단어에 초점을 맞춰봅시다!

원유()는 땅속에서 뽑아낸, 정제하지 아니한 그대로의 기름을 말합니다!

원천, 원유, 정제하지 아니한.. 원천.. 이러한 부분이 우리가 이 글에서 정의 하는 데이터에서 가장 중요한 부분입니다.

이러한 정제되지 않은 데이터는 지난 10년 동안 인터넷의 급진적인 발전과 스마트폰 의 성장은 디지털 데이터 생성의 급증으로 이어졌습니다!


그럼 Oil ( Data) 은 어디에다 저장될까?

데이터 저장고

차세대 빅데이터 기대감 ‘상승’…“모든 것이 클라우드에서 이뤄질 것” < 기술 < 기사본문 – AI타임스

데이터가 어디에서도 생성 될 수 있다 했지만, 결국 데이터의 의미를 잘 생각해보면 어떠한 값이 나와 저장이 되어야 한다는 겁니다!

마치 원유가 땅속에서 저장되듯이 데이터는 저장이 되어야만, 데이터가 되는 것입니다.

그러한 저장소를 저희가 흔히 이야기하는 데이터 베이스(Data base) 입니다!

이 글에서 이야기하는 데이터는 바로 데이터 베이스에 저장되는 데이터를 의미합니다.

데이터가 어떻게 저장되는지에 따라 데이터의 종류가 나눠진다고 생각을 하시면 좋습니다.

데이터들은 비 정형 데이터와 정형 데이터 반 정형 데이터 크게 나누어집니다.

저희가 마냥  데이터의 종류를 생각하면, 음성 데이터, 텍스트 데이터, 이미지 데이터, 등으로 나눠질 것 같지만, 그것 보다 더 크게 데이터 종류가 나눠지고, 그 이유를 위의 데이터의 개념을 통해서 느끼셨으면 좋겠습니다.

정형데이터(Structured data)

  • 이제 데이터의 정의에 대해서 알아보았으니, 종류에 대해서 알아봅시다!
  • 위와 같이 데이터 베이스에 저장 되는 원초적 데이터(raw data)의 종류는 정형 데이터, 비정형 데이터, 반정형 데이터로 나뉘게 됩니다!

 

정형(구조화된) 데이터란 무엇일까요?

정형 데이터 영어로는 Structured data라고 합니다. 구조화 된 데이터란 뜻이죠!

  • 구조화된 데이터는 일반적으로 데이터베이스의 열과 행으로 표시되는 테이블 형식 데이터입니다.
  • 이 형식의 테이블을 보유하는 데이터베이스를 관계형 데이터베이스라고 합니다 .
  • 수학적 용어 “관계” 는 테이블로 유지되는 형성된 데이터 세트를 지정합니다.
  • 구조화된 데이터에서 테이블의 모든 행에는 동일한 열 집합이 있습니다.
  • 구조화된 데이터에 사용되는 SQL(Structured Query Language) 프로그래밍 언어입니다.

 

"<yoastmark

정형 데이터(structed data)는 데이터베이스의 정해진 규칙(Rule)에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터들을 보통 말합니다!

예를 들어 위의 그림과 같이 User Table에 “User ID” 와 “Address’, ‘User’ 등의 컬럼이 있습니다. 이것이 이 테이블의 Rule 즉 규칙에 맞게 들어가도록 한 것이죠! 그래서 컬럼들을 통해 수치만으로 의미파악이 쉽다는 겁니다.

또한 이 컬럼들이 다른 Table( Order, Product)와도 연관이 있어 정형 데이터가 저장되는 데이터베이스를 관계형 데이터 베이스라고도 하는 겁니다!!

그래서 어떤 곳은 정형 데이터를 데이터베이스에 들어간 데이터라고 말하는 오류를 범하게 되는데 데이터베이스에는 모든 데이터가 들어갈 수 있는 것(음성이든, 비디오도 객체 방식으로 넣을 수 있다)이기에 이런 정의는 틀렸다고 볼 수 있습니다!

정형 데이터는 그 값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 들어갈 경우 정형 데이터라고 생각을 하시면 좋습니다.


비정형 데이터(
Unstructured data)

비정형 데이터란 무슨 뜻일까요?

  • 비정형 데이터는 사전 정의된 방식으로 구성되지 않거나 사전 정의된 데이터 모델이 없는 정보입니다.
  • 구조화되지 않은 정보는 텍스트가 많은 집합이지만 숫자, 날짜 및 사실과 같은 데이터도 포함할 수 있습니다.
  • 비디오, 오디오 및 바이너리(byte) 데이터 파일, 문서 파일은 특정 구조를 갖지 않을 수 있습니다. 비정형 데이터로 할당됩니다 .

"비<yoastmark

 

예를 들자면 위와 같은 데이터 입니다!

저 문서는 우리가 인간의 눈으로 봤을때는 저 자동차에 대한 소개를 하는 것을 알 수 있지만 ,구조화 되지 않아(규칙이 없어서) 데이터를 처리하는 컴퓨터 입장에서는 굉장히 처리가 힘든 데이터입니다.

결국 비정형 데이터란 정해진 규칙(rule)이 없어서 값의 의미를 쉽게 파악하기 힘든 데이터를 의미하게 되겠죠!

텍스트, 음성, 영상과 같은 데이터가 비정형 데이터 범위에 속해있습니다.

이러한 비정형 데이터를 저장하기 위한 데이터 베이스는 비관계형 데이터 베이스라고도 하고, No SQL 데이터 베이스라고도 합니다. 위에서 봤던 정형데이터의 규칙(스키마)도, 관계도 비정형데이터에는 없기 때문에 이런식으로 부른다고 알 수 있겠죠

비관계형 데이터 저장소는 관계형 데이터 저장소와 같은 행 및 열의 테이블 형식 스키마가 없는 데이터베이스입니다

비관계형 데이터 저장소는 NoSQL 데이터 저장소라고도 합니다.

비정형 데이터는 빅데이터의 탄생에 비정형 데이터의 역할이 크게 한몫을 합니다.

그동안 의미를 분석하기 힘들었던 대용량에 속한 비정형 데이터를 분석함으로써 새로운 인사이트를 얻게 되기 때문이죠!

혹시나 착각을 하면 안되는 부분은 빅데이터가 비정형 데이터만 분석한다는 것은 당연히 아닙니다! . 3V에 Velocity(속도), Volume(양), Variety(다양)가 있는 것처럼 비정형 데이터는 Variety에 속하며 대용량의 정형 데이터도 얼마든지 많기 때문입니다!

관련 이야기는 빅데이터(Big Data) – 빅데이터, 정의, 특징, 활용 사례 에서 더 보시면 좋을 것 같습니다 🙂

반정형 데이터(Semi-structured data)

반정형 데이터란?

  • 반정형 데이터는 구조화된 데이터(관계형 데이터베이스)로 구성되지 않지만 여전히 어느 정도 구조를 가지고 있는 정보입니다.
  • 반정형 데이터는  JSON(JavaScript Object Notation) 형식으로 보관된 문서로 구성됩니다 . 여기에는 키-값  저장소와  그래프 데이터베이스도 포함됩니다.
  • 반정형 데이터는 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태입니다.

 

 

반정형 데이터의 ‘반’은 반대할 반이 아닌, 정형과 비정형의 Semi, 절반을 의미합니다.

즉 정형이 아니지만, 그렇다고도 비정형도 아닌 굉장히 애매모호한 놈입니다!

반정형 데이터는 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터로, 데이터의 형식과 구조가 변경될 수 있는 데이터입니다.

정형 데이터와 같이 테이블의 행과 열로 구조화되어 있지는 않으나 스키마 및 메타데이터 특성을 가지고 있으며, 주로 XML, HTML, JSON 등의 파일 형태로 저장됩니다.

결국 다른것은 일반적인 데이터 베이스는 데이터를 저장하는 장소와 스키마가 분리되어 있어서 테이블을 생성하고 데이터를 저장합니다.

하지만 반정형 데이터는 구조정보와 값이 같이 있는 데이터라는 것이라, 스키마는 있지만 구조화되지는 않았다는 겁니다.

 

결론!

  • 데이터는 크게 정형, 비정형 ,반정형 데이터로 나뉩니다!
  • 이러한 분류의 기준을 알기 위해선 데이터의 정의와 데이터가 어떻게 저장되는지에 대한 이해도 필요합니다
  • 이해가 안되시면 참고자료를 더욱 살펴 보아도 좋을 것 같습니다 🙂

데이터 분석과 인공지능에 대해 본격적으로 학습해보고 싶다는 관심이 생기신 분은
다양한 실무형 프로젝트로 함께 토론하고 학습하는 모두의 AI 학교 아이펠 (www.aiffel.io) 을 참고하세요!

참고자료

What is Structured Data?

By Structured data is data that has been organized into a formatted repository, typically a database. This is done so the data’s elements can be made addressable for more effective processing and analysis. The data resides in a fixed field within a record or file. Structured data contrasts with unstructured and semi-structured data.

정형, 비정형, 반정형 데이터란?

데이터를 공부하거나 컴퓨터 자격증을 공부하면서 나오는 단어 중에 정형/비정형/반정형 데이터라는 것이 자주 등장하게 된다. 정형 데이터와 비정형 데이터의 차이점은 알겠지만 반정형이라는 말이 들어가면서 헷갈릴 수 있는데 반정형을 反으로 해석해버려서 반정형 = 비정형으로 인식하는 경우가 종종 있다. 정형 데이터(Structured data) 정형 데이터는 데이터베이스의 정해진 규칙(Rule)에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터들을 보통 말한다.

Is Data the New Oil?

Clive Humby, UK Mathematician and architect of Tesco’s Clubcard, 2006 (widely credited as the first to coin the phrase): “Data is the new oil. It’s valuable, but if unrefined it cannot really be used.

Semi-structured data – Wikipedia

From Wikipedia, the free encyclopedia Semi-structured data is a form of structured data that does not obey the tabular structure of data models associated with relational databases or other forms of data tables, but nonetheless contains tags or other markers to separate semantic elements and enforce hierarchies of records and fields within the data.

What is Semi-structured data? – GeeksforGeeks

Semi-structured data is data that does not conform to a data model but has some structure. It lacks a fixed or rigid schema. It is the data that does not reside in a rational database but that have some organizational properties that make it easier to analyze.

What is structured, semi structured and unstructured data?

Reading time: ~10min Level of technicality: low, no previous knowldge required Data can be distinguished along many dimensions.