데이터는 어떠한 결론을 도출할 수 있는 가공하지 않은 사실들의 묶음이다. 손으로 쓴 편지와 인쇄된 책, 가족 사진첩, 서명한 대출 서류, 은행 원장, 항공권 티켓이 모두 데이터를 갖는 예다.
컴퓨터가 등장하기 전에는 데이터를 만들고 공유하는 방법은 종이나 필름 등으로 한정됐다. 오늘날에는 이메일이나 이북, 디지털 이미지, 디지털 영상 등의 훨씬 편리한 방법을 사용할 수 있다. 이 데이터는 컴퓨터를 사용해 만들고 그림 1-1과 같이 이진수(0과 1)의 문자열로 저장된다. 이런 형태의 데이터를 디지털 데이터라 하며, 컴퓨터가 처리해야 삶이 이해할 수 있다.
컴퓨터와 통신 기술이 등장하며 데이터 생성과 공유의 속도가 기하급수적으로 증가했다. 다음은 디지털 데이터가 증가한 원인이다.
- 데이터 처리 능력의 발달
현대 컴퓨터는 처리와 저장 능력이 상당히 증가했다. 이로 인해 전통적인 형태의 컨텐츠나 미디어를 디지털 형태로 변환하는 일이 가능해졌다.
- 디지털 스토리지 비용의 감소
슽리지 디바이스의 기술적인 진보와 낮아진 비용은 저비용 스토리지 솔루션을 제공할 수 있게 했다. 이런 비용상의 이점은 디지털 데이터가 생성되고 저장되는 속도를 증가시켰다.
- 빠른 통신 기술
기존 방식에 비해 디지털 데이터는 매우 빨리 공유할 수 있다. 손으로 쓴 편지는 목적지에 도달하는 데 몇 주가 걸렸지만 이메일 메시지는 단지 몇 초면 상대방에게 전달된다.
- 애플리케이션과 스마트 디바이스의 확산
스마트 애플리케이션을 장착한 스마트폰과 태블릿, 새로운 디지털 기기로 인해 디지털 컨텐츠의 생산이 매우 활발해졌다.
데이터를 생성하고 모으고 저장하는 저렴하고 쉬운 방법들의 등장은 개인과 기업의 필요에 부응해 데이터의 증가를 가속화했으며, 이른바 데이터 폭발(data explosion)을 불러일으켰다. 개인과 비즈니스는 각자 이 데이터 폭발에 기여하고 있다.
데이터의 중요성과 가치는 시간에 따라 변화한다. 대부분의 데이터는 단기간만 중요성을 지니며 시간이 지날수록 가치는 떨어진다. 이는 사용할 데이터 스토리지 솔루션에 영향을 준다. 보통 더욱 많이 사용될 최신 데이터는 빠르고 비싼 스토리지를 사용한다. 시간이 지나면 이 데이터는 좀 더 느리고 저렴하지만 안정적인 스토리지로 옮겨진다.
비즈니스는 상당히 많은 데이터를 만들어내고 경제적인 이득을 얻기 위해 이 데이터로부터 의미 있는 정보를 추출한다. 따라서 비즈니스는 데이터를 관리하고 장기간 사용할 수 있어야 한다. 또한 데이터는 위험도에 따라 분류할 수 있으며, 특별 관리가 필요한 데이터도 있다. 예를 들어 은행은 고객의 계좌 정보를 정확하고 안전하게 관리해야 하는 법적인 규제사항이 있다. 어떤 비즈니스에서는 수백만 건의 고객 데이터를 다루며, 장기간 이 데이터를 안전하고 정확하게 유지해야 한다. 이는 강화된 보안 기능을 갖추고 데이터를 장기간 보관할 수 있는 고성능 대용량 스토리지 디바이스를 필요로 한다.
다음은 연구와 비즈니스 데이터의 예다.
- 고객 데이터
주문 내역, 배송 주소, 구매 내역 등 회사 고객과 관련된 데이터
- 제품 데이터
재고와 설명, 가격, 사용 가능 여부, 판매량 등 제품에 관련된 여러 측면의 데이터
- 의학 데이터
환자 히스토리, 방사선 이미지, 약 처방과 치료 세부 내역, 보험 정보 등 의료 산업 관련 데이터
- 지진 데이터
지진학은 지진을 연구하는 과학 분야다. 이 분야에서는 지진의 위치와 강도를 예측하기 위한 정보를 얻기 위해 데이터를 수집하고 분석한다.
데이터는 저장과 관리 방식에 따라 구조적 데이터와 비구조적 데이터로 나뉜다. 구조적 데이터는 행(row)과 열(column)로 조직돼 엄격하게 정의된 형태를 따르기 때문에 애플리케이션이 효율적으로 추출하고 처리할 수 있다. 구조적 데이터는 보통 데이터베이스 관리 시스템(DBMS, database management system)에 저장한다.
데이터 요소를 행과 열로 저장할 수 없으면 비구조적 데이터라 한다. 비구조적 데이터는 애플리케이션이 질의하고 검색하기 어렵다. 예를 들어 고객 연락처는 메모나 이메일, 명함 또는 .doc, .txt, .pdf 같은 다양한 디지털 포맷으로 저장할 수 있다. 이런 데이터는 비구조적 성질 때문에 전통적인 고객 관리 애플리케이션을 사용해 데이터를 검색하기 어렵다. 오늘날 새롭게 만들어지는 데이터의 대부분은 비구조적 데이터다. 산업계는 다양한 소스로부터 생성되는 비구조적 데이터를 저장하고 관리하고 분석하며, 가치를 이끌어내기 위한 새로운 아키텍처와 기술, 기법을 개발해야 하는 과제에 직면해 있다.
빅데이터(big data)는 최근 새롭게 떠오르는 개념으로, 기존의 데이터 처리 소프트웨어로는 허용된 시간 내에 데이터를 얻고, 저장, 관리, 처리할 수 없는 크기의 데이터 셋을 말한다. 이는 비즈니스 애플리케이션 트랜잭션과 웹 페이지, 비디오, 이미지, 이메일, 소셜 미디어 등의 다양한 데이터 소스에서 생성되는 구조적, 비구조적 데이터를 모두 포함하는 개념이다. 이 데이터 셋은 보통 분석, 예측 모델링, 의사결정을 위해 실시간으로 생성되건 업데이트되는 데이터다.
빅데이터는 새로운 가치를 이끌어낼 무궁무진한 가능성이 있다. 빅데이터 생태계의 구성요소는 다음과 같다.
- 여러 장소에서 데이터를 수집하고 이 데이터에 대한 새로운 데이터(메타데이터)를 만들어내는 디바이스
- 디바이스와 사용자로부터 데이터를 수집하는 데이터 수집기
- 의미 있는 정보를 추출하기 위해 수집한 데이터를 처리하는 데이터 애그리게이터(aggregator)
- 데이터 가치 사슬에서 다른 사람이 수지하고 처리한 데이터를 이용할 데이터 사용자와 구매자
'IT > Storage' 카테고리의 다른 글
RAID (0) | 2022.06.29 |
---|---|
볼륨 매니저와 파일 시스템 (0) | 2022.06.29 |
DBMS와 호스트 (0) | 2022.06.29 |
가상화와 클라우드 컴퓨팅 (0) | 2022.06.29 |
스토리지 아키텍처 (0) | 2022.06.12 |