데이터베이스는 논리적으로 조직된 서로 연관된 테이블에 데이터를 구조적으로 저장하기 위한 방법이다. 데이터베이스는 데이터 저장과 검색을 최적화하는 데 도움을 준다. DBMS는 데이터베이스의 생성과 관리, 사용을 제어한다. DBMS는 애플리케이션의 데이터 요청을 처리하고 운영체제에 스토리지로부터 데이터를 가져오도록 지시한다.

 

 사용자는 애플리케이션을 통해 데이터를 저장하고 추출한다. 애플리케이션을 실행하는 컴퓨터를 호스트(host) 또는 컴퓨트 시스템(compute system)이라 한다. 호스트는 물리적 머신 혹은 가상 머신일 수도 있다. 컴퓨트 가상화 소프트웨어는 물리적인 컴퓨트 인프라스트럭처를 기반으로 가상 머신을 만든다. 물리적 호스트의 예로는 데스크톱 컴퓨터나 서버, 서버 클러스터, 랩톱, 모바일 디바이스가 있다. 호스트는 CPU와 메모리, I/O 디바이스, 컴퓨팅 연산을 수행하는 여러 소프트웨어로 구성된다. 소프트웨어에는 운영체제와 파일 시스템, 논리적 볼륨 매니저, 디바이스 드라이버 등이 있다. 이런 소프트웨어는 운영체제의 일부 또는 별개의 엔티티로 설치될 수도 있다.

 

 CPU는 산술 논리 장치(ALU, Arithmetic Logic Unit)와 제어 장치, 레지스터, L1 캐시라는 네 가지 컴포넌트로 구성된다. 호스트의 메모리는 랜덤 액세스 메모리(RAM, Random Access Memory)와 읽기 전용 메모리(ROM, Read-Only Memory), 두 종류가 있다. I/O 디바이스는 호스트와의 통신을 담당한다. I/O 장치의 예로는 키보드와 마우스, 모니터 등이 있다.

 

 소프트웨어는 호스트에서 실행되며, 데이터 입/출력을 담당한다.

 

 전통적인 컴퓨팅 환경에서는 운영체제(operating system)가 컴퓨팅의 모든 것을 제어했다. 운영체제는 애플리케이션과 컴퓨트 시스템의 물리적 컴포넌트 사이의 작업을 담당했다. 애플리케이션에 제공되는 서비스 중 하나는 데이터 액세스다. 운영체제는 사용자의 활동과 환경을 모니터링하고 이에 대한 처리를 담당한다. 하드웨어 컴포넌트를 조직하고 제어하며, 하드웨어 리소스의 할당을 관리한다. 관리하는 모든 리소스의 액세스와 사용에 대한 기본적인 보안을 제공한다. 운영체제는 기본적인 스토리지 관리도 수행하며 파일 시스템과 볼륨 매니저, 디바이스 드라이버도 관리한다.

 

 가상 컴퓨트 환경에서는 운영체제와 하드웨어 리소스 사이에 가상 레이어가 동작한다. 여기서 OS의 역할은 컴퓨트 가상화의 구현에 따라 달라진다. 일반적인 경우 OS는 게스트로 동작하며 애플리케이션과의 상호작용 관련 역할만 수행한다. 이때 하드웨어 관리 기능은 가상화 레이어에서 수행한다.

 

 메모리는 지금까지도 그랬지만 앞으로도 호스트에서 비용이 높은 컴포넌트일 것이다. 메모리는 호스트에서 실행할 수 있는 애플리케이션의 크기와 개수를 결정한다. 메모리 가상화(memory virtualization)를 이용해, 총 메모리 요구량이 실제 사용 가능한 물리적 메모리보다 많은 애플리케이션과 프로세스를 서로 영향을 주지 않고 실행할 수 있다.

 

 메모리 가상화는 호스트의 물리적 메모리(RAM)를 가상화해주는 운영체제의 기능이다. 이 기능은 컴퓨트 시스템의 물리적 메모리 공간보다 큰 주소 영역을 가진 가상 메모리를 만든다. 가상 메모리는 물리적 메모리의 주소 공간과 디스크 스토리지의 일부 영역을 함께 사용한다. 가상 메모리를 관리하는 운영체제 유틸리티를 가상 메모리 관리자(VMM, virtual memory manager)라고 한다. VMM은 가상 메모리에서 물리 메모리로의 매핑을 관리하고, 프로세스가 디스크 스토리지에 있는 데이터의 가상 주소를 참조할 때 디스크 스토리지에서 데이터를 가져온다. VMM이 사용하는 디스크 영역을 스왑 공간이라고 한다. 스왑 공간(swap space [또는 페이지 파일이나 스왑 파일이라고도 함])은 운영체제가 물리 메모리처럼 취급하는 디스크 드라이브의 일부 영역이다.

 

 가상 메모리는 시스템 메모리를 지정한 크기의 페이지로 구성된 연속된 블록으로 나눈다. 페이징(paging)이라고 하는 프로세스는 비활성 물리 메모리 페이지를 스왑 파일로 옮기고, 필요할 때 이 페이지를 다시 물리 메모리로 읽어 들인다. 이렇게 해 사용 가능한 물리 메모리를 여러 애플리케이션이 효율적으로 사용할 수 있다. 운영체제는 가장 적게 사용된 페이지를 스왑파일에 옮겨 좀 더 활발한 프로세스가 메모리를 충분히 사용할 수 있게 한다. 스왑 파일 페이지는 물리 메모리보다 느린 디스크에 할당됐기 때문에, 스왑 파일 페이지에 액세스하는 것은 물리 메모리 페이지에 대한 액세스보다 느리다.

 

 디바이스 드라이버(device driver)는 운영체제가 프린터나 마우스, 디스크 드라이버 같은 디바이스와 상호작용할 수 있게 하는 소프트웨어를 말한다. 디바이스 드라이버를 통해 운영체제는 디바이스를 인식하며, 디바이스를 액세스하고 제어한다. 디바이스 드라이버는 하드웨어와 운영체제에 따라 달라진다.

 

 예전에는 운영체제가 디스크 드라이브를 여러 개의 연속적인 디스크 블록의 집합으로 봤다. 디스크 드라이브 전체가 파일 시스템에 할당되거나, OS나 애플리케이션에서 사용하는 다른 엔티티에 할당됐다. 이런 방법의 단점은 유연성이 없다는 것이다. 디스크 드라이브의 공간이 부족해도 파일 시스템의 크기를 증가시킬 방법이 없었다.

 

 이후 내용은 볼륨 매니저와 파일 시스템에서 다루도록 하겠다.

'IT > Storage' 카테고리의 다른 글

RAID  (0) 2022.06.29
볼륨 매니저와 파일 시스템  (0) 2022.06.29
가상화와 클라우드 컴퓨팅  (0) 2022.06.29
스토리지 아키텍처  (0) 2022.06.12
데이터  (0) 2022.06.12

 

 

 가상화는 컴퓨트와 스토리지, 네트워크 같은 물리적 리소스를 추상화하는 기술로 이런 리소스를 논리적인 리소스로 보이게 한다. 가상화는 IT 산업에서 수년간 여러 가지 형태로 존재해왔다. 가상화의 가장 흔한 예는 컴퓨트 시스템의 가상 메모리와 로(raw) 디스크의 파티셔닝이다.

 

 가상화는 여러 개의 물리적 리소스를 모아 하나로 합친 형태로 제공할 수 있다. 예를 들어 스토리지 가상화는 여러 스토리지 디바이스를 하나의 큰 스토리지로 보이게 할 수 있다. 비슷하게 컴퓨트 가상화를 사용하면 물리적 서버의 CPU를 하나로 합쳐 보이게 할 수 있다. 가상화는 또한 리소스를 중앙에서 관리할 수 있게 해준다.

 

 여러 개의 물리적 리소스를 모아 풀(pool)을 구성한 후, 여기서 가상 디스크를 만들어 공급할 수 있다. 예를 들어 스토리지 풀에서 지정한 크기의 가상 디스크를 만들 수 있고, 특정 CPU 파워와 메모리를 가진 가상 서버를 컴픁 풀에서 만들 수 있다. 이런 가상 리소스는 풀안의 물리적 리소스를 공유하며, 이는 물리적 리소스의 활용도를 높여준다. 비즈니스 요구사항에 맞춰 가상 리소스의 용량을 애플리케이션과 사용자에 대한 중단 없이 늘리거나 줄일 수 있다. IT 자산의 활용도를 높임으로써 조직은 새로운 물리적 리소스를 공급하고 관리하는 비용을 줄일 수 있다. 또한 물리적 리소스를 덜 사용하는 것은 공간과 에너지를 아낄 수 있음을 의미하고, 이는 좀 더 나은 경제적인 상황과 그런 컴퓨팅을 가능케 한다.

 

 오늘날과 같은 빠른 경쟁 시대에 조직은 시장의 요구사항을 만족시키기 위해 기민하고 유연해야 한다. 이를 위해서는 감소하거나 정제된 IT 예산으로도 리소스를 확장하고 업그레이드해야 한다. 클라우드 컴퓨팅(cloud computing)은 이런 도전 과제를 효율적으로 해결할 수 있는 방안이다. 클라우드 컴퓨팅은 네트워크를 통해 IT 리소스를 서비스로 사용할 수 있게 해준다. 매우 높은 확장성과 유연한 컴퓨팅을 제공하며, 필요시 리소스를 공급받을 수 있다. 사용자는 최소한의 관리와 서비스 공급자와의 상호작용만으로도 스토리지 용량을 포함한 컴퓨팅 리소스를 늘이거나 줄일 수 있다. 클라우드 컴퓨팅은 완전히 자동화된 요청-공급 프로세스를 통해 셀프서비스로 필요한 것을 요청할 수 있게 했다. 또한 클라우드 컴퓨팅에서는 사용량 기반의 비용 청구가 가능하다. 사용자는 CPU 사용 기간과 데이터 전송량, 저장한 데이터의 용량 등 자신이 사용한 리소스에 대한 비용만 지불하면 된다.

 

 클라우드 인프라스트럭처는 보통 리소스 풀링과 빠른 리소스 공급을 제공하는 가상화된 데이터 센터를 기반으로 구축된다.

 

 현재의 스토리지에 대한 요구사항을 만족시키려면 데이터의 유형과 가치, 데이터 센터의 주요 요소를 이해해야 한다. 스토리지 아키텍처 진화와 데이터 센터의 핵심 요소에 대해서도 다뤘다. 가상화 기술의 등장은 고전적인 데이터 센터를 가상화된 데이터 센터로 변환시켰다. 클라우드 컴퓨팅은 IT 리소스를 공급하고 소비하는 방법을 바꾸고 있다.

 

 오늘날 데이터 센터는 크기에 상관없이 모든 비즈니스에 매우 중요하고 없어서는 안 될 부분이 됐다. 데이터 센터의 해심 요소는 호스트와 스토리지, 연결(네트워크), 애플리케이션, DBMS이다. 이 요소는 다 같이 협동해 데이터를 정리하고 저장한다. 가상화 기술의 진화로 데이터 센터는 고전적인 데이터 센터에서 가상 데이터 센터(VDC, virtualized data center)로 진화했다. VDC에서는 고전적인 데이터 센터에서의 물리적 리소스를 모아 가상 리소스로 제공한다. 이런 추상화는 물리적 리소스의 복잡성과 한계를 사용자로부터 감춘다. IT 리소스를 가상화를 통해 응집함으로써 조직은 그들의 인프라스트럭처 활용성을 높이고 인프라스트럭처의 총비용을 줄일 수 있다. 또한 VDC에서는 가상 리소스를 소프트웨어를 통해 생성할 수  있으며, 이는 고전적인 데이터 센터의 물리적 리소스 배치에 비해 훨씬 빠른 속도로 리소스를 배치할 수 있게 해준다.

 

 정보 자산이 점점 중요해지면서 데이터 센터의 핵심 요소 중 하나인 스토리지는 별도의 리소스로 인식됐다. 스토리지의 구현과 관리를 위해서는 특별한 주의가 필요하다.

 

 애플리케이션(application)은 컴퓨팅 연산의 로직을 제공하는 컴퓨터 프로그램이다. 애플리케이션은 기반 운영체제에게 스토리지 디바이스에 대한 읽기/쓰기(R/W) 연산 요청을 보낸다. 애플리케이션은 데이터베이스를 사용할 수 있다. 이런 경우 데이터베이스에서 운영체제의 서비스를 사용해 스토리지 디바이스에 대한 R/W 연산을 수행한다. 데이터 센터에 배치된 애플리케이션은 보통 비즈니스 애플리케이션과 인프라스트럭처 관리 애플리케이션, 데이터 보호 애플리케이션, 보안 애플리케이션으로 분류된다. 이 애플리케이션의 예로는 이메일과 전사적 리소스 관리(ERP, enterprise resource planning), 의 사결정 지원 시스템(DSS, decision support system), 리소스 관리, 백업, 인증, 안티바이러스 애플리케이션 등이 있다.

 

 애플리케이션의 I/O(입력/출력) 특징은 스토리지 시스템의 전체 성능과 스토리지 솔루션의 디자인에 영향을 준다.

 

 애플리케이션 가상화는 애플리케이션과 기저 플랫폼(OS와 하드웨어) 간의 의존 관계를 변화시킨다. 애플리케이션 가상화는 애플리케이션과 필요한 OS 리소스를 하나의 가상 컨테이너로 캡슐화한다. 이 기술은 애플리케이션이 배치될 컴퓨팅 플랫폼의 OS나 파일 시스템, 레지스트리를 바꾸지 않고 애플리케이션을 배치할 수 있게 해준다. 가상화 애플리케이션은 독립 환경에서 실행되기 때문에 OS나 기타 애플리케이션은 잠재적인 위험으로부터 보호된다. 여러 애플리케이션 또는 여러 버전의 애플리케이션이 같은 컴퓨팅 플랫폼에 설치될 경우 충돌이 발생할 때가 많다. 애플리케이션 가상화는 애플리케이션의 다른 버전과 관련 OS 리소스가 서로 독립적으로 관리되기 때문에 충돌 가능성을 제거한다.

'IT > Storage' 카테고리의 다른 글

RAID  (0) 2022.06.29
볼륨 매니저와 파일 시스템  (0) 2022.06.29
DBMS와 호스트  (0) 2022.06.29
스토리지 아키텍처  (0) 2022.06.12
데이터  (0) 2022.06.12

 

 

 역사적으로 조직은 그들의 데이터 센터 내에 중앙 컴퓨터(메인프레임)와 정보 스토리지 디바이스(테이프 릴[reel]과 디스크팩)를 갖추고 있었다. 오픈 시스템이 발전하고 가격이 낮아지며, 배치가 쉬워지며 비즈니스 유닛/부서가 직접 자신의 서버와 스토리지를 마련하게 됐다. 이 스토리지 디바이스는 다른 서버와 공유할 수 없었다. 이런 방식을 서버 중심 스토리지 아키텍처(server-centric storage architecture)라 부른다. 이 아키텍처에서 각 서버는 한정된 개수의 스토리지 디바이스를 가지며, 서버 관리나 스토리지 용량 증가 같은 관리 직업을 하는 동안에는 정보를 사용할 수 없다. 기업 내 각 부서의 서버가 늘어나면서 보호되지 않고 관리되지 않은 파편화된 정보가 생기고 구축 및 관리 비용이 증가했다.

 

 이런 문제를 해결하기 위해 스토리지는 서버 중심에서 정보 중심 아키텍처(information-centric architecture)로 진화했다. 이 아키텍처에서 스토리지 디바이스는 서버와는 독립적으로 중앙에서 관리된다. 중앙 관리 스토리지 디바이스는 다수의 서버가 공유한다. 새로운 서버를 배치하면 공유 스토리지 디바이스에서 이 서버에 스토리지를 할당한다. 공유 스토리지에 스토리지를 추가하면 정보 가용성에 영향을 주지 않고 공유 스토리지의 용량을 늘릴 수 있다. 이 아키텍처에서는 정보를 좀 더 쉽고 효율적으로 관리할 수 있다.

 

 스토리지 기술과 아키텍처는 계속 진화하고 있으며, 이를 이용해 조직은 자신의 데이터를 통합, 보호, 최적화함으로써 정보 자산의 효과를 최대로 이루고자 한다.

 

데이터 센터 인프라스트럭처

 

 조직은 중앙화된 데이터 처리를 기업 전체에 제공하기 위해 데이터 센터를 운영한다. 데이터 센터는 대용량 데이터를 보관하고 관리한다. 데이터 센터 인프라스트럭처에는 컴퓨터, 스토리지 시스템, 네트워크 디바이스, 백업 전력 같은 하드웨어 컴포넌트와 애플리케이션, 운영체제, 관리 소프트웨어 같은 소프트웨어 컴포넌트가 있다. 또한 에어 컨디셔닝, 화재 방지 시스템, 통풍 같은 환경 제어도 포함된다.

 

 큰 조직은 데이터 프로세싱 작업을 분산하고 장애 시 백업을 제공하기 위해 1개 이상의 데이터 센터를 유지한다.

 

 다음은 데이터 센터의 기능에 매우 중요한 다섯 가지 주요 요소다.

 

- 애플리케이션

컴퓨팅 연산의 로직을 제공하는 컴퓨터 프로그램

 

- 데이터베이스 관리 시스템(DBMS)

서로 연관된 논리적 테이블에 데이터를 저장하기 위한 구조적인 방법을 제공한다.

 

- 호스트 또는 컴퓨트(compute)

애플리케이션과 데이터베이스를 실행하는 컴퓨팅 플랫폼(하드웨어와 펌웨어, 소프트웨어)

 

- 네트워크

여러 네트워크 디바이스 간의 통신을 위한 데이터 이동 경로

 

- 스토리지

 데이터를 영속적으로 저장하기 위한 디바이스

 

 이 주요 요소는 보통 별개의 엔티티로 보이고 관리되지만, 데이터를 처리하기 위해서는 모든 요소가 함께 동작해야 한다.

 

 클라이언트 머신은 LAN/WAN을 통해 주문 처리 애플리케이션을 실행하는 호스트에 연결하고, 고객은 이 클라이언트 머신을 이용해 주문한다. 클라이언트는 고객 이름, 주소, 결제 방법, 주문 상품, 주문 수량 등의 주문 관련 정보를 제공하기 위해 애플리케이션을 이용해 호스트의 DBMS에 액세스한다.

 

 DBMS는 호스트 운영체제를 통해 스토리지 어레이의 물리적 디스크에 데이터를 기록한다. 스토리지 네트워크는 호스트와 스토리지 어레이 사이의 통신 링크를 제공하고, 그들 간에 데이터를 읽거나 기록하기 위한 요청을 전달한다. 호스트로부터 읽기 또는 쓰기 요청을 받으면 스토리지 어레이는 데이터를 물리적 디스크에 저장하기 위해 필요한 작업을 수행한다.

 

 비즈니스의 생존과 성공을 위해서는 데이터 센터를 중단 없이 운영하는 것이 매우 중요하다. 조직은 데이터를 언제든 액세스할 수 있음을 보장하는 안정적인 인프라스트럭처를 가져야 한다.

 

 아래는 데이터 센터의 주요 특징이다.

 

- 가용성

데이터 센터는 필요한 정보를 즉시 제공할 수 있어야 한다. 정보를 사용하지 못하면 금융 서비스, 통신, 전자상거래 같은 비즈니스에 시간당 수백만 달러의 손해를 끼치게 된다.

 

- 보안

데이터 센터는 인증된 사람만 정보에 액세스할 수 있도록 정책과 절차를 수립하고 핵심 요소를 통합해야 한다.

 

- 확장성

비즈니스가 확장하면 좀 더 많은 서버와 새로운 애플리케이션, 추가 데이터베이스를 배치해야 할 필요가 생긴다. 필요시 비즈니스 운영의 중단 없이 리소스를 확장할 수 있어야 한다.

 

- 성능

데이터 센터의 모든 요소는 서비스 레벨에 기반해 최적의 성능을 제공해야 한다.

 

- 데이터 무결성

데이터 무결성이란 데이터를 전송받은 대로 올바르게 저장하고 추출되는지를 보장하기 위한 오류 수정 코드나 패리티 비트(parity bit) 같은 방법론을 일컫는다.

 

- 용량

데이터 센터 운영을 위해서는 대용량 데이터를 효율적으로 저장하고 처리하기 위한 적당한 리소스가 필요하다. 필요한 용량이 증가하면 데이터 센터는 데이터 가용성을 해치지 않거나 중단을 최소화하며 추가 용량을 제공해야 한다. 용량은 기존 리소스를 재할당하거나 새로운 리소스를 추가해 관리할 수 있다.

 

- 관리성

데이터 센터는 모든 요소를 쉽게 그리고 통합된 방식으로 관리해야 한다. 관리성은 자동화를 통해 이룰 수 있으며, 공통된 작업에서의 사람(수동)의 간섭을 줄여야 한다.

 

'IT > Storage' 카테고리의 다른 글

RAID  (0) 2022.06.29
볼륨 매니저와 파일 시스템  (0) 2022.06.29
DBMS와 호스트  (0) 2022.06.29
가상화와 클라우드 컴퓨팅  (0) 2022.06.29
데이터  (0) 2022.06.12

 

 

 데이터는 어떠한 결론을 도출할 수 있는 가공하지 않은 사실들의 묶음이다. 손으로 쓴 편지와 인쇄된 책, 가족 사진첩, 서명한 대출 서류, 은행 원장, 항공권 티켓이 모두 데이터를 갖는 예다.

 

 컴퓨터가 등장하기 전에는 데이터를 만들고 공유하는 방법은 종이나 필름 등으로 한정됐다. 오늘날에는 이메일이나 이북, 디지털 이미지, 디지털 영상 등의 훨씬 편리한 방법을 사용할 수 있다. 이 데이터는 컴퓨터를 사용해 만들고 그림 1-1과 같이 이진수(0과 1)의 문자열로 저장된다. 이런 형태의 데이터를 디지털 데이터라 하며, 컴퓨터가 처리해야 삶이 이해할 수 있다.

 

 컴퓨터와 통신 기술이 등장하며 데이터 생성과 공유의 속도가 기하급수적으로 증가했다. 다음은 디지털 데이터가 증가한 원인이다.

 

 - 데이터 처리 능력의 발달

 현대 컴퓨터는 처리와 저장 능력이 상당히 증가했다. 이로 인해 전통적인 형태의 컨텐츠나 미디어를 디지털 형태로 변환하는 일이 가능해졌다.

 

- 디지털 스토리지 비용의 감소

 슽리지 디바이스의 기술적인 진보와 낮아진 비용은 저비용 스토리지 솔루션을 제공할 수 있게 했다. 이런 비용상의 이점은 디지털 데이터가 생성되고 저장되는 속도를 증가시켰다.

 

- 빠른 통신 기술

기존 방식에 비해 디지털 데이터는 매우 빨리 공유할 수 있다. 손으로 쓴 편지는 목적지에 도달하는 데 몇 주가 걸렸지만 이메일 메시지는 단지 몇 초면 상대방에게 전달된다.

 

- 애플리케이션과 스마트 디바이스의 확산

스마트 애플리케이션을 장착한 스마트폰과 태블릿, 새로운 디지털 기기로 인해 디지털 컨텐츠의 생산이 매우 활발해졌다.

 

 데이터를 생성하고 모으고 저장하는 저렴하고 쉬운 방법들의 등장은 개인과 기업의 필요에 부응해 데이터의 증가를 가속화했으며, 이른바 데이터 폭발(data explosion)을 불러일으켰다. 개인과 비즈니스는 각자 이 데이터 폭발에 기여하고 있다.

 

 데이터의 중요성과 가치는 시간에 따라 변화한다. 대부분의 데이터는 단기간만 중요성을 지니며 시간이 지날수록 가치는 떨어진다. 이는 사용할 데이터 스토리지 솔루션에 영향을 준다. 보통 더욱 많이 사용될 최신 데이터는 빠르고 비싼 스토리지를 사용한다. 시간이 지나면 이 데이터는 좀 더 느리고 저렴하지만 안정적인 스토리지로 옮겨진다.

 

 비즈니스는 상당히 많은 데이터를 만들어내고 경제적인 이득을 얻기 위해 이 데이터로부터 의미 있는 정보를 추출한다. 따라서 비즈니스는 데이터를 관리하고 장기간 사용할 수 있어야 한다. 또한 데이터는 위험도에 따라 분류할 수 있으며, 특별 관리가 필요한 데이터도 있다. 예를 들어 은행은 고객의 계좌 정보를 정확하고 안전하게 관리해야 하는 법적인 규제사항이 있다. 어떤 비즈니스에서는 수백만 건의 고객 데이터를 다루며, 장기간 이 데이터를 안전하고 정확하게 유지해야 한다. 이는 강화된 보안 기능을 갖추고 데이터를 장기간 보관할 수 있는 고성능 대용량 스토리지 디바이스를 필요로 한다.

 

 다음은 연구비즈니스 데이터의 예다.

 

- 고객 데이터

주문 내역, 배송 주소, 구매 내역 등 회사 고객과 관련된 데이터

 

- 제품 데이터

재고와 설명, 가격, 사용 가능 여부, 판매량 등 제품에 관련된 여러 측면의 데이터

 

- 의학 데이터

환자 히스토리, 방사선 이미지, 약 처방과 치료 세부 내역, 보험 정보 등 의료 산업 관련 데이터

 

- 지진 데이터

지진학은 지진을 연구하는 과학 분야다. 이 분야에서는 지진의 위치와 강도를 예측하기 위한 정보를 얻기 위해 데이터를 수집하고 분석한다.

 

 데이터는 저장과 관리 방식에 따라 구조적 데이터와 비구조적 데이터로 나뉜다. 구조적 데이터는 행(row)과 열(column)로 조직돼 엄격하게 정의된 형태를 따르기 때문에 애플리케이션이 효율적으로 추출하고 처리할 수 있다. 구조적 데이터는 보통 데이터베이스 관리 시스템(DBMS, database management system)에 저장한다.

 

 데이터 요소를 행과 열로 저장할 수 없으면 비구조적 데이터라 한다. 비구조적 데이터는 애플리케이션이 질의하고 검색하기 어렵다. 예를 들어 고객 연락처는 메모나 이메일, 명함 또는 .doc, .txt, .pdf 같은 다양한 디지털 포맷으로 저장할 수 있다. 이런 데이터는 비구조적 성질 때문에 전통적인 고객 관리 애플리케이션을 사용해 데이터를 검색하기 어렵다. 오늘날 새롭게 만들어지는 데이터의 대부분은 비구조적 데이터다. 산업계는 다양한 소스로부터 생성되는 비구조적 데이터를 저장하고 관리하고 분석하며, 가치를 이끌어내기 위한 새로운 아키텍처와 기술, 기법을 개발해야 하는 과제에 직면해 있다.

 

 빅데이터(big data)는 최근 새롭게 떠오르는 개념으로, 기존의 데이터 처리 소프트웨어로는 허용된 시간 내에 데이터를 얻고, 저장, 관리, 처리할 수 없는 크기의 데이터 셋을 말한다. 이는 비즈니스 애플리케이션 트랜잭션과 웹 페이지, 비디오, 이미지, 이메일, 소셜 미디어 등의 다양한 데이터 소스에서 생성되는 구조적, 비구조적 데이터를 모두 포함하는 개념이다. 이 데이터 셋은 보통 분석, 예측 모델링, 의사결정을 위해 실시간으로 생성되건 업데이트되는 데이터다.

 

 빅데이터는 새로운 가치를 이끌어낼 무궁무진한 가능성이 있다. 빅데이터 생태계의 구성요소는 다음과 같다.

 

- 여러 장소에서 데이터를 수집하고 이 데이터에 대한 새로운 데이터(메타데이터)를 만들어내는 디바이스

 

- 디바이스와 사용자로부터 데이터를 수집하는 데이터 수집기

 

- 의미 있는 정보를 추출하기 위해 수집한 데이터를 처리하는 데이터 애그리게이터(aggregator)

 

- 데이터 가치 사슬에서 다른 사람이 수지하고 처리한 데이터를 이용할 데이터 사용자와 구매자

'IT > Storage' 카테고리의 다른 글

RAID  (0) 2022.06.29
볼륨 매니저와 파일 시스템  (0) 2022.06.29
DBMS와 호스트  (0) 2022.06.29
가상화와 클라우드 컴퓨팅  (0) 2022.06.29
스토리지 아키텍처  (0) 2022.06.12

+ Recent posts