2023-02-19
데이터 베이스 기본 개념, 데이터 관리 시스템 DBMS
데이터 베이스 기본 개념과 데이터 분류, 데이터 관리 시스템에 대해 알아보자!
데이터와 정보의 차이
데이터는 가공하기 전의 단순한 사실에 의한 수치(값)을 의미한다.
정보는 데이터를 특정 목적을 위해 유용하게 활용하기 위해 가공한 결과물이다.
데이터를 정보로 가공하는 과정을 정보 처리라 한다.
데이터 베이스
데이터베이스는 여러 사람이 공유할 목적으로 수집, 통합, 관리하는 데이터 집합이다.
데이터베이스로 인해 필요한 정보를 여러 사람이 공유해 언제든지 가공해 추출할 수 있게 한다.
구성 데이터
- 공용 데이터: 데이터 베이스는 특정 조직의 여러 사람들이 함께 소유하고 이용하는 공용 데이터다.
- 통합 데이터: 데이터 중복을 통제가능한 선에서 허용하지만, 일반적으로 허용하지 않는다.
- 운영 데이터: 데이터 베이스는 지속적으로 운영 유지해야 하는 데이터다.
- 저장 데이터: 데이터 베이스 처리는 주로 컴퓨터이므로, 컴퓨터가 접근 가능한 매체에 데이터를 저장해야 한다.
특징
- 실시간 접근: 데이터 베이스는 언제든 실시간 접근할 수 있어야 한다.
- 지속적 변화: 데이터 베이스는 지속적으로 변화한 데이터를 갱신 반영해야 한다.
- 동시 공유: 데이터 베이스는 여러 사용자가 동시에 이용할 수 있는 특성을 가져야 한다.
- 참조: 데이터 베이스는 내용 조건만 제시하면 해당하는 데이터를 참조할 수 있다.
형태에 따른 데이터 분류
데이터를 수집하고 저장하기 위해선 데이터 유형을 파악하는 것은 중요하다.
- 정형 데이터: 미리 정해진 구조에 따라 저장된 데이터다. 이러한 구조를
스키마
라 한다. - 반정형 데이터: 구조에 따라 저장되긴 헀지만
파싱(해석)
이 필요한 데이터를 말한다. 예로 XML, JSON, HTML. - 비정형 데이터: 정해진 구조가 없는 데이터를 의미한다. 예로 영상, 이미지, 음성, PDF.
특성에 따른 데이터 분류
데이터의 가치 있는 정보 추출을 위해선 데이터 특성을 파악하는 것이 중요하다.
- 범주형 데이터: 주로 문자 유형의 값으로 산술이 불가능한 데이터를 말한다. 이를 질적 또는 정성적 데이터라고도 한다.
- 명목형: 서열이 없는 데이터다. 예를 들면 성별이나 MBTI.
- 순서형: 서열이 있는 데이터다. 예를 들면 학년, 회원 등급.
- 수치형 데이터: 산순 연산이 가능한 데이터를 말한다. 이를 양적 또는 정량적 데이터라고도 한다.
- 이산형: 개수를 셀 수 있는 데이터를 말한다. 예로 고객 수, 합격자 수, 회원 수.
- 연속형: 연속적으로 이어진 숫자 데이터를 말한다. 예로 키, 몸무게, 온도 등 소수점이 있는 실수 유형을 말한다.
DBMS(DataBase Management System)
파일 시스템의 중복성
문제와 데이터 종속
문제를 해결하기 위해 탄생한 소프트웨어다.
데이터 베이스 구조
를 정의하거나 이미 정의된 구조를 사용할 수 있다.
사용자의 요구에 따라 데이터 삽입, 삭제, 수정, 검색 연산을 효율적으로 처리한다.
모든 응용 프로그램이 데이터베이스를 공유할 수 있게하고, 동시에 접근해 처리할 수 있게 한다.
장점
데이터를 통합해 관리하므로 중복성
문제를 해결한다. 중복이 가능한 경우는 통제가 가능한 아래 가능하다.
관리 시스템은 응용 프로그램 대신해 데이터베이스에 접근해 구조를 관리하기 때문에,
응용 프로그램과 데이터베이스 사이에 독립성
확보로 종속성
문제를 해결한다.
파일 시스템과 다르게 동시
에 데이터를 공유할 수 있다.
권한이 없는 사용자 접근 허용되지 않는 연산 등 사용자별로 영역을 제한하거나 수준을 차별화 할 수 있어 보안성
이 향상된다.
관리 시스템은 데이터 베이스에 접근하는 방법, 형식 구조를 표준화
하기 쉽다.
DB 장애 발생시 이전 상태로 복구하는 기능(백업)으로 대응이 가능하다.
단점
컴퓨터 자원을 많이 소모하며 사용자 수에 따라 제품 가격도 증가한다.
따라서 관리 시스템을 사용하면 비용이 많이 든다.
모든 데이터가 DB 그리고 관리 시스템에 집중되어 둘 중 장애가 발생하면 시스템 업무가 중단된다.
이를 중앙 집중 관리 형태라 하는데 서비스에 따라 치명적일 수 있다.
파일 시스템 문제
과거에는 파일 시스템을 통해 데이터를 파일로 관리했지만 여러 단점들이 존재했다.
같은 데이터가 여러 파일에 저장될 수 있어 중복성
문제가 발생하고,
응용 프로그램 별로 데이터를 관리해 데이터 불일치가 발생할 수 있는 일관성
문제,
데이터에 특정 규약을 적용하면 모든 응용 프로그램에 적용해야 하고 그렇지 못하면 무결성
문제가 발생한다.
또 응용 프로그램은 파일에 직접 접근해 데이터를 처리하는데 파일의 구조가 바뀌면 프로그램도 함께 변경해야 한다.
응용 프로그램 하나가 사용 중인 파일을 다른 프로그램이 접근하지 못해 동시 공유 기능가 안된다.