문서유형ㅣ기술정보

분야ㅣ관리/환경설정

적용제품버전ㅣ7FS02PS

문서번호ㅣTADTI186

개요

본 장에서는 Optimizer가 실행 계획을 수립하는데 영향을 주는 파라미터에 대한 설명과 통계를 측정하는데 있어서 고려해야 할 사항에 대해 설명합니다.

방법

1. Optimizer Statistics 설정

1.1 Data Dictionary

통계 정보를 확인할 수 있는 Data Dictionary는 다음과 같습니다.

 ALL_TABLES
 ALL_INDEXES
 ALL_TAB_STATISTICS
 ALL_TAB_COL_STATISTICS
 ALL_TAB_PARTITIONS
 ALL_TAB_SUBPARTITIONS
 ALL_IND_PARTITIONS
 ALL_IDX_SUBPARTITIONS

참고

통계 정보를 확인할 수 있는 다양한 Static view는 " Tibero 참조 안내서"의 "Static View"를 참고

1.2 파라미터

Optimizer가 실행 계획을 수립하는데 영향을 주는 파라미터의 설정에 신중해야 합니다. 운영 환경의 시스템 및 업무 특성을 파악한 후 해당 업무에 가장 효과적인 설정값을 정하는 것이 중요합니다.

개발 환경에서 테스트한 설정값들이 초반에는 운영 시스템에 적절할 수 있지만 운영 시스템의 사용량이나 기간이 증가할수록 데이터의 특성이 변경될 수 있습니다. 따라서 해당 업무들에 최적화되는 파라미터를 변경하면서 기준을 정해야 합니다.

다음은 Optimizer에 영향을 줄 수 있는 파라미터에 대한 설명입니다.

파라미터	설명
OPTIMIZER_MODE	Optimizer의 Cost 계산 동작을 결정하며 다음과 같이 다섯 가지 모드가 있음 (기본값: ALL_ROWS) • FIRST_ROWS_1 • FIRST_ROWS_10 • FIRST_ROWS_100 • FIRST_ROWS_1000 • ALL_ROWS FIRST_ROWS_n은 n개의 Row를 읽어들일 때 최적인 Plan을 선택하게 하는 것이며, ALL_ROWS는 결과 전체 Row를 읽어들일 때 최적의 Plan을 선택하게 하는 것이 쿼리 결과 Row 개수가 n보다 많더라도 클라이언트에서 n개의 Row만 Fetch한다면 FIRST_ROWS_n 모드로 변경하도록 함
CURSOR_SHARING	Tibero는 다음과 같이 두 가지 모드를 지원한다. (기본값: EXACT) • EXACT: SQL 문자열 전체가 완전히 일치하는 PP가 있는 경우 사용 • FORCE: SQL 문자열에서 상수들을 바인드 문자열로 변환하여 같은 PP를 사용할 수 있도록 해줌 예를 들어 SELECT * FROM T WHERE C=1과 SELECT * FROM T WHERE C=2 두 쿼리가 있을 경우 EXACT는 각각 별도의 실행 계획을 생성하지만 FORCE는 SELECT * FROM T WHERE C=:SYS_B_0 처럼 상수값을 동일 바인드 변수로 바꾸면서 동일한 SQL이 되게 하여 같은 실행계획을 사용하게 됨 만약 FORCE 모드로 할 경우 최대한 쿼리들 간에 실행계획을 공유하게 하여 PP cache 메모리 사용량을 줄일 수 있으나 바인드 파라미터로 바꾸는 내부 작업도 필요하며, SQL 문에 해당 값을 조건문으로 사용하는 Column의 분포도가 불규칙할 경우 Selectivity 계산이 부정확해질 수 있음
_OPT_JOIN_MEMORY_LIMIT	Optimizer에서는 조인에 대해 최대한 다양한 가짓수의 Plan을 만들어봄 n개의 조인 대상이 있을 경우 대상들 간의 순서, 조인 알고리즘 등을 고려하여 가능한 모든 Plan을 생성 하지만 조인 대상이 많아질수록 가짓수는 기하급수적으로 늘어 나기 때문에 Optimizer에서 사용하는 시간이 과다하게 증가하므로 중간에 비효율적인 Plan들은 미리 제거하는데 그 기준이 되는 값(기본값: 5M, 설정값: 1M ~ 50M)) 해당 값을 낮추게 되면 조인 대상이 많은 경우에 대해 Parsing 시간을 단축시킬 수 있음 반면 경우에 따라 좋을 수도 있는 Plan이 중간에 걸러질 수 있는 단점도 있음
_USE_DYNAMIC_SAMPLING	Dynamic sampling 사용 여부를 결정하는 파라미터 (기본 값: Y) • Y : Dynamic sampling을 사용 • N : Dynamic sampling을 사용하지 않음
_DYNAMIC_SAMPLING_CONFIDENCE	Dynamic sampling은 매우 적은 Sample block을 읽어오기 때문에 통계 정보의 정확성이 떨어진다는 단점이 있음 이때 이 파라미터 값을 증가시켜 더 많은 Sample block을 읽어옴으로써 통계 정보의 오차를 줄일 수 있음 (기본값: 50, 설정값: 1 ~ 99)
ENABLE_HASH_JOIN ENABLE_MERGE_JOIN ENABLE_IDX_JOIN ENABLE_HASH_JOIN_FULL_OUTER	조인에 사용되는 알고리즘으로 크게 Hash join, Index join(nested loop join with index), Sort merge join이 있는데 이 때 해당 알고리즘 사용 여부를 지정하는 파라미터 (기본값: Y) 만약 N으로 설정할 경우 해당 알고리즘은 Optimizer의 고려 대상에서 제외됨 _ENABLE_HASH_JOIN_FULL_OUTER(기본값:Y)은 Full outer join 일때 Hash join 사용 여부를 결정하는 파라미터
ENABLE_HASH_GROUPBY ENABLE_SORT_GROUPBY	Group by의 키 Column값들에 대해서 Grouping을 하기 위해 사용되는 알고리즘으로 해시(Hash) 방식과 정렬(Sort) 방식이 있음 (기본값: Y) 만약 이미 정렬된 상태이면 그냥 Group by만 수행하면 되지만 그렇지 않은 경우에는 해시(Hash) 방식과 정렬(Sort) 방식의 알 고리즘을 통해 Grouping을 할 수 있게 다듬어야 하는데 이때 각각의 알고리즘 사용 여부를 결정하는 파라미터 경우에 따라서 Sort group by로 풀렸는데 성능이 잘 나오지 않는 경우 _ENABLE_SORT_GROUPBY=N로 설정
_ENABLE_ISS	Index skip scan 사용 여부를 결정하는 파라미터 (기본값: Y) • Y: 사용함 • N: 사용 안 함만약 N로 하면 힌트를 부여해도 Index skip scan 을 Plan으로 채택하지 않음
_OPT_PGROUPBY_PUSH_RATIO	Parallel로 수행되는 Group by일 경우 최적화를 위해 이중 Group by를 하는 Plan을 만드는 경우가 있음(기본값 :100) Optimizer가 예측하기로 Group by 수행으로 줄어드는 row의 비율이_OPT_PGROUPBY_PUSH_RATIO 퍼센트 이하일 경우 이 중 Group by를 하도록 유도 일반적으로 Parallel 쿼리는 대용량이기 때문에 효율적인 경우가 많음 하지만 경우에 따라 이 중 Group by가 오히려 역효과를 내는 경우가 있음 이 경우에는 해당 파라미터값을 낮춰서(사용하지 않으려면 0으로 설정) Single group by로 처리되도록 함
_OPT_BOUND_SELEC_ADJUST_DEGREE	히스토그램에서 지정된 최댓값, 최솟값 범위를 넘어선 값이 = 조건문으로 사용된 경우 범위를 크게 벗어나지 않는한은 어느 정도 보정된 Selectivity를 부여하는 기능 (기본값: 100) 만약 100으로 설정할 경우 '최댓값 - 최솟값'의 너비 만큼 최댓값 보다 크고, 최솟값보다 작은 범위에 있는 값도 각각 최댓값, 최솟 값이 속한 Bucket의 1/NDV의 Selectivity를 일부 보정하여 계산됨 예를 들어 히스토그램상 최댓값=100, 최솟값=0일 경우 C=101의 조건문이 있을 때 기본 설정상으로는 Selectivity=0이지만, 해당 파라미터를 적용하면 Bucket내 NDV를 적용하여 1/NDV * (일정 보정된 비율)의 Selectivity를 갖게 됨
_SAMPLE_SCAN_SKIP_BLK	SKIP 가능한 블럭이 있는 경우 SKIP 하여 SCAN 하는 기능을 설정하는 파라미터 예를 들어 sample percent가 1%인 경우 1row를 뽑은 후 다음 99row를 뛰어넘는 방식으로 블록을 읽게 되는데 따라서 sample percent가 작거나 하나의 블록에 들어가는 row가 적을 때 효과적인 파라미터 • N: 미사용 (기본값) • Y: 사용
_EX_BLOCK_SAMPLING_LVL	Block sampling 성능 개선을 위한 파라미터 • N: 미사용 (기본값) • Y: 사용

2. 통계 측정의 한계

2.1 부정확한 통계

샘플링 방식으로 수집된 통계는 실제 데이터와 차이가 나기 때문에 완벽한 통계라고 할 수 없습니다. 또한 이전에 수집 된 통계 정보가 정확한 상태로 유지된다고도 볼 수 없습니다. 만약 데이터 갱신이 갑자기 증가하거나 새로 생성되는 Object가 있을 경우 통계 수집을 해야 합니다.

이때 정확한 통계 정보를 가지고도 실행 계획이 비효율적으로 수립되는 가장 흔한 이유는 예측 Row 수가 부정확하기 때문입니다. 또한 정확한 통계 정보를 수집했어도 비효율적인 실행 계획을 수행하고 있다면 통계 정보의 오류가 아니라 통계 정보의 한계입니다.

예를 들어 쿼리 조건절에 사용하는 Like에 %로 계산을 한다면 통계 정보로는 정확한 Selectivity를 예측하기 어렵 습니다. 이런 경우 동적 샘플링을 이용하면 샘플링 과정에서 실제 조건에 들어간 값을 예측하는 효과를 볼 수 있습니다.

2.2 히스토그램 한계

히스토그램의 Bucket 개수가 한정되어 있기 때문에 Height-Balanced 히스토그램을 사용하면 발생 빈도가 낮은 값에 대한 정확한 분포도를 산정할 수 없습니다.

또한 히스토그램의 Bucket 내에 존재하지 않는 값에 대한 Cardinality는 부정확할 수 있다. 만약 Bind 변수를 사용하면 Bind peeking을 활성화하여도 Plan 생성 시점의 변수값과 수행 시점의 변수값이 다를 수 있으므로 역시 100% 정확성을 보장할 수는 없습니다.

2.3 잘못된 비용 산정

통계 정보를 바탕으로 조건절과 조인 조건에 대한 Selectivity와 Cardinality를 계산하고 이를 기준으로 Data Access 방법, Index와 Join 방법(Index, Nested loop, Sort Merge, Hash) 등의 비용을 계산합니다.

하지만 현재의 통계 정보가 Database의 실제 데이터 분포와 다를 수 있고, Selectivity와 Cardinality를 계산할 때 실제 데이터 분포와 일치하지 않을 수 있습니다.

2.4 샘플링 비율

일반적으로 샘플링 비율을 높이면 통계 정보의 정확도가 높아지지만 Null 값이 많고 데이터 분포도가 고르지 않을 경우 정확도가 떨어집니다.

검색

Welcome to Tibero GTS!

Tibero 대용량 시스템 통계 수집 가이드 - 11. Optimizer Statistics 설정 및 통계 측정의 한계

개요

방법

1. Optimizer Statistics 설정

1.1 Data Dictionary

1.2 파라미터

2. 통계 측정의 한계

2.1 부정확한 통계

2.2 히스토그램 한계

2.3 잘못된 비용 산정

2.4 샘플링 비율

업무 외 시간 안내

검색

Welcome to Tibero GTS!

개요

방법

1. Optimizer Statistics 설정

1.1 Data Dictionary

1.2 파라미터

2. 통계 측정의 한계

2.1 부정확한 통계

2.2 히스토그램 한계

2.3 잘못된 비용 산정

2.4 샘플링 비율