Home 주요 질병 사망자 및 보건 환경 비교
Post
Cancel

주요 질병 사망자 및 보건 환경 비교

주요 질병 사망자 및 보건 환경 비교

프로젝트 최종 결과물

대시보드 Streamlit

원본 저장소: Mini_Project/8. CAoMDDaHE at main · nuyhc/Mini_Project

https://images.unsplash.com/photo-1581056771107-24ca5f033842?ixlib=rb-1.2.1&q=80&cs=tinysrgb&fm=jpg&crop=entropy

목차

1. 프로젝트 소개 (목표 / 주제 / Timeline)

  • 목표 : ‘전 팀원이 함께’ 하는 ‘데이터 전처리 / EDA / 시각화 연습’
  • 주제 : 국가 별 보건 환경 비교를 통한 주요 질병 사망률 데이터 분석 KOSIS에서 제공하는 국가 별 보건/복지 관련 데이터를 이용해, 국가 별 연간 질병 사망자 수와 의료 인프라 간 관계를 분석하고 결과를 시각적으로 표현함

2. EDA한 데이터

데이터획득 경로shape (원본)shape(전처리 후)DataFrame 명
1. 10만 명 당 주요 사망 원인 별 사망률KOSIS 다운로드(109716, 5)(18507, 8)df_death_rate
2. 의료 종사자 수KOSIS 다운로드(5820, 4)(1829, 7)df_Nmw
3. 보건 관련 지출KOSIS 다운로드(760, 25)(3192, 5)df_sevice
4. 보건 서비스 지출액KOSIS 다운로드(5868, 6)(3788, 5)df_sevice_common
5. 의약품 판매액KOSIS 다운로드(699, 3)(4724, 5)df_medicion
6. 의약품 소비량KOSIS 다운로드(6869, 4)(5351, 4)df_medicion
7. 공공 사회 복지 지출KOSIS 다운로드(893, 5)(608, 5)df_welfare
8. geojson 데이터github--countries.geo.edited.json
 github--countries.json
9. OECD 국가의 주요 지표 - GDPKOSIS 다운로드(836, 5)(836, 2) 
10. 환율(OECD)KOSIS 다운로드(563, 4)(563, 2) 

3. 분석 과정 및 결과

a. 사용 라이브러리

1
2
3
4
5
6
7
8
9
10
11
import glob
import numpy as np
import pandas as pd
# 분석 결과 시각화
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt
import cufflinks as cf
import folium
from folium.plugins import MarkerCluster
import json

b. 데이터 분석 범위 설정 (기간/국가)

사망률 및 보건 인프라 분석에 사용할 10개 데이터 셋을 선정하며, 두 가지 문제점을 발견함

  • i) 데이터 셋마다 수록 기간이 상이함
  • ii) Raw data 출처에 따라, 데이터가 제공하는 나라 리스트가 상이함
    • 일부는 OECD 국가를 대상으로 함
    • 반면 WHO 데이터를 집계한 경우, 훨씬 광범위한 나라를 다루고 있음

본 프로젝트는 ‘질병에 따른 사망률’과 ‘다양한 보건 인프라’ 간의 관계를 분석해보기 위함이므로, 10개 데이터 셋이 공통으로 제공하는 기간과 국가를 대상으로 분석 범위를 설정함

  • i) 분석 대상 기간 : 1998년 - 2019년
  • ii) 분석 대상 국가 : 아시아/유럽/북아메리카/오세아니아 28개국
1
2
3
4
5
6
7
8
# 교집합 이용
country_intersecion = set(df_1) & set(df_2) ...
# 최종 리스트 선정
country_intersection = ['룩셈부르크',  '네덜란드',  '영국',  '이탈리아',  
	'캐나다',  '오스트레일리아',  '한국',  '일본',  '스페인',  '헝가리',  '독일',  
	'에스토니아',  '그리스',  '슬로바키아',  '핀란드',  '벨기에',  '체코',  
	'슬로베니아',  '프랑스',  '스웨덴',  '노르웨이',  '뉴질랜드',  '라트비아',  
	'덴마크',  '오스트리아',  '포르투갈',  '아일랜드',  '아이슬란드']

c. 프로젝트에서 분석한 내용

  • 결측치 확인
  • 중복값 확인
  • 데이터 타입 확인
  • 이상치 확인
  • 전체 수치 변수의 히스토그램 그리기
  • 수치 데이터 기술통계 구하기
  • 범주 데이터 기술통계 구하기
  • 파생변수 만들기
  • 데이터 프레임 병합
  • 상관계수 구하기
  • 빈도수 구하기
  • groupby, pivot_table 등을 통한 데이터 집계
  • 기타

d. 데이터 EDA 및 분석 결과

  • 0) 전처리 완료 - 최종 DataFrame 요약

    1
    2
    3
    4
    5
    6
    7
    
      # 활용 데이터 별 shape
      df_death_rate: 		  (18507, 8)
      df_Nmw: 		        (1829, 7)
      df_service: 		    (3192, 5)
      df_service_common: 	(3788, 5)
      df_medicion: 		    (4724, 5)
      df_welfare: 		    (608, 5)
    
    1
    2
    3
    4
    5
    6
    7
    
      # 활용 데이터 별 column 정보
      df_death_rate: 		  ['국가' '질병명' '연도' '성별' '사망률' '국가영문' '위도' '경도']
      df_Nmw: 		        ['국가' '연도' '직업' '수' '국가영문' '위도' '경도']
      df_service: 		    ['국가별' '항목' '데이터값' '연도' '국가영문']
      df_service_common: 	['대륙' '국가' '항목구분' '연도' '서비스비용(백만$)']
      df_medicion: 		    ['국가' '연도' '의약품' '의약품소비량' '의약품판매액']
      df_welfare: 		    ['대륙' '국가' '연도' 'GDP(10억$)' '복지비용(10억$)']
    
    1
    2
    3
    4
    5
    6
    7
    
      # 결측치 확인 - dataframe_name.isnull().sum().sum()
      df_death_rate: 		  0
      df_Nmw: 		        0
      df_service: 		    0
      df_service_common: 	0
      df_medicion: 		    0
      df_welfare: 		    0
    
    1
    2
    3
    4
    5
    6
    7
    
      # 중복 확인 - dataframe_name.duplicated().sum()
      df_death_rate: 		  0
      df_Nmw: 		        0
      df_service: 		    0
      df_service_common: 	0
      df_medicion: 		    0
      df_welfare: 		    0
    

i) 주요 사망 원인 EDA 및 시각화

**folium을 이용한 지도 시각화**

png

지도 위에 각 국가 별 데이터 행 수를 표현해 보았음. 데이터 수의 차이는 북아메리카/유럽/아시아/오세아니아 각 대륙 별로 데이터를 제공하고 있는 국가 수의 차이에서 주로 기인함.

  • 국가 별 사망률(/10만 명)

png

대부분 국가에서, 현대로 가까워질 수록 사망률이 감소함.

  • 질병에 따른 사망률(/10만 명)

png

당뇨병, 암, 심혈관계 질환 등. 초기에 높은 숫자를 기록했던 주요 질병으로 인한 사망률이 시간이 흐름에 따라 빠르게 감소하는 걸 확인함. 이 역시 항암제 등 의약품 및 의료 기술의 개발 등이 사망률 감소로 이어졌을 거라 예상하였으며, ‘의료 종사자 수’ 및 ‘의약품 소비량’ 데이터와 연관지어 위의 (가설1)을 검증하려 함.

  • 나라 별, 질병 종류에 따른 사망률(/10만 명) 분포

png

위의 분석과 마찬가지로, 대체로 심혈관 질환 혹은 악성신생물(암)이 사망 원인에 높은 비율을 차지함을 시각적으로 확인할 수 있음.


결론 및 한계

  • 결론 : 국가의 성격에 관계없이 시간이 흐르며 전반적으로 사망률이 감소하는 추세를 보임. 이에 대해 아래와 같은 가설을 설정하고, 관련된 데이터(df_medicion)를 분석하여 기술 발전에 따른 ‘의약품 소비df_medicion’ 변화가 ‘사망률df_death_rate’ 변화와 어떤 상관 관계를 가지는 지 확인해 보고자 함.
  • 가설 1. 기술 발전에 따른 보건 인프라 증대(의약품, 의료 환경, 보건/복지 기관 투자 등)
    → 질병 예방/치료 효과 개선 → 질병에 따른 사망률 감소

  • 가설 검증을 위한 과제

종류 별 의약품 소비량과 질병 종류에 따른 사망률 데이터 관계 분석

  • 한계 : 분석에 이용하기로 한 KOSIS 데이터(10만 명 당 사망률, df_death_rate) EDA 결과 아래 그래프와 같이 2017-2018년에 생산된 데이터가 0에 가까움을 알 수 있음. 또한 2014년도를 기점으로 집계에 사용된 데이터 수가 급격히 감소함. 이처럼 균일하지 못한 데이터가 결과 해석에 의도치 않은 오류를 낳을 수 있음.

또한 본 분석에 활용한 의약품 소비량 데이터(df_medicion)의 경우, 각 약품 종류 별 수량 정보를 포함하고 있지만, 신규 의약품 등 기술 발전에 대한 정보는 포함하고 있지 않음

10만 명 당 사망률 데이터 - 연도 별 집계된 데이터 사례의 수

10만 명 당 사망률 데이터 - 연도 별 집계된 데이터 사례의 수

ii) 의료 종사자 수 EDA 및 시각화

**folium을 이용한 지도 시각화**

(의료 종사자 직업에 따른 분포를 한 눈에 시각화 하기 위해, 원의 크기와 색깔을 활용함)

  • 원의 크기 : 해당 년도, 직군 별 종사자 수
  • 직업에 따른 색 구분 : 의사 (빨간색), 간호사 (회색), 치과의사 (보라색), 약사 (파란색)

  • 연도별 의료 인력 수 (직업 별 구분)

연도별 의료 인력 수 (상세).png

직업 별 의료 종사자 수를 연도 별로 집계한 결과, 아래와 같은 결론을 얻었음

  • 직업 별, 인력 수 변화에 차이가 있음
    • 의사/ 간호사 : 현대로 올 수록 국가 별 종사자 수가 증가
    • 치과의사 / 약사 : 시간에 관계없이 대체로 비슷한 수준을 유지
  • 각 직업 종사자 수 추이에 대해, 격년 주기로 일정한 증감 트렌드가 존재

이에 대해 직업*연도 별 데이터 수를 확인한 결과, 해마다 데이터가 생산된 국가 및 집계 수준(데이터의 양)이 상이함. 따라서 더 정확한 추세를 확인해보기 위해, 매 해 의료 인력 수를 조사한 국가를 추출하여, 시간에 따른 변화를 다시 살펴보기로 함.

  • 매년 집계된 국가 기준, 연도 별 의료 인력 수 조사

매년 집계된 데이터 기반.png

위에서 나타나던 2년 주기의 증가/감소 트렌드는 더 이상 확인되지 않으며, 앞선 결과와 동일하게 의사/간호사의 경우 지속적으로 종사자 수가 증가하는 반면, 치과의사와 약사 인력의 수는 일정한 수준으로 유지되고 있음을 확인함

매년 집계된 데이터 기반.png


결론 및 한계

  • 결론 : 시간이 지날수록 세계적으로 의사와 간호사 수가 증가하고 있음. 반면 치과의사와 약사는 비슷한 인력 수준을 유지하는 데, 생명에 직결되는 임상 현장과 밀접한 관계를 가지는 직업이 의사/간호사라는 점을 고려할 때 이러한 인력의 변화는 사망률 개선에 영향을 미칠 수 있을 것으로 판단됨. 따라서 다음과 같은 가설을 설정하여 분석해 보고자 함.
  • 가설 2. 임상 현장 근무 의료 종사자 수 증가 → 질병에 따른 사망률 감소
  • 가설 검증을 위한 분석 과제

1) 의료 종사자 수 (df_Nfw)와 사망률 데이터(df_death_rate) 간 관계 분석

  • 한계 : 매 년 데이터가 수집된 국가와 직군 별 데이터 수가 상이함.

직업군별 인력수.png

iii) 보건 관련 지출 EDA 및 시각화

  • 보건 관련 지출 항목
1
2
3
4
5
6
7
8
9
10
* 경상보건비 : 매년 소비되는 의료 상품과 서비스를 포함하는 비용
- 보건 관련 지출에 포함된 항목
**1. 경상(GDP 대비%)** 
1. 공공(경상보건비 대비%)
2. 본인부담(경상보건비 대비%)
3. 외부보건비(경상보건비 대비%) : 경상보건지출  외부 지원 자금의 비율.
    (정부  비정부 기구, 기타 계획을 포함해 국가보건시스템으로 유입되는 모든 재정 포함)
4. 1인당 보건지출(US$)
**6. 1인당 보건지출(PPP)(US$)** 
   *PPP : 민관협력(Public Private Partnership)

KOSIS에서 제공하고 있는 보건 관련 지출 항목에는 위와 같이 6가지가 있음. 이 중 경상보건비 대비 비율로 제공되는 2번의 공공(경상보건비 대비 %)의 경우, 뒤에서 진행할 공공사회복지 지출 및 복지 서비스 지출과 중복되는 부분이 있다 판단되어 분석 항목에서 제외하였음.

또한 국가적인 지원도 중요하지만 질병의 치료, 사망률과 더 밀접하게 연결되는 지표는 개인이 지불하는 서비스 비용이라 판단하였음. 따라서 3-4번의 본인부담 및 외부보건비용보다, 1인당 보건 지출을 고려하였으며, 이 때 국가/민간 중심의 의료 등, 국가의 성격에 따라 데이터에 발생할 수 있는 편향성을 고려하여 민관협력 환경이 고려된 PPP 데이터를 중심으로 분석을 진행함.

  • 한국의 경상(GDP 대비%)

png

  • 한국의 1인당 보건지출($)

png

  • 한국의 인당 보건지출 - 경상(GDP 대비%) 비교

png


결론 및 한계

  • 결론 : 한국을 비롯하여 많은 나라가 GDP 대비 경상보건비 지출 비율을 늘리고 있음. 한 국가에서 소비되는 의료 상품과 서비스 비용이 증가함에 따라, 국민들이 제공받는 의료 서비스의 품질과 기회가 증가할 것으로 예상됨. 따라서 따라서 본 가설을 설정하여 분석해 보고자 함.
  • 가설 3. 보건 관련 지출 증가 → 질병에 따른 사망률 감소
  • 가설 검증을 위한 분석 과제

1) 보건 관련 지출 (df_service)와 사망률 데이터(df_death_rate) 간 관계 분석

  • 이 때 df_service1인당 보건지출(PPP)(US$) 항목을 중심으로 분석함

  • 한계 : 1998-1999년 그리고 2018년 이후 데이터가 없음. 다른 데이터와의 상관 관계를 분석함에 있어 영향을 미칠 수 있음

  • iv) 의약품 소비 EDA 및 시각화

  • 연간 의약품 소비량 (규정 1일 사용량, 천 명당)

연간 의약품 소비량 (단위: 규정 1일 사용량, 1,000명당)

연간 의약품 소비량 (단위: 규정 1일 사용량, 1,000명당)

연간 의약품 소비량은 지속적으로 증가하다, 2020년에 들어 급격하게 감소하는 모습을 보임. 하지만 본 프로젝트에서는 데이터 셋 간 상관 관계 분석을 위해 1998년 - 2019년으로 분석 범위를 설정하였으므로, 위 감소 부분에 대해서는 향후 추가 분석으로 진행할 예정임.

  • 국가별 의약품 소비량

스크린샷 2022-06-11 오전 3.38.53.png
위 그래프에서 일본/아일랜드/뉴질랜드 의약품 소비량이 눈에 띄게 낮은 걸 알 수 있음.

이유 분석을 위해 각 데이터를 확인한 결과, 국가 간 데이터 품질의 편차로 인해 다른 나라에 비해 수집된 데이터 양 자체가 적었음을 확인하였음.

  • 일본/아일랜드/뉴질랜드 의약품 소비량

일본 의약품 소비 데이터
일본 의약품 소비 데이터

아일랜드 의약품 소비 데이터
아일랜드 의약품 소비 데이터

뉴질랜드 의약품 소비 데이터
뉴질랜드 의약품 소비 데이터

  • 의약품 종류 별 연간 소비량

스크린샷 2022-06-11 오전 3.34.03.png
본 프로젝트 대상기간(1998-2019년) 데이터에 대해, 다른 의약품에 비해 소화관 및 신진대사 의약품 소비량이 월등하게 높았음.

  • 연간 국가별 의약품 소비량

스크린샷 2022-06-11 오전 3.44.05.png

다른 데이터와 달리, 국가 별로 소비량 변화 추세가 너무 상이하여 결과 해석이 어려움. 따라서 대륙을 기준으로, 한국을 포함한 아시아 의약품 소비량을 중점적으로 분석해보고자 함.

  • 연간 아시아 국가 의약품 소비량

스크린샷 2022-06-12 오전 8.41.52.png

이 때, 아시아 국가의 경우 2000년 초반부터 의약품 소비 데이터가 집계되기 시작했으며, 한국은 2008년도부터 해당 통계를 생산하기 시작함. 위 그래프를 통해 국가 별 데이터 집계 기간이 상이함을 알 수 있음.


결론 및 한계

  • 앞의 연도 별 사망률 분석에서 시간이 지날수록 사망률이 점점 낮아지고 있음을 확인했음. 보통 질병 치료를 위해 의약품을 섭취하는 만큼, 사망률의 감소와 의약품 소비량 증가는 밀접한 관계가 있을 거라 예상하여, 본 가설을 설정하였음.
  • 가설4. 의약품 소비량 증가 → 질병에 따른 사망률 감소
  • 가설 검증을 위한 분석 과제

1) 의약품 소비 데이터 (df_medicion)와 사망률 데이터(df_death_rate) 간 관계 분석

  • 의약품 판매액 데이터를 함께 고려하였으나, 소비량과 달리 종류 별 판매액 자료를 제공하지 않아 최종 분석에서 제외하였음.

  • 한계 : 아시아 데이터의 경우 2000년대에 들어서야 집계되기 시작하여 총 소비량 분석에 있어 급격한 변화 등 잘못된 판단을 유발할 수 있으며, 다른 데이터와의 관계 분석에도 영향을 미칠 수 있음.

또한 WHO가 지정한 28개 항목에 대한 의약품 정보만 제공하고 있으므로, 상관관계 분석을 위해 다른 데이터와 합칠 때 오류가 생길 수 있음. 예를 들어, 본 분석에 활용한 의약품 소비 데이터, df_medicion에서는 ‘항암제’에 대한 데이터가 포함되지 않은 반면, 사망률을 다루는 df_death_rate에서는 암이 사망 원인 상위 항목을 차지하고 있음.

유사하게 의약품 소비량 단위인 ATC와 DDD는 유럽을 중심으로 구성된 코드로, 국내 전용 약품 분류 기준과 맞지 않아 측정되지 못한 값 또한 존재함.

v) 공공사회복지 지출 EDA 및 시각화

  • 28개국 공공사회복지비용 지출 추이

모든 데이터 셋이 공통으로 포함하는 28개국에 대하여, 공공사회복지 지출을 분석함. 이 때, KOSIS 에서 주어지는 지출 데이터는 ‘금액’ 기준이 아닌, ‘GDP 대비 %’로 집계 데이터를 추가로 분석하기 자유롭지 않고, 실제 금액의 대소를 직관적으로 파악하기 어렵다고 판단함.

따라서 KOSIS GDP 데이터 (OECD 국가의 주요 지표)를 불러와 금액 기준 파생변수 생성함.

  • 데이터 전처리 (비율 데이터 > 금액으로 환산, % of GDP -> 10억$)
  • 원본 데이터 형태 (df_welfare)

png

국가 별 GDP 규모가 달라, % 가 더 높더라도 실제로 지출되는 공공사회복지비용의 규모는 작을 수 있음. 또한 % 값을 기준으로 대륙 별로 데이터를 가공하거나 하는 경우, 해석에 오해가 생길 수 있어, 아래와 같이 df_welfare, df_gdp (GDP데이터) 사이 동일한 key 값을 생성하여 merge해 줌.

1
2
3
# 3. % of gdp > 금액 환산 위해 : key  값 생성 + merge
df_welfare['key_gdp'] = df_welfare['국가']+df_welfare['연도'].astype(str)
df_welfare = df_welfare.merge(right = df_gdp, how = 'left', on = 'key_gdp')  
  • 금액 기준 파생변수(GDP(10억$)) 생성

png

  • 데이터 기술통계 확인

png

복지비용(10억$) 컬럼을 보면, 분포가 크고 다소 왼쪽으로 쏠려있음을 알 수 있음. 분포를 그려보았을 때, 예상했던 것처럼 오른쪽으로 꼬리가 긴 형태가 됨을 확인함.

  • 중위값 : 6377.540000 < 평균 : 22079.815236
  • 최솟값 : 79.230000, 최댓값 : 400800.840000

skewness = 4.5640147937318805

skewness = 4.5640147937318805

연도 별 28개국 공공사회복지비용 추이 (단위: 10억$)

연도 별 28개국 공공사회복지비용 추이 (단위: 10억$)

연도 별 지출 변화의 전체적인 추세 분석 결과, 위와 같이 2017-2019년도 사이에 지출 총액의 25% 가량이 감소한 걸 확인할 수 있음. 그 이유가 단순히 데이터 수집의 문제인지, 혹은 전쟁/전염병 등 외부 요인의 영향인지 확인해보기로 함.

  • 2017년도 -> 2018년도 공공사회복지 지출 감소 원인 분석

감소 원인을 알아보기 위해 17년도-18년도 사이 데이터 차이를 알아보았음.

1) 18년에 데이터 수집에서 제외된 국가 : 일본/오스트레일리아

1
2
3
4
5
# 17-> 18년도 제외 국가
set(df_welfare.loc[df_welfare['연도']==2017, '국가'].unique()) 
- set(df_welfare.loc[df_welfare['연도']==2018, '국가'].unique())
# 17-18년도 감소액 총액 대비, 두 나라 복지지출액이 차지하는 비율 산출
aus_jp_2017 / (sum_2017- sum_2018) * 100
  • 2017년 총 지출 금액 대비, 두 나라가 차지하는 비율 : 약 13%
  • 2018년 총 감소 금액 대비, 두 나라의 2017년도 지출 비용 합의 비율 : 약 164%

즉, 전체 지출 비용 감소는 데이터 집계 국가의 차이에서 주로 기인함을 알 수 있음.

1) 나머지 26개국 복지 비용 증감 분석 시, 1998-2016년 추세와 같이 증가하고 있음을 확인함. 대륙 별 전년 대비 비용 증감을 집계한 결과는 다음과 같음.

2017 > 2018년도 대륙 별 공공사회복지지출액 증감 요약

2017 > 2018년도 대륙 별 공공사회복지지출액 증감 요약

  • 2018년도 -> 2019년도 공공사회복지 지출 감소 원인 분석

2018-2019년도 감소액에 대해서도, 2017-18년도와 동일하게 원인 분석을 진행하였음.

1) 2019년에 데이터 수집에서 제외된 국가 : 뉴질랜드/스위스/캐나다

  • 2018년 총 지출 금액 대비, 세 나라가 차지하는 비율은 : 약 5%
  • 2019년 총 감소 금액 대비, 세 나라의 지출 비용의 비율 : 약 187%

즉, 2018년도와 마찬가지로 비용 감소 경향은 데이터 집계 국가 차이에서 주로 기인함을 알 수 있음.

1) 세 나라를 제외한, 나머지 23개국의 복지 지출액 증감을 분석한 결과, 2018년도 대비 증가 규모는 감소하였지만 여전히 모든 대륙에서 복지 비용을 늘렸음을 알 수 있음.

2018 > 2019년도 대륙 별 공공사회복지지출액 증감 요약

2018 > 2019년도 대륙 별 공공사회복지지출액 증감 요약


결론 및 한계

  • 2018-19년 동안 데이터를 집계하지 않은 5개국 제외, 23개국 데이터에 대해서 연도 별 총 복지 비용을 분석한 결과, 전반적으로 공공사회복지 지출 증가하고 있음을 확인할 수 있음.

5개국 제외. 23개국 공공사회복지비용 추이 (단위: 10억$)

5개국 제외. 23개국 공공사회복지비용 추이 (단위: 10억$)

이 때 공공사회복지비용은 의료보험 등 보건 관련 항목을 포함하고 있기 때문에, 이러한 증가 추세는 역시 유병률 혹은 사망률 개선 효과로 이어질 수 있을 것이라 판단함. 따라서 다음의 가설5를 수립하였음.

  • 가설 5. 공공사회복지 지출 증가 → 질병에 따른 사망률 감소
  • 가설 검증을 위한 분석 과제

1) 공공사회복지 지출 (df_welfare)와 사망률 데이터(df_death_rate) 간 관계 분석

  • 한계 : 사회 복지 비용의 경우, 보건 항목 외에도 다양한 분야의 복지 내용을 포함하고 있기 때문에 온전한 관계 분석에 어려울 수 있음.

  • vi) 보건 서비스 지출 EDA 및 시각화

  • 보건 서비스 지출의 특성

공공사회복지지출과 다르게 소득 등 특정 기준을 만족하는 국민들에게만 제공됨

1
2
3
4
5
 ***공공사회복지 지출(Public Social Expenditure)***
공공사회복지 지출은 가구나 개인이 복지에 불리한 환경에 처해있는 동안 공적제도에 의한 사회적 급여나 재정적 지원을 말하며, 지출항목은 노인, 유족, 근로무능력관련 급여, 보건, 가족, 적극적 노동시장 프로그램, 실업, 주거, 기타로 분류됨.
- 일반정부 지출(공공부조, 사회보상, ***사회복지서비스***) 
- 사회보험 지출(공적연금, 건강보험, 산재보험, 고용보험, 장기요양보험)
- 공기업의 취약계층 요금 감면
1
2
3
4
5
6
7
8
 ***복지서비스 지출 - 세부 항목 구분***
1. '보건 당기 지출'
 1. '치료 및 재활 치료'
 2. '장기 치료'
2. '의료품'
3. '예방치료'
4. '보건 보조 서비스'
5. '정부의료체계 및 재정행정'
  • 보건 서비스 지출 분석
  • 전체적인 추세와 함께 사회 복지 서비스 지출의 대소를 한 눈에 파악해보고자 막대 그래프로 연간 비용을 대륙 별로 표현한 결과, 2018 → 2019 년에 아시아와 오세아니아에서 눈에 띄게 지출이 감소했음을 알 수 있음.

대륙 별 사회복지서비스 지출 총액 변동 추이 (단위 : 백만$)

대륙 별 사회복지서비스 지출 총액 변동 추이 (단위 : 백만$)

이에 특히 어느 나라에서 지출이 크게 감소했는지 확인을 위해 나라 별로 분석을 진행함.

국가 별 사회복지서비스 지출 총액 변동 추이 (단위 : 백만$)

국가 별 사회복지서비스 지출 총액 변동 추이 (단위 : 백만$)

  • 이 경우, 앞선 (공공사회복지 지출) 경우와 다르게 데이터 생산 년도에 따른 국가 차이는 없었으나, 일본과 벨기에가 눈에 띄게 감소하는 걸 볼 수 있음. 따라서 일본을 중심으로 지출 감소 원인을 분석해 봄.
  • 2018년도 -> 2019년도 일본 사회복지서비스 지출 감소 원인 분석

서비스 항목 별 사회복지서비스 총액 증감 (단위 : 백만$)

사회 복지 서비스 구분 항목 별 증감을 보면, 보건 당기 지출을 제외한 모든 비용이 감소했음을 알 수 있음. 그 중 특히 치료 및 재활 치료, 장기 치료, 의료품 등 치료에 관한 항목이 크게 감소했음.

서비스 항목 별, 시간에 따른 사회복지서비스 총액 증감 추이 (단위 : 백만$)

서비스 항목 별, 시간에 따른 사회복지서비스 총액 증감 추이 (단위 : 백만$)

이에 대해 원인을 알아보기 위해 라인 그래프로 증감을 표현했고, 2019년도에 들어 보건 당기 지출을 제외한 모든 항목이 삭제되었음을 확인했음.

→ 단, 단순히 데이터 생산 과정에서 항목 분류 방식에 차이가 있던 건지, 국가 내부의 이유로 보건 당기 지출을 제외한 전 예산을 삭제한 것인지는 추가 확인이 필요함

  • 스웨덴 등 복지 국가로 흔히 알려진 북유럽보다 스페인, 이탈리아 등 남유럽이 높은 복지 서비스 지출액을 보이고 있음.
  • 이탈리아, 그리스 : 정부의 복지 지출 가운데 상당 부분이 연금과 의료에 치중됨
  • 덴마크, 스웨덴 : 연금과 의료 지출보다, 다른 사회 서비스나 소득 지원 등에 치중됨

결론 및 한계

  • 이탈리아나 그리스와 같은 남유럽 사례를 통해, 복지 서비스 지출이 저소득층의 연금 및 의료 서비스 제공으로 연결됨을 확인하였음.
  • 가설 6. 보건서비스 지출 증가 → 질병에 따른 사망률 감소
  • 가설 검증을 위한 분석 과제

1) 보건서비스 지출 (df_service_common)과 사망률 데이터(df_death_rate) 간 관계 분석


vi) 최종 결론 (데이터 간 상관관계 분석)

  • 28개국 전체 대상

png

  • 가설 1. 기술 발전에 따른 보건 인프라 증대 → 질병에 따른 사망률 감소
  • 가설 2. 임상 현장 근무 의료 종사자 수 증가 → 질병에 따른 사망률 감소
  • 가설 3. 보건 관련 지출 증가 → 질병에 따른 사망률 감소
  • 가설4. 의약품 소비량 증가 → 질병에 따른 사망률 감소
  • 가설 5. 공공사회복지 지출 증가 → 질병에 따른 사망률 감소
  • 가설 6. 보건 서비스 지출 증가 → 질병에 따른 사망률 감소

위 분석 결과를 통해, 사망률과 의료 인프라 간 음의 상관 관계를 띄고 있음을 확인할 수 있음. 의료 인프라 개선이 사망률 감소의 원인임을 설명할 수는 없지만, 이를 통해 관련 환경 변수가 개선될 때 사망률은 감소 추세를 보임을 알 수 있음.

위 결과에서 1인당 보건 지출(PPP, $)의약품 소비량 순으로 사망률과 큰 음의 상관관계를 가짐을 확인할 수 있음.

국내 대상

1) 국내 사망률 - 의료 종사자 수 간 관계 분석

1
2
* 치과의사/약사 : 해에 따른 변동이 거의 없으므로 제외
* 의사/간호사 데이터만 이용

직업 별 의료 종사자 수와 사망률 간 상관관계 분석

직업 별 의료 종사자 수와 사망률 간 상관관계 분석

2) 국내 사망률 - 보건 관련 지출 간 관계 분석

1인당 보건지출($)과 사망률 간 상관관계 분석

1인당 보건지출($)과 사망률 간 상관관계 분석

3) 국내 사망률 - 의약품 소비량 간 관계 분석

  • 질병코드에 따라 아래 5개로 분류하여 상관관계 분석 후 시각화함
  • ‘내분비/대사질환’, ‘소화계통’, ‘순환계통’, ‘정신 및 행동장애’, ‘그 외’
  • 분류 기준 (dictionary 형태로 지정)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# 한국표준질병사인분류 코드에 따라, 데이터 셋 질병명 대분류 정리
# medicine : 호흡계통 데이터 없음 - 그 외로 분류
dict_disease_cat = {'특정감염성 및 기생충성질환': '그 외',
 ' 호흡기결핵': '그 외',
'악성신생물(암)': '그 외',
  '': '소화계통',
' 간 및 간내 쓸개관': '소화계통',
' 기관·기관지 및 폐': '순환계통',
' 유방': '그 외',
'당뇨병': '내분비/대사질환',
'순환기계통의 질환': '순환계통',
' 고혈압성질환': '순환계통',
' 허혈성심질환': '순환계통',
 ' 뇌혈관질환': '순환계통',
'호흡기계통의 질환': '그 외',
'소화기계통의 질환': '소화계통',
' 간질환': '소화계통',
'사망의 외부요인': '그 외',
' 운수사고': '그 외',
' 고의적 자해(자살)': '정신 및 행동장애'}
                
# medicine : 호흡계통 데이터 없음 - 사망률 데이터에서도 '그 외'로 분류
dict_medicine_cat = {'소화관 및 신진대사': '소화계통',
'제산제': '소화계통',
'소화성궤양 및 위장용 약물': '소화계통',
'당뇨 약물': '내분비/대사질환',
 '심장 배당체': '순환계통',
'항 부정맥제': '순환계통',
'이뇨제': '순환계통',
'향균제': '그 외',
'진통제': '그 외',
'수면제 및 진정제':'정신 및 행동장애' ,
'항우울제': '정신 및 행동장애'}

질병 종류에 따른 사망률과 의약품 소비/판매 간 상관관계 분석

질병 종류에 따른 사망률과 의약품 소비/판매 간 상관관계 분석

4) 국내 사망률 - 보건 서비스 지출 간 관계 분석

png


1) 요약

주요 질병에 대한 사망률과 보건 환경 사이 관계 비교를 위해 KOSIS에서 제공하는 10개 데이터를 분석하였음. 28개 국, 22년치 (1998-2019년) 데이터를 이용하였으며, 각자 맡은 데이터를 분석하고 팀원 간 공유를 통해 의견을 합친 결과, 다음과 같은 결론을 얻을 수 있었음.

1
2
3
4
5
6
1998 -> 2019, 최근으로 가까워질 수록
1. 평균 사망률은 감소
2.  세계 보건 인프라는 개선
	- 의료 종사자  증가
	- 보건 관련/보건 서비스/공공사회복지 지출 증가
	- 의약품 소비량 증가 ( 명당, 1 사용 규정량 기준)

따라서 데이터 간 상관 관계 분석을 통해, 사망률과 보건 인프라 지표 사이 상관 관계를 분석해 보았으며, 그 결과 (3. 분석 과정 및 결과 - vi. 28개국 전체 대상)에서 내린 결론처럼 보건 환경 관련 지표와 사망률 사이에 음의 상관 관계가 존재함을 확인함.

위 결과를 통해, 보건 환경 개선을 통해 주요 질병 사망률을 감소시킬 수 있다는 추가 가설을 세울 수 있었음.

또한 전 국민을 대상으로 하는 보건 관련 지출과 특정 계층을 대상으로 하는 보건 서비스 지출 증가가 각각 사망률 증가 / 감소와 상관 관계를 보이는 것으로 보아, 대상을 세분화하여 적절히 타겟팅함으로써 한정된 자원으로 보건 복지 개선 효과를 극대화시킬 수 있다는 가설을 세울 수 있었음.

2) 한계점 및 추가 개선 방향

의약품과 사망률 관계 분석 시, 각 데이터가 다루는 질병의 범주가 상이할 뿐더러 해당 의약품 분류 기준이 유럽을 기준으로 하고 있기 때문에 감기, 암 등 우리나라에서 주요하게 다뤄지는 의약품을 적절히 포함하지 못할 가능성이 있음.

또한 KOSIS에서 제공한 데이터가 잘 되어 있음에도 불구하고, 특정 국가만 보건 데이터가 격년으로 생산되어 있다거나 갑자기 데이터 수집량이 감소하는 등, 생산된 데이터가 균일하지 않다는 점이 결과에 영향을 미쳤을 것 같음. 시계열을 고려한 보간법 등 결측치 처리 방법을 논한 결과, 외부 요인으로 데이터가 정말 급감하였거나 배제되었을 가능성을 고려하여 해당 데이터는 본 분석에서 제외하는 걸로 결정하였지만, 결측치 처리 등 전처리를 방법에 따라 결과가 달라질 수 있으므로 향후 그러한 부분을 공부하여 프로젝트를 확장해보려 함.

This post is licensed under CC BY 4.0 by the author.

22년 6월 2주차 주간 회고

Pima Indian 데이터를 이용한 결정 트리 분류

Comments powered by Disqus.