Q. 웹상에서 구할 수 있는 북한기업자료는?

산업연구원은 북한의 언론보도를 주기적으로 모니터링하여 북한기업을 목록화하고 있다. 자료의 메타정보는 다음과 같다.

Q. 산업연구원 북한기업자료의 내용은?

2025년 4월 16일 조회한 기업편 자료의 구조는 아래와 같다.

library(readxl, quietly = T)

# dir_ind : 북한기업자료 폴더
firm = read_excel("./_통일연구/_ind/기업_관리_목록_2504161740.xlsx"
                  , col_names = paste0("V",1:17)) 
firm

Q. 자료의 변수 목록은?

위 자료는 17개 변수로 구성되어 있고 변수목록은 다음과 같다.

library(dplyr, quietly = T)

변수목록 = tibble(변수명 = names(firm), 변수내용 = unlist(firm[1, ]))

# 출력
library(knitr, quietly = T)
library(kableExtra, quietly = T) %>% suppressMessages()

kable(변수목록, format = "html", col.names = NULL) %>% 
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    position = "left",
    font_size = 10
  ) %>% row_spec(1:nrow(변수목록), extra_css = "border: none;")
V1 기업고유번호
V2 기업명
V3 내부분류코드
V4 분류 (대대분류)
V5 분류 (대분류)
V6 분류 (중분류)
V7 분류 (소분류)
V8 분류 (소소분류)
V9 산업분류
V10 소재지
V11 좌표
V12 위도
V13 경도
V14 출처
V15 서비스여부
V16 생산·투자보도(2010~현재)
V17 전체보도(2010~현재)

17개 변수를 살펴보면 크게 기업명칭, 기업분류, 기업위치, 출처 및 보도 수로 구분할 수 있다.

Q. 확인 가능한 기업 수와 보도 수는?

2025년 4월 16일 조회 기준 기업 수와 2010년 이후 보도 수는 다음과 같다.

기업수 = nrow(firm) - 1 # 변수 설명 행 제외
기업별보도수 = firm[2:nrow(firm), ]$V17 %>% as.integer()
보도수0건 = nrow(subset(firm, V17 == "0"))

# 숫자 포맷 함수 정의
comma = function(x) formatC(x, digits = 0, big.mark = ",", format = "f")
small = function(x) formatC(x, digits = 1, format = "f", small.mark = ".")

# 출력 값
출력 = c(
  "기업 수" = comma(기업수)
  , "보도 수" = comma(sum(기업별보도수))
  , " -최대" = comma(max(기업별보도수))
  , " -평균" = small(mean(기업별보도수))
  , " -중위" = small(median(기업별보도수))
  , " -최소" = comma(min(기업별보도수))
  , " -표준편차" = small(sd(기업별보도수))
) %>% tibble(항목 = names(.), 값 = .) %>% 
  mutate(
    주석 = 
      ifelse(항목 == " -최대"
             , paste0("전체 보도의 "
                      , small(max(기업별보도수) / sum(기업별보도수) * 100),"%")
             , "")
    , 주석 = 
      ifelse(항목 == " -최소"
             , paste0("전체 기업의 "
                      , small(보도수0건 / 기업수 * 100),"% ("
                      , comma(보도수0건), "개)")
             , 주석)
  )

# 출력
kable(출력
      , format = "html", align = c("l","r","l")
      , col.names = NULL) %>% 
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed")
    , full_width = F
    , position = "left"
    , font_size = 10
  ) %>%
  row_spec(1:nrow(출력), extra_css = "border: none;")
기업 수 3,674
보도 수 86,116
-최대 1,728 전체 보도의 2.0%
-평균 23.4
-중위 2.0
-최소 0 전체 기업의 26.5% (974개)
-표준편차 99.1

산업연구원에서 확인한 기업 관련 ‘2010년 이후 보도’(이하 보도)는 총 86,116건이며, 보도를 통해 확인한 기업은 총 3,674개이다.

기업당 평균 보도 수는 약 23건인데 중위값은 2건에 불과하고 표준편차는 약 99건이므로 일부 기업체가 주요하게 다뤄지고 있을 여지가 있다.

가장 많이 보도된 기업의 보도 수는 1,728건으로 전체 보도 수의 2%에 달한다.

보도가 없는 기업은 974개로 26.5%에 달한다.

Q. 산업분류별 기업 수는?

산업분류별 기업 수를 살펴보면 다음과 같다.

library(stringr, quietly = T)
library(plotly, quietly = T) %>% suppressMessages()

# 집계
결측치정리 = 
  firm[2:nrow(firm), ] %>% # 변수 설명 행 제외
  # 결측치 정리
  mutate(V4 = ifelse(is.na(V4), "미상", V4)
         , V5 = ifelse(is.na(V5), V4, V5)
         , V6 = ifelse(is.na(V6), V5, V6)
         , V7 = ifelse(is.na(V7), V6, V7)
         , V8 = ifelse(is.na(V8), V7, V8)
         , 보도수 = as.integer(V17))

기업수집계 = bind_rows(
  data.frame(노드 = "전체", 부모 = "", n = length(결측치정리$V17))
  , 결측치정리 %>% mutate(노드 = V4, 부모 = "전체") %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
  , 결측치정리 %>% filter(V5 != "미상") %>% mutate(노드 = V5, 부모 = V4) %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
  , 결측치정리 %>% filter(V6 != "미상") %>% mutate(노드 = V6, 부모 = V5) %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
  , 결측치정리 %>% filter(V7 != "미상") %>% mutate(노드 = V7, 부모 = V6) %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
)
# treemap
# 전체
tm = plot_ly(
  type = "treemap", name = "전체"
  , data = 기업수집계 %>% filter(노드 != 부모)
  , ids = ~노드
  , labels = ~노드
  , parents = ~부모
  , values = ~n
  , branchvalues = "total"
  , textinfo = "label+value"
  , maxdepth = 5
  , domain = list(column=0)
  , height = 450
  )

# 중간집계
분류 = c(중분류 = "V5", 소분류 = "V6", 세분류 = "V7")
for (i in 1:length(분류)) {
  중간분류 = 분류[i]
  중간집계 = 기업수집계 %>% 
    filter(노드 %in% unique(결측치정리[[중간분류]]) & 노드 != 부모)
  tm = tm %>% add_trace(
    type = "treemap", name = names(중간분류)
    , ids =  중간집계$노드
    , labels = 중간집계$노드
    , parents = rep(names(중간분류), nrow(중간집계))
    , values = 중간집계$n
    , maxdepth = 3
    , domain = list(row=as.integer(i/2), column=i%%2)
  )
}
 
# 출력
tm %>% layout(grid = list(columns=2, rows=2), autosize = T, font = list(size = 10)
              , margin = list(b = 0, l = 0, r = 0, t = 0))

대분류 기준 제조업 3,012개, 비제조업 629개, 미상 33개이다.

중분류 기준 경공업이 1,674개로 최다이며, 비제조업 중 최다는 광업 399개이다.

소분류 기준 음식료품 및 담배 업종이 790개로 최다이며, 비제조업 중 최다는 수력발전 215개이다.

세분류 기준 곡물 및 기타 식료가공이 453개로 최다이며, 비제조업 중 최다는 탄광 194개이다.

Q. 산업분류별 보도 수는?

산업분류별 보도 수를 살펴보면 다음과 같다.

# 집계
보도수집계 = bind_rows(
  data.frame(노드 = "전체", 부모 = "", n = sum(결측치정리$보도수))
  , 결측치정리 %>% mutate(노드 = V4, 부모 = "전체") %>% 
    group_by(부모, 노드) %>% summarise(n = sum(보도수), .groups = "drop")
  , 결측치정리 %>% filter(V5 != "미상") %>% mutate(노드 = V5, 부모 = V4) %>% 
    group_by(부모, 노드) %>% summarise(n = sum(보도수), .groups = "drop")
  , 결측치정리 %>% filter(V6 != "미상") %>% mutate(노드 = V6, 부모 = V5) %>% 
    group_by(부모, 노드) %>% summarise(n = sum(보도수), .groups = "drop")
  , 결측치정리 %>% filter(V7 != "미상") %>% mutate(노드 = V7, 부모 = V6) %>% 
    group_by(부모, 노드) %>% summarise(n = sum(보도수), .groups = "drop")
)

# treemap 출력
# 전체
tm = plot_ly(
  type = "treemap", name = "전체"
  , data = 보도수집계 %>% filter(노드 != 부모)
  , ids = ~노드
  , labels = ~노드
  , parents = ~부모
  , values = ~n
  , branchvalues = "total"
  , textinfo = "label+value"
  , maxdepth = 5
  , domain = list(row=0)
  , height = 450
  )

# 중간집계
for (i in 1:length(분류)) {
  중간분류 = 분류[i]
  중간집계 = 보도수집계 %>% 
    filter(노드 %in% unique(결측치정리[[중간분류]]) & 노드 != 부모)
  tm = tm %>% add_trace(
    type = "treemap", name = names(중간분류)
    , ids =  중간집계$노드
    , labels = 중간집계$노드
    , parents = rep(names(중간분류), nrow(중간집계))
    , values = 중간집계$n
    , maxdepth = 3
    , domain = list(row=as.integer(i/2), column=i%%2)
  )
}

# 출력
tm %>% layout(grid = list(columns=2, rows=2), autosize = T, font = list(size = 10)
              , margin = list(b = 0, l = 0, r = 0, t = 0))

대분류 기준 제조업 54,394건, 비제조업 31,682건의 보도가 확인된다.

중분류 기준 중화학공업이 33,098건으로 최다이며, 비제조업에서는 광업 20,666건이 최다이다.

소분류 기준 탄광이 14,506건으로 최다이며, 제조업에서는 섬유의류 10,355건이 최다이다.

세분류 기준으로도 하위 세분류가 없는 탄광이 14,506건으로 최다이며, 제조업에서는 제철·제강 6,177건이 최다이다.

Q. 보도 수 100위 내 기업의 업종 분포는?

보도 수 100위 내 기업을 살펴보면 다음과 같다.

# 집계
백위기업평균 = 결측치정리 %>% arrange(desc(보도수)) %>% head(100) %>% 
  mutate(업종 = V6) %>% 
  group_by(업종) %>% summarise(기업수=n(), 평균보도수=mean(보도수)) %>% 
  arrange(평균보도수)
백위기업 = 결측치정리 %>% arrange(desc(보도수)) %>% head(100) %>% 
  mutate(산업부문 = V4
         , 업종 = factor(V6, levels = 백위기업평균$업종), 기업 = V2
         , 순위 = row_number(), 상위20위 = ifelse(순위 > 20, 5, 10)) 
업종별집계 = 백위기업 %>% group_by(업종) %>% 
  summarise(기업수 = n(), 보도수 = sum(보도수))

# 백위기업 산점도
p1 = plot_ly()
for (부문 in unique(백위기업$산업부문)) {
  p1 = p1 %>% add_trace(
    data = 백위기업 %>% subset(산업부문 == 부문),
    type = "scatter",
    mode = "markers",
    x = ~보도수,
    y = ~업종,
    text = ~paste(기업, "<br>보도 수:", 보도수, "<br>순위:", 순위),
    hoverinfo = "text",
    marker = list(
      color = ifelse(부문 == "비제조업","darkgreen", "darkviolet"),
      size = ~상위20위,
      line = list(width = 0)
    )
  )
}; p1 = p1 %>% layout(yaxis = list(title=""), showlegend = F)

# 백위기업업종(소분류) 트리맵
p2 = plot_ly(
    data = 업종별집계
    , type = "treemap"
    , labels = ~업종
    , parents = rep("", nrow(업종별집계))
    , values = ~기업수
    , textinfo = "label+value"
    , domain = list(column=1)
    , name = "업종별 기업 수"
  ) %>% layout(margin = list(b = 5, l = 0, r = 0, t = 5))

# 출력
library(htmltools, quietly = T)
browsable(tagList(
  div(style = "display:inline-block; width:49%;", p1),
  div(style = "display:inline-block; width:49%;", p2)
))

보도 수 100위 내 기업이 가장 많은 업종은 탄광(25개)이다.

기업당 보도 수가 가장 많은 기업은 1차금속 업종에 속하며, 2위, 3위 기업도 1차금속 업종에 속한다.

보도 수 상위 20위 내 기업의 분포를 살펴보면, 1차금속 업종(1~3위), 섬유의류(4위, 13위), 화학(5위, 6위, 8위), 화력발전(7위, 9위), 탄광(10위, 15위, 17위, 18위), 기계(11위, 12위), 건재(14위), 철광(16위), 수력발전(20위) 등의 업종에 해당한다.

Q. 보도가 없는 기업의 업종은?

2010년 이후 보도가 없는 기업의 업종 분포는 다음과 같다.

# 집계
보도수0기업 = 결측치정리 %>% filter(보도수 == 0)

보도수0기업집계 = bind_rows(
  data.frame(노드 = "전체", 부모 = "", n = nrow(보도수0기업))
  , 보도수0기업 %>% mutate(노드 = V4, 부모 = "전체") %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
  , 보도수0기업 %>% filter(V5 != "미상") %>% mutate(노드 = V5, 부모 = V4) %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
  , 보도수0기업 %>% filter(V6 != "미상") %>% mutate(노드 = V6, 부모 = V5) %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
  , 보도수0기업 %>% filter(V7 != "미상") %>% mutate(노드 = V7, 부모 = V6) %>% 
    group_by(부모, 노드) %>% summarise(n = n(), .groups = "drop")
)

# 그래프
Pls = 2:3 %>% lapply(
  function(i) {
    보도없음비율 = merge(
      기업수집계 %>% 
        filter(노드 %in% unique(결측치정리[[분류[i]]]) & 노드 != 부모) %>% 
        mutate(전체 = n) %>% select(노드, 전체)
      , 보도수0기업집계 %>% 
        filter(노드 %in% unique(결측치정리[[분류[i]]]) & 노드 != 부모) %>% 
        mutate(보도없음 = n) %>% select(노드, 보도없음)
      , by = "노드"
    ) %>% filter(전체 >= 50) %>% 
      mutate(보도없음비율 = 보도없음 / 전체 * 100) %>% 
      arrange(desc(보도없음비율))
    보도없음비율 = 보도없음비율 %>% mutate(노드 = factor(노드, levels = 노드))
    plot_ly(
      data = 보도없음비율
      , type = "bar"
      , x = ~보도없음비율
      , y = ~노드
      , marker = list(color = ~보도없음비율, colorscale = "Viridis")
      , text = ~paste0(small(보도없음비율), "%")
      , hoverinfo = "text" 
      , name = names(분류)[i]
      , height = 600
    ) %>% layout(font = list(size = 9)
                 , margin = list(b = 10, l = 5, r = 5, t = 25))
  }
) 

# 출력
subplot(Pls, shareX = T, shareY = F, nrows = 2, heights = c(0.4, 0.6)) %>% 
  layout(showlegend = F
         , xaxis = list(title = "2010년 이후 보도되지 않은 비율(%)")
         , title = list(text = "소분류(위), 세분류(아래)"
                        , font = list(size = 9, color = "black")
                        , xanchor = "left", x = 0.05))

2010년 이후 보도되지 않은 기업의 비율이 가장 큰 업종은 소분류 기준 수력발전(40.5%), 세분류 기준 중소형수력발전(45.8%)이다.

소분류 기준으로는 가구, 목재, 종이 및 잡제품(31.5%), 전기전자(31%), 수송기계(30.3%) 등의 비율도 높은 편이다.

세분류 기준으로는 전자·ICT(40%), 잡제품(36.4%) 등의 비율도 높은 편이다.

