BY.Tan

记录点滴

数据挖掘2019版国家基本药物目录

波比 / 2019-08-21


今日国家医疗保障局发布了2019版的《国家基本医疗保险、工伤保险和生育保险药品目录》,也就是大家简称的2019版国家基本药物目录。新的目录发布可谓几家欢喜几家愁。圈内人争相报道、转发国家局的药品目录,最火热的要数微信圈。

作为医药圈内的一名数据挖掘达人,今天波叔教你如何通过R语言来挖掘这个目录。既然咱们要挖掘这份目录,总的有个目的性。这里咱们比对下2018版与2019版的目录,分析下哪些药品被调入,哪些被调出。

2018版国家基药VS 2019版国家基药

这里以西药为例来聊聊。

素材的准备

从网络上找来一份2018版的电子版基药目录,因为时间比较长了,总会有excel版本的。通过bing搜索,找到了国家基本药物目录(2018版)下载链接

从国家医保局下载了2019版的基药目录-西药版,最新发布的只有PDF版本。

R语言读取数据

library(dplyr)

library(pdftools)

library(tidyverse)

# 读取2018版基药目录

old_jy <- readxl::read_xls(file.choose()) %>%  filter(调整后目录属性=='基本药物2018版基药')

# 读取2019版基药目录

new_jy <- pdftools::pdf_text(file.choose()) 

write.table(new_jy,"e:/new_jy.txt")

此处为了快速清理处理数据,先写入txt文档,然后用excel 或者 openrefine 清洗下数据,感觉比较快,此处省略部分工作。这里主要简单比较下两版药品名称差异,因此采取了比较简介的办法,主要还是为了后续的工作节省时间。

# 2018版药品名称

name_2018 <- old_jy %>% pull(招标通用名)

# 2019版西药名称

name_2019 <- new_jy %>% pull(name) # 省略清洗后的数据回读

# 新调入2019版基药的品种

add_2019 <- setdiff(name_2019,name_2018)

write.table(add_2019,"e:/新增品种.txt",row.names = F,quote = F,col.names = F)

拿到这些药品目录后,应该加上分类比较好,如果非常熟悉药品分类就没必要了,有需要大家再去完善,这里只提供一个思路,咱拿到这个对比干什么用呢?作为医药人员目的性可能比较多,看官可以尽情发挥,这里抛砖引玉:

  1. 调整咱医院的药品字典。废话,调整药品字典还要这玩意吗?直接打印PDF就得了

  2. 为了明早9:30的埋伏。[短线操作]

  3. ……