R read data from the format of csv/xml/json

R 是最受欢迎的免费分析软体,此教学程式档示范如何使用 R 读取最常见几种开放资料格式 (如上图:CSV, XML, JSON),供後续资料分析使用。

某岛政府推资料开放推得很用力,资料取得问题也越来越少(虽然还是要很用力的挑),这次范例我们就使用政府资料开放平台的政府资料开放平台资料集浏览及下载次数统计资料集(是个要故意饶舌的概念)来做范例。而根据统计结果,只要下面三招,就可读取开放平台上高达 76% 的资料集(2015/12/21 更新),此次会使用到的 R package 有:

在取得个连结档案的连结之後(右键 > 复制连结),将连结指定给 url 变数:  CSV:读取 CSV 档是 R 的必备功能,可以是用内建的 read.csv() or read.table() 函数来读取;常见的挫折则会有档案编码(big5, utf-8)的问题,这时候则需要加上参数 fileEncoding = “utf8″ or fileEncoding = “big5″ 重新读取一次。

XML:Extensible Markup Language 可延伸标示语言,则是另外一种常见的资讯交换格式,可允许使用者事先定义客制标签(tags),在网页与各式应用程式之间读取及传递资料。我们可以用 XML 套件,进行资料读取以及整理的工作。其中,xmlToDataFrame 是个超级贴心的功能,可以将格式化的 XML 文件,直接转成 R 使用者熟悉的 dataframe。

JSON:对於工程师来说,JSON 是很熟悉的档案格式,R 里面也有热心的开发者贡献了套件,可以将 JSON 资料转换成为 large list or dataframe 格式,使用方法如下:

最後,只要将读取完的资料存成 csv 或 RDA 档就可以收工啦!

 

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注