遇见 Tablib
我们在Python实际开发过程中,经常涉及将数据导出为Excel、Csv、Yaml、Json等各种格式的文件的需求,一些粗鲁的实现方式是通过安装各种第三方模块以支持不同格式文件的导出操作。
接下来要我们要介绍的这个模块,再也不需要担心因导出不同格式数据时而调用各种第三方模块了,当然使用Pandas也是一个不错的选择,只是过于重量级了。
Python Tablib是麻省理工学院授权的与格式无关的表格数据集库。支持导入、导出和操作表格数据集。优雅的将数据导出为各种不同的格式,包括Excel,Json,Html,Yaml,Csv,Tsv等格式。
Tablib 安装
我们在Windows10 Python3环境下,使用pip进行安装 ,安装命令如下:
pip install tablib
接下来,让我们一步步了解如何使用Tablib,简洁而又优雅的实现将数据导出为各种格式。
创建数据集
我们使用tablib.Dataset方法,采用如下方式创建数据集:
我们还可以另一种方式创建数据集,如下:
我们还可以通过导入现有文件数据的方式创建数据集,如下,我们为dump.json文件。
我们使用tablib.Dataset.load方法导入dump.json文件数据,实现如下:
创建一个tablib.Dataset通过load方法,导入现已存在的文件。强大之处是tablib能够自动检测传入的文件类型,并使用适当的格式化方法进行导入,实现从各种不同的文件类型中导入——强无敌。
比如,我们再导入dataset.xlsx文件,代码实现如下:
添加行
我们可以使用tablib.Dataset.append方法,实现向数据集尾部添加行数据,需要注意的是每行的元素数量应与数据集的列数相同,代码实现如下:
我们也可以使用tablib.Dataset.insert方法,实现向数据集指定位置添加行数据,同样需要注意每行的元素数量应与数据集的列数相同,代码实现如下:
添加列
我们可以使用tablib.Dataset.append_col方法,实现向数据集尾部添加列数据,需要注意的是每列的元素数量应与数据集的行数相同,代码实现如下:
我们也可以使用tablib.Dataset.insert_col方法,实现向数据集指定位置添加列数据,需要注意的是每列的元素数量应于数据集的行数相同,代码实现如下:
选择行和列
我们可以像Python列表一样通过切片和索引获取行数据。像Python字典通过列名和索引获取列数据,代码实现如下:
删除行
我们可以使用以下方式,实现行删除:
tablib.Dataset.pop:删除最后一行tablib.Dataset.lpop:删除第一行deldataset[n: m] :删除指定范围的行
删除列
我们可以使用del dataset['column_name'] ,实现删除指定列,代码实现如下:
数据格式转换
我们可以将数据集转换为如下任一格式,强无敌。
Excel ( 支持Books)Json ( 支持Books)Yaml (支持 Books)Pandas DataFramesCsvHtmlJiraTsvOdsDbfDict
我们演示一下,其中几种数据格式,如下:
执行上述代码,输出结果为:
数据导出
终于介绍到,让我激动不已的数据导出了,简单而优雅,通用而高效。
导出dataset_o.xlsx文件如下:
使用DataBook 导出多页数据
导出dataset_ot.xlsx文件如下: