go基础库之解析以逗号分隔的数据

有多种表格数据格式。CSV逗号分隔值)是主要用于数据传输和导出的最基本格式之一。没有定义CSV的标准,但RFC 4180中描述了格式本身。

解析以逗号分隔的数据

Golang 版本

1.12.1

前言

有多种表格数据格式。CSV逗号分隔值)是主要用于数据传输和导出的最基本格式之一。没有定义CSV的标准,但RFC 4180中描述了格式本身。

实现

创建文件data.csv,内容如下:

"Name","Surname","Age"
# this is comment in data
"John","Mnemonic",20
Maria,Tone,21

创建文件data.go,代码如下:

package main

import (
	"encoding/csv"
	"fmt"
	"os"
)

func main() {

	file, err := os.Open("data.csv")
	if err != nil {
		panic(err)
	}
	defer file.Close()

	reader := csv.NewReader(file)
	reader.FieldsPerRecord = 3
	reader.Comment = '#'

	for {
		record, e := reader.Read()
		if e != nil {
			fmt.Println(e)
			break
		}
		fmt.Println(record)
	}
}
$ go run data.go
[Name Surname Age]
[John Mnemonic 20]
[Maria Tone 21]
EOF

创建文件data_uncommon.csv,内容如下:

Name;Surname;Age
"John";Mnemonic;20
"Maria";Tone;21

创建文件data_uncommon.go,代码如下:

package main

import (
	"encoding/csv"
	"fmt"
	"os"
)

func main() {

	file, err := os.Open("data_uncommon.csv")
	if err != nil {
		panic(err)
	}
	defer file.Close()

	reader := csv.NewReader(file)
	reader.Comma = ';'

	for {
		record, e := reader.Read()
		if e != nil {
			fmt.Println(e)
			break
		}
		fmt.Println(record)
	}
}
$ go run data_uncommon.go
[Name Surname Age]
[John Mnemonic 20]
[Maria Tone 21]
EOF

原理

而不是简单地逐行扫描输入并使用strings.Split等方法解析CSV格式,Go提供了更好的方法。encoding/csv包中的NewReader函数返回Reader结构体,该结构提供了读取csv文件的API。Reader结构体根据你的需要保留变量来配置read参数。

ReaderFieldsPerRecord参数是一个重要的设置。这样就可以验证每一行的单元格计数。默认情况下,当设置为0时,它被设置为第一行中的记录数。如果设置为正值,则记录的数量必须匹配。如果设置了负值,则没有单元格计数验证。

另一个有趣的配置是注释参数,它允许您在已解析的数据中定义注释字符。在本例中,以这种方式忽略整行。

Go 1.10现在禁止使用无意义的逗号和注释设置。这意味着null、回车、换行符、无效的符文和Unicode替换字符。此外,禁止将逗号和注释设置为相等。