有多种表格数据格式。CSV(逗号分隔值)是主要用于数据传输和导出的最基本格式之一。没有定义CSV的标准,但RFC 4180中描述了格式本身。
解析以逗号分隔的数据
Golang 版本
1.12.1
前言
有多种表格数据格式。CSV(逗号分隔值)是主要用于数据传输和导出的最基本格式之一。没有定义CSV的标准,但RFC 4180中描述了格式本身。
实现
创建文件data.csv
,内容如下:
"Name","Surname","Age"
# this is comment in data
"John","Mnemonic",20
Maria,Tone,21
创建文件data.go
,代码如下:
package main
import (
"encoding/csv"
"fmt"
"os"
)
func main() {
file, err := os.Open("data.csv")
if err != nil {
panic(err)
}
defer file.Close()
reader := csv.NewReader(file)
reader.FieldsPerRecord = 3
reader.Comment = '#'
for {
record, e := reader.Read()
if e != nil {
fmt.Println(e)
break
}
fmt.Println(record)
}
}
$ go run data.go
[Name Surname Age]
[John Mnemonic 20]
[Maria Tone 21]
EOF
创建文件data_uncommon.csv
,内容如下:
Name;Surname;Age
"John";Mnemonic;20
"Maria";Tone;21
创建文件data_uncommon.go
,代码如下:
package main
import (
"encoding/csv"
"fmt"
"os"
)
func main() {
file, err := os.Open("data_uncommon.csv")
if err != nil {
panic(err)
}
defer file.Close()
reader := csv.NewReader(file)
reader.Comma = ';'
for {
record, e := reader.Read()
if e != nil {
fmt.Println(e)
break
}
fmt.Println(record)
}
}
$ go run data_uncommon.go
[Name Surname Age]
[John Mnemonic 20]
[Maria Tone 21]
EOF
原理
而不是简单地逐行扫描输入并使用strings.Split
等方法解析CSV格式,Go提供了更好的方法。encoding/csv
包中的NewReader
函数返回Reader
结构体,该结构提供了读取csv文件的API。Reader
结构体根据你的需要保留变量来配置read
参数。
Reader
的FieldsPerRecord
参数是一个重要的设置。这样就可以验证每一行的单元格计数。默认情况下,当设置为0时,它被设置为第一行中的记录数。如果设置为正值,则记录的数量必须匹配。如果设置了负值,则没有单元格计数验证。
另一个有趣的配置是注释参数,它允许您在已解析的数据中定义注释字符。在本例中,以这种方式忽略整行。
Go 1.10现在禁止使用无意义的逗号和注释设置。这意味着null、回车、换行符、无效的符文和Unicode替换字符。此外,禁止将逗号和注释设置为相等。