首页
零基础教程
分类浏览
编程
- Sentinel
- Go语言
- C语言
- 汇编语言
- Android
- Java工具库
- Spring Cloud Alibaba
- Spring Cloud
- Spring Data
- Spring Boot
- Spring Batch
- JSP/Servlet
- Hadoop
- Dubbo
- J2Cache
- Hibernate
- OpenJPA
- MyBatis
- ShardingSphere
- Freemarker
- Thymeleaf
- Activiti
- POI
- JMail
- Log4j
- LogBack
- Dom4j
- XML
- RxJava
- JasperReport
- JUnit
- JMock
- Apache Commons
- HttpComponents
- CGLib
- WebSocket
- ESAPI
- 设计模式
前端
- CSS/CSS3
- HTML5
- JavaScript
- JQuery
- DHTMLX
- 浏览器
- HTML
- 前端小知识
- Vue.js
- NodeJS
- ECharts
- Less
- UmiJS
- React
- Ant Design
- Bootstrap
- uni-app
- JS-XLSX
数据库
- SQL
- PL/SQL
- MySQL
- Oracle
- Redis
- SQLite
- MongoDB
- Zookeeper
- H2
服务器
- Podman
- Prometheus
- Tomcat
- JBoss
- RocketMQ
- Docker
- Nginx
- RabbitMQ
其他
- 程序员
- Maven
- SVN
- Git
- UML
- Windows
- 办公软件
- Axure
- Jenkins
- HTTP
- macOS
Java
Spring
Linux
AI
代码片段
Get小技能
面试题

Commons CSV 文件解析

Apache Commons

CSV

812 0 2021-12-27

使用 Apache Commons CSV 解析文件相对简单，CSVFormat 类提供一些常用的 CSV 变体。

使用 Apache Commons CSV 解析文件相对简单。CSVFormat 类提供一些常用的 CSV 变体：

DEFAULT

标准逗号分隔值格式，与 RFC4180 相同，但允许空行。等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter(',')
    .setQuote('"')
    .setRecordSeparator("\r\n")
    .setIgnoreEmptyLines(true)
    .setAllowDuplicateHeaderNames(true);

EXCEL

Microsoft Excel CSV 格式（使用逗号作为值分隔符）。请注意，Excel 使用的实际值分隔符取决于区域设置，可能需要自定义此格式以适应您的区域设置。

例如，要在法语系统上解析或生成 CSV 文件，将使用以下格式：

CSVFormat fmt = CSVFormat.EXCEL.withDelimiter(';');

等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter(',')
    .setQuote('"')
    .setRecordSeparator("\r\n")
    .setIgnoreEmptyLines(false)
    .setAllowMissingColumnNames(true)
    .setAllowDuplicateHeaderNames(true);

INFORMIX_UNLOAD^1.3

UNLOAD TO file_name 操作使用的默认 Informix CSV UNLOAD 格式。这是逗号分隔的格式，使用 LF 字符作为行分隔符。值不用引号引起来，特殊字符用 ‘\’ 转义。默认空字符串为 “\\N”。

等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter(',')
    .setEscape('\\')
    .setQuote("\"")
    .setRecordSeparator('\n');

INFORMIX_UNLOAD_CSV^1.3

UNLOAD TO file_name 操作使用的 Informix CSV UNLOAD 格式（转义被禁用）。这是逗号分隔的格式，使用 LF 字符作为行分隔符。值不用引号引起来，特殊字符用 ‘\’ 转义。默认空字符串为 “\\N”。

等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter(',')
    .setQuote("\"")
    .setRecordSeparator('\n')

MONGO_CSV^1.7

mongoexport 操作使用的 MongoDB CSV 格式（尚不支持解析）。

MONGO_TSV^1.7

mongoexport 操作使用的 MongoDB TSV 格式（尚不支持解析）。

MYSQL

MySQL CSV 格式。SELECT INTO OUTFILE 和 LOAD DATA INFILE 操作使用的默认 MySQL 格式。这是一种制表符分隔格式，使用LF字符作为行分隔符。值不用引号引起来，特殊字符用 ‘\’ 转义。默认空字符串为 “\\N”。

等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter('\t')
    .setEscape('\\')
    .setIgnoreEmptyLines(false)
    .setQuote(null)
    .setRecordSeparator('\n')
    .setNullString("\\N")
    .setQuoteMode(QuoteMode.ALL_NON_NULL);

ORACLE^1.6

SQL*Loader 实用程序使用的默认 Oracle 格式。这是以逗号分隔的格式，以系统行分隔符作为记录分隔符。需要时，值用双引号引起来，特殊字符用 ‘"’ 转义。默认空字符串为 “”，值被修剪。

等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter(',') // default is {@code FIELDS TERMINATED BY ','}
    .setEscape('\\')
    .setIgnoreEmptyLines(false)
    .setQuote('"') // default is {@code OPTIONALLY ENCLOSED BY '"'}
    .setNullString("\\N")
    .setTrim()
    .setSystemRecordSeparator()
    .setQuoteMode(QuoteMode.MINIMAL);

POSTGRESSQL_CSV^1.5

COPY 操作使用的默认 PostgreSQL CSV 格式。这是一种以 LF 字符作为行分隔符的逗号分隔格式。值是双引号，特殊字符用 ‘"’ 转义。默认的NULL字符串是 “”。

等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    setDelimiter(',')
    setEscape('"')
    setIgnoreEmptyLines(false)
    setQuote('"')
    setRecordSeparator('\n')
    setNullString("")
    setQuoteMode(QuoteMode.ALL_NON_NULL);

POSTGRESSQL_TEXT^1.5

COPY 操作使用的默认 PostgreSQL 文本格式。这是一种以 LF 字符作为行分隔符的制表符分隔格式。值用双引号引起来，特殊字符用 “”” 转义。默认的 NULL 字符串是 “\\N”。

等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter('\t')
    .setEscape('\\')
    .setIgnoreEmptyLines(false)
    .setQuote('"')
    .setRecordSeparator('\n')
    .setNullString("\\N")
    .setQuoteMode(QuoteMode.ALL_NON_NULL);

RFC-4180

RFC-4180 定义的 RFC-4180 格式。等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter(',')
    .setQuote('"')
    .setRecordSeparator("\r\n")
    .setIgnoreEmptyLines(false);

TDF

制表符分隔格式。等同于如下的 CSVFormat.Builder 设置：

CSVFormat.DEFAULT.builder()
    .setDelimiter('\t')
    .setQuote('"')
    .setRecordSeparator("\r\n")
    .setIgnoreSurroundingSpaces(true);

示例

解析 Excel CSV 文件

要解析 Excel CSV 文件，请编写：

Reader in = new FileReader("path/to/file.csv");
Iterable<CSVRecord> records = CSVFormat.EXCEL.parse(in);
for (CSVRecord record : records) {
    String lastName = record.get("Last Name");
    String firstName = record.get("First Name");
}

处理字节顺序标记

要处理以字节顺序标记（BOM）开头的文件（如某些Excel CSV文件），需要额外的步骤来处理这些可选字节。您可以使用 Apache Commons IO 中的 BOMInputStream 类，例如：

final URL url = ...;
final Reader reader = new InputStreamReader(new BOMInputStream(url.openStream()), "UTF-8");
final CSVParser parser = new CSVParser(reader, CSVFormat.EXCEL.withHeader());
try {
    for (final CSVRecord record : parser) {
        final String string = record.get("SomeColumn");
        ...
    }
} finally {
    parser.close();
    reader.close();
}

你可能会发现创建这样的东西很方便：

/**
* Creates a reader capable of handling BOMs.
*/
public InputStreamReader newReader(final InputStream inputStream) {
    return new InputStreamReader(new BOMInputStream(inputStream), StandardCharsets.UTF_8);
}

看书和学习是思想的经常营养，是思想的无穷发展。 —— 冈察洛夫

0 不喜欢

说说我的看法 - 你的看法对我很重要

* 必填

全部评论（0）

没有评论

DEFAULT

EXCEL

INFORMIX_UNLOAD1.3

INFORMIX_UNLOAD_CSV1.3

MONGO_CSV1.7

MONGO_TSV1.7

MYSQL

ORACLE1.6

POSTGRESSQL_CSV1.5

POSTGRESSQL_TEXT1.5

RFC-4180

TDF

示例

解析 Excel CSV 文件

处理字节顺序标记

INFORMIX_UNLOAD^1.3

INFORMIX_UNLOAD_CSV^1.3

MONGO_CSV^1.7

MONGO_TSV^1.7

ORACLE^1.6

POSTGRESSQL_CSV^1.5

POSTGRESSQL_TEXT^1.5