淺談Java讀取Csv實(shí)踐
Csv文件,逗號(hào)分隔的常用數(shù)據(jù)文件格式,默認(rèn)可以用Office軟件打開。
維基百科對(duì)CSV的詳細(xì)描述:
http://zh.wikipedia.org/wiki/CSV
看項(xiàng)目中以前的處理方式是直接用用java IO類庫讀取Csv文件,實(shí)際處理中發(fā)現(xiàn)Csv文件本身包含了對(duì)各種特殊字符的處理信息。最常見的比如:
1. 對(duì)包含特殊字符的字符串?dāng)?shù)據(jù)首尾加雙引號(hào)
2. 對(duì)數(shù)據(jù)中的單個(gè)雙引號(hào)前加單個(gè)雙引號(hào)
其它...
所以用Java IO讀到的字符串全是經(jīng)過處理后的字符串,在某些場景下是不符合預(yù)期需求的。比如我需要的是不做任何處理的原始內(nèi)容。
項(xiàng)目中另一種常見的文件格式Excel用了POI來處理,但是POI不支持Csv格式,于是找到了javacsv。
代碼很簡單:
Java代碼
- public List
importCsv(String file) { - List
list = new ArrayList(); - CsvReader reader = null;
- try {
- //初始化CsvReader并指定列分隔符和字符編碼
- reader = new CsvReader(file, ',', Charset.forName("GBK"));
- while (reader.readRecord()) {
- //讀取每行數(shù)據(jù)以數(shù)組形式返回
- String[] str = reader.getValues();
- if (str != null && str.length > 0) {
- if (str[0] != null && !"".equals(str[0].trim())) {
- list.add(str);
- }
- }
- }
- } catch (FileNotFoundException e) {
- log.error("Error reading csv file.",e);
- } catch (IOException e) {
- log.error("",e);
- }
- finally{
- if(reader != null)
- //關(guān)閉CsvReader
- reader.close();
- }
- return list;
- }
以上代碼有幾個(gè)要點(diǎn):
1 初始化CsvReader時(shí)指定分隔符和字符編碼,如果不指定,默認(rèn)分別為逗號(hào)和ISO-8859-1,我用了GBK,具體使用時(shí)要看當(dāng)時(shí)的字符編碼而定。
2 讀取每行數(shù)據(jù),返回字符串?dāng)?shù)組,數(shù)組內(nèi)的順序即文件數(shù)據(jù)列的順序
3 ***記得關(guān)閉CsvReader
是不是很簡單,返回的數(shù)組格式也正好是我想要的,而且拿到是原始的數(shù)據(jù),沒有經(jīng)過特殊字符處理。
有些童鞋質(zhì)疑特殊字符未經(jīng)處理,插到數(shù)據(jù)庫會(huì)出錯(cuò),其實(shí)大可不必我們手工處理,一些基礎(chǔ)組件比如JDBC的preparedstatement已經(jīng)包含了對(duì)特殊字符的處理,我們只要以綁定參數(shù)的形式來傳送這些包含特殊字符的數(shù)據(jù)就可以。常用的持久化框架底層也封裝了JDBC,自然也對(duì)特殊字符做了處理。
附j(luò)avacvs2.0.zip鏈接:http://shaka.iteye.com/blog/983282
【編輯推薦】