昨日の定例会議で csv ファイルのエンコーディングの話しになって excel 2016 以降では utf-8 で csv ファイルを保存できるようになった。もう cp932 対応しなくてよいといった話題が出た。そのときにうろ覚えだったものの、excel は byte order mark (bom) を付けていた気がして、実際にファイルを作ってもらったらそうだった。bom の有無は file コマンドや od コマンドでなどで調べられる。
$ file book1.csv
book1.csv: Unicode text, UTF-8 ( with BOM) text, with CRLF line terminators
ファイルの先頭に 0xef
0xbb
0xbf
の3バイトがつく。
$ head -1 | od -t x1 book1.csv
0000000 ef bb bf 68 65 61 64 65 72 31 2c 68 65 61 64 65
0000020 72 32 2c 68 65 61 64 65 72 33 2c 68 65 61 64 65
...
印字可能な文字ではないため、テキストにするとわからないが、byte 列だと bom が付いているのがわかる。16進数の 0x68 が ‘h’ になる。bom がついていると header1
という文字列比較したときに別の文字列になってしまうので取り除かないといけない。
文字列: 'header1'
byte列: 'efbbbf68656164657231'
いろんな対応方法があると思うが、so の回答 でみつけたこの方法がコードの見通しもよくて気に入った。次のように io.Reader をラップするようなコードになる。
func newBOMAwaredCSVReader (reader io .Reader ) * csv .Reader {
transformer := unicode .BOMOverride (encoding .Nop .NewDecoder ())
return csv .NewReader (transform .NewReader (reader , transformer ))
}
Transformer という仕組みがあって、準標準ライブラリの golang.org/x/text/encoding で実装されている。so の回答をみただけでコードを追加するのもよくないかと思って unicode#BOMOverride が返す bomOverride transformer のコードを読んで把握した上でテストを書いてマージリクエストを送った。実際の変換処理は次のようなもの。
fallback として encoding.Nop
を使う 最初に呼ばれたときに d.current (fallback) をセットして、2回目以降は fallback が呼ばれる 与えられた byte 列が 2byte 以上のときに bom のチェックを行う bom があるときはそのバイト数を読み飛ばして d.current (fallback) で変換する func (d * bomOverride ) Transform (dst , src []byte , atEOF bool ) (nDst , nSrc int , err error ) {
if d .current != nil {
return d .current .Transform (dst , src , atEOF )
}
if len(src ) < 3 && !atEOF {
return 0 , 0 , transform .ErrShortSrc
}
d .current = d .fallback
bomSize := 0
if len(src ) >= 2 {
if src [0 ] == 0xFF && src [1 ] == 0xFE {
d .current = utf16le .NewDecoder ()
bomSize = 2
} else if src [0 ] == 0xFE && src [1 ] == 0xFF {
d .current = utf16be .NewDecoder ()
bomSize = 2
} else if len(src ) >= 3 &&
src [0 ] == utf8BOM [0 ] &&
src [1 ] == utf8BOM [1 ] &&
src [2 ] == utf8BOM [2 ] {
d .current = transform .Nop
bomSize = 3
}
}
if bomSize < len(src ) {
nDst , nSrc , err = d .current .Transform (dst , src [bomSize :], atEOF )
}
return nDst , nSrc + bomSize , err
}
自分で実装してもなにも難しくないけど、すでに実績のあるコードがあるならそれを再利用した方が保守コストを削減できる。
同期飲み会 新卒入社した会社の同期との飲み会。2ヶ月前と同じメンバー で飲んできた。4人で飲む予定が、また1人が障害対応でドタキャンになったから3人で飲んでた。日本酒原価酒蔵 という、おいしい日本酒を原価で提供するお店があるみたい。プレミアム飲み放題プランだったのでよいお酒をいろいろ飲み比べできた。どれもおいしかったし、ちょっとずついろいろ飲み比べできておもしろかった。飲み放題メニューに神戸のお酒がなかったのがよいことなのか残念なのか。前半は辛口の日本酒を飲んで、だんだん酔っ払って味がわからなくなるから、後半にコクや甘みの強い日本酒を飲むとおいしく飲めると教えてもらった。本当にその通りで日本酒の飲み方のよい勉強になった。お店で飲んだお酒のカードがもらえる。酔っ払って忘れてしまっても後で思い出せる。
特徴的なお酒で記憶に残っているもので 三井の寿 がスラムダンクに出てくる三井寿に由来して命名されていて、その背番号である14番と同じアルコード度数14度、日本酒度 (辛口甘口の度合いを表す) +14 と意図的?にあっているとのこと。日本酒の中ではトップクラスの辛口らしい。たしかに過去に私が飲んだことがないキレだった。もう1つは 讃岐くらうでぃ という、カルピスのような風味に近い珍しいお酒。甘いので後半に飲むとよい。うちらは酔っ払って訳がわからなくなってきたときに口直しのように飲んでた。そういう飲み方をするものかどうかはわからないが、飲みやすいのでついつい飲んでしまい、さらに酔ってしまう典型的なお酒。同期飲みは記憶をなくす感じで飲む。この歳になってこんな飲み方する相手いないなと思うとまた楽しい。