2009年8月 Archives

Python で文字コード判別

| No Comments | 1 TrackBack

久々のプログラミングネタ。

Python で文字列の文字コードを判別したくなったんだけど、標準では用意されていないらしい。で、いろいろと調べてみたら、今のところ以下の二種類があるのかな?

  1. UNIVERSAL ENCODING DETECTOR
    chardet と呼ばれている(?)ライブラリ。confidence というパラメータで、確かさを返してくれる。
    Document がちょっと不便?
  2. NkfPython
    日本人なら誰でも知っている(?) nkf の python インターフェイス。文字コード判別だけでなく変換もやってくれる優れもの。

んで、軽く実験してみた。

chardet

Nkf

'\x82\xa0\x82\xa2\x82\xa4\x82\xa6\x82\xa8'
(sjis で'あいうえお')

'windows-1252'

'Shift_JIS'

'\xa4\xa2\xa4\xa4\xa4\xa6\xa4\xa8\xa4\xaa'
(euc-jp で'あいうえお')

'EUC-JP'

'EUC-JP'

'\x1b$B$"$$$&$($*\x1b(B'
(iso-2022-jp で'あいうえお')

'ISO-2022-JP'

'ISO-2022-JP'

てな具合に、chardet が sjis だけ判定ミス。たぶん、内部判定の優先順位の問題なんだろうけど、短い文字列だと間違えやすい気がします。>chardet

まぁ、普通に NkfPython を使えばいいのかな。長い文字列だと chardet も精度が上がるので問題ないんだけどね。

もってけ~

| No Comments | No TrackBacks

ずっと出ないかな~と思っていたマクロスFのライブDVD&Blu-rayがやっと出るようです。

こちは Blu-ray 版 こっちは DVD 版

しっかしBlu-ray版は定価で\8,190かぁ。たっかいなぁ…まぁ、買ってしまうんだろうけど(^^ゞ

ハヤテのごとく!

| No Comments | No TrackBacks

ハヤテのごとく!第2期が始まってしばらくたちますが…相変わらず楽しんでいます。

で、第二クールの主題歌が KOTOKO さんに!

Amazon

daily-daily Dream <初回限定盤>アニメ「ハヤテのごとく!!」新OPテーマ

というわけで予約してみました。ちゃんとくるといいな~

大変だった…

| No Comments | No TrackBacks

追加課金シナリオの戦慄!モグ祭りの夜がやっとクリア出来ました。課金シナリオってちょっとでも乗り遅れると人集め難易度がめちゃくちゃ上がる(^^ゞ

ラストバトルフィールドはそれほど難しくないんだけどなぁ。というわけでクリア記念スクリーンショット。

全く、かけらも、似合わない魔人の帽子。追加オーグメントは「STR+4/ウェポンスキルの命中:15」と「命中+10/攻+5」

めちゃくちゃ殴る気まんまんな装備です!

それだけじゃあれなので、なんとなくビシージ待機中に遊んでいた壁登り?

これ他の人から見ると落ちているように見えるのであれです。

PCだとこういう妙な遊びが出来るのが楽しい!

と、まぁ、なんとなく撮ってみたスクリーンショット集です。最近はずっとカンパニエバトルやっていますけどね。