~ なよせ研究員のティータイム ~
会社名を統一するには?(2)
前回の 「会社名を統一するには?」 で会社種類(例えば(株)、(有)など)を統一して変換するツールを提供して意気揚々としていたら…
でもさぁ、「文藝春秋」と「文芸春秋」だと別の会社になるよね?(ときどき相談してくる本部営業さん)
痛いっすっ…。
そこ痛いとこっす…。
いや、そうなんですよ、それ会社名に旧字体の漢字を使ってる場合に問題になるんですよ。有名で歴史のある会社ほど旧字体だったりするから困るんですが、会社にしてみたら愛着のある字体なんですよね、きっと…。
これは一概に旧字体を新字体に強制的に変換していい話じゃないですから、一気に変換するんじゃなくてそれぞれを並べて比較して、ひとつひとつどちらの字体が正式なのか調べるしかないですよね?ってことで落ち着きました…。
で?どうやってExcelでならべるの?(ときどき相談してくる本部営業さん)
ですよねー。
できないですよねー、簡単には。
ExcelVBAとか駆使すればできるかもだけど、うーん…。
悩んでるとこあれだけど、スキャナからの誤認識の文字も困ってんだけど?(なかなか勘弁してくれない本部営業さん)
え?まだあるの?
ありました!例えばこんなのが…
よくあるスキャナのカタカナ誤認識 | ||
パ | ⇔ | バ |
ピ | ⇔ | ビ |
プ | ⇔ | ブ |
ペ | ⇔ | ベ |
ポ | ⇔ | ボ |
他にもこんなのも…
漢数字やカナの長音符、記号のハイフンなど | ||
文字 | Unicode | 説明 |
– | U-002D | ASCIIのハイフン |
‐ | U-2010 | 別のハイフン |
- | U-FF0D | 全角ハイフンマイナス |
− | U-2212 | 全角のマイナス |
ー | U-30FC | 全角の長音 |
– | U-2013 | ENダッシュ |
— | U-2014 | EMダッシュ |
― | U-2015 | 全角のダッシュ |
ー | U-FF70 | 半角カナの長音 |
二 | U-4E8C | 漢数字の2 |
ニ | U-30CB | 全角カタカナのニ |
ニ | U-FF86 | 半角カタカナのニ |
カタカナの長音(※「コーポレーション」など棒の部分)がスキャナで化けることって本当によくありますよね?
またよくあるのがカタカナの「ニ」と漢字の数字の「二」の誤変換…。
あるんですよ、これがよく…。
これも結局どっちが正しいかなんて会社名の全体を見ないとわかんないですよねぇ。
ネット上の会社名をAIが読んで自動判定してくれる無料サービスがあればいいんですが今のところなさそう…。
と嘆いても仕方ないのでできる範囲で作ってみました。
要約すると…
…を考慮して名寄せできるWebツールです。
せっかくなのでみなさまにも公開したいと思います。
前回の
「会社名を統一するには?」
を使ったあとでさらに会社名を名寄せしてみるには、ある程度役立つと思います。
それではまた。