前回の 「会社名を統一するには?」 で会社種類(例えば(株)、(有)など)を統一して変換するツールを提供して意気揚々としていたら…

でもさぁ、「文藝春秋」と「文芸春秋」だと別の会社になるよね?(ときどき相談してくる本部営業さん)


痛いっすっ…。
そこ痛いとこっす…。
いや、そうなんですよ、それ会社名に旧字体の漢字を使ってる場合に問題になるんですよ。有名で歴史のある会社ほど旧字体だったりするから困るんですが、会社にしてみたら愛着のある字体なんですよね、きっと…。


これは一概に旧字体を新字体に強制的に変換していい話じゃないですから、一気に変換するんじゃなくてそれぞれを並べて比較して、ひとつひとつどちらの字体が正式なのか調べるしかないですよね?ってことで落ち着きました…。

で?どうやってExcelでならべるの?(ときどき相談してくる本部営業さん)


ですよねー。
できないですよねー、簡単には。
ExcelVBAとか駆使すればできるかもだけど、うーん…。


スキャナからの誤認識文字のこと

悩んでるとこあれだけど、スキャナからの誤認識の文字も困ってんだけど?(なかなか勘弁してくれない本部営業さん)



え?まだあるの?
ありました!例えばこんなのが…

よくあるスキャナのカタカナ誤認識

他にもこんなのも…

漢数字やカナの長音符、記号のハイフンなど
文字 Unicode 説明
U-002D ASCIIのハイフン
U-2010 別のハイフン
U-FF0D 全角ハイフンマイナス
U-2212 全角のマイナス
U-30FC 全角の長音
U-2013 ENダッシュ
U-2014 EMダッシュ
U-2015 全角のダッシュ
U-FF70 半角カナの長音
U-4E8C 漢数字の2
U-30CB 全角カタカナのニ
U-FF86 半角カタカナのニ

カタカナの長音(※「コーポレーション」など棒の部分)がスキャナで化けることって本当によくありますよね?
またよくあるのがカタカナの「ニ」と漢字の数字の「二」の誤変換…。
あるんですよ、これがよく…。

これも結局どっちが正しいかなんて会社名の全体を見ないとわかんないですよねぇ。
ネット上の会社名をAIが読んで自動判定してくれる無料サービスがあればいいんですが今のところなさそう…。



と嘆いても仕方ないのでできる範囲で作ってみました。
要約すると…

  • 会社名で使われているひらがな、カタカナ、全角、半角などを区別しないでソートする
  • 会社名に付加されている『株式会社』などの法人種類を区別しないで会社名をソートする
  • 使用されている旧漢字と新漢字を区別しないでソートする
  • 誤認識しやすい文字を区別しないでソートする

…を考慮して名寄せできるWebツールです。
せっかくなのでみなさまにも公開したいと思います。
前回の 「会社名を統一するには?」 を使ったあとでさらに会社名を名寄せしてみるには、ある程度役立つと思います。



それではまた。