OCRで名刺をデータ化するなら精度がカギ

技術コラム

OCRで名刺をデータ化するなら精度がカギ

名刺をデータで管理するときに問題になるのが、どのようにデータ化するのかということです。データ化の主な方法は、「名刺画像をそのまま保管」「手入力でテキストデータ化して保管」「OCRで読み込んで保管」の3つに分けられます。

ここでは、OCRのメリットとデメリットのほか、デメリットの改善方法をご紹介します。

OCRとは?

OCRは、Optical Character Recognition(光学文字認識)の略称で、スキャナーやデジタルカメラ、スマートフォンアプリなどによって読み取った画像データを、文字データに変換するシステムのことです。

名刺管理にOCRを利用するメリット

OCRを使って画像をテキスト変換すれば、簡単に素早く名刺のデータ化が完了します。

名刺を写真に撮ったり、スキャナーでスキャンしたりすれば、情報をデジタル化して保管・管理できます。ただし、この場合、名刺は画像データとして保存されますから、氏名や会社名で検索をかけたり、メールアドレスをコピー&ペーストしたりすることはできません。手作業で1枚ずつ入力すればテキスト化できますが、これには時間も手間もかかるでしょう。

そこで、取り込んだ画像をOCRで読み取り、テキスト化する方法が役立つのです。

OCRを利用した名刺管理ツール

名刺をデジタル化して保管できる管理ツールの中には、OCRを利用したサービスを提供しているものが多くあります。これらは、スキャナーで名刺をスキャンしてデータを送ると、OCRで読み取って自動でテキスト化してくれるというものです。

ただし、OCRにも問題点があります。機械的に読み込みを行うため、どうしても読み取り間違いが出てしまうことがあるのです。

OCRで読み取りが難しい名刺

OCRを利用したときに判別間違いが起こりやすい文字には、いくつかのパターンがあります。下記に該当する文字は、読み取り精度に難が出る可能性があります。

<OCRで読み取りにくいもの>

  • カラーの文字
  • 背景と似た色の文字
  • かすれている文字
  • 網掛けなど装飾されている文字
  • 機種依存文字
  • 斜めになっている原稿
  • 横書きと縦書きが混在している原稿
  • 文字間隔が狭い原稿
  • 後ろ側の文字が透けて見える原稿

OCRでは、画像を読み取って文字として認識します。そのため、1文字1文字の輪郭がはっきりしているほど読み取り精度が高くなります。

名刺の場合、斜めに印刷されていたり、文字がカラーだったりすることはあまりないでしょう。過度な装飾がされていることは少なく、白い紙に黒で印刷されていることも多いため、OCRでの読み取りには比較的適していると考えられます。

しかし、残念ながら100%の精度というわけにはいきません。特に、手書きでコメントを追加した名刺や、狭いスペースに情報を納めるために文字間隔を詰めている名刺などの場合、うまく読み取れない可能性が高くなります。

OCRの精度を上げるためにはどうしたらいい?

名刺をスキャンしたり撮影したりするときは、できるだけOCRの精度を上げられる方法をとりましょう。どれも簡単にできることなので、試してみてください。

解像度を上げる

画像を取り込むときは、解像度を選択することができます。解像度を上げると画像ファイルが大きくなってしまいますが、OCR精度を上げるためには、できるだけ解像度を高くするのがおすすめです。解像度は「dpi」という単位で表されます。
「200~300dpi」程度に設定するようにしてください。

モノクロでスキャンする

名刺は、そもそも白黒で印刷されていることが多いものですが、たとえカラーの名刺であっても、モノクロを選んでスキャン・撮影したほうがOCRの精度が上がります。
淡い色は、目で見ても内容を読み取りづらいものです。OCRも、黒くくっきりとした輪郭の文字のほうがしっかり読み取れます。

原稿の向きをそろえる

名刺を傾けてスキャンしてしまうと、文字自体が傾いている場合と同様に、スキャン精度が落ちてしまいます。名刺をスキャンするときは、できるだけまっすぐ取り込みましょう。

コントラストを強調する

コントラストとは、画像の中の明るい部分と暗い部分の差のことです。これを強調して名刺をスキャンすることで、文字が書かれた部分をよりはっきり、見えやすくすることができます。

人力のOCRなら精度はほぼ100%?

OCRの手軽さや素早さというメリットを活かしながら、精度の問題をカバーする方法に、人力とOCRを組み合わせて活用する方法があります。このような方法を「人力OCR」といいます。人力OCRは、OCRとオペレーターによる文字入力を組み合わせることで、デジタル化の精度を高める方法です。

人力OCRでは、まず、情報を通常どおりOCRで読み取り、その後、オペレーターが読み取った内容に間違いがないかどうか目視でチェックします。オペレーターが一つひとつチェックすることで、OCRの読み取り間違いをなくし、読み取り精度を高めることができるでしょう。

反面、人力での確認・修正作業が必要になることから、OCRだけで取り込みを行う場合に比べ、完了までに時間がかかるという難点があります。

名刺の取り込み代行や、取り込み代行サービスつきの名刺管理システムを利用するときは、「人力」「OCR」「人力OCR」のどれなのかを確認し、希望に合った方法を選択しましょう。

OCRを利用した名刺管理は精度までチェックを

OCRを活用することで、簡単・スピーディに名刺をデータ化できます。ただし、完璧な精度で読み取ることは困難です。管理している名刺データに誤りがあると、顧客への失礼にあたるため、OCRで読み取ったデータは、その後、間違いがないか人力でチェックする必要があるでしょう。

名刺管理ツールや、名刺のデジタル化サービスを利用する際には、どのような方法でデータ化するのか確認しておくと安心です。

~紙・オンライン名刺から正確な顧客データの運用まで~
『SmartVisca(スマートビスカ)』の特徴・メリットをご紹介

SmartViscaは、名刺管理から生まれた顧客データ構築・活用ソリューションです。紙名刺の高速かつ正確なデジタル化やオンライン名刺交換、クラウド連絡帳で顧客や社内メンバーの共有・やりとりまで、時間と場所にとらわれず顧客データの活用を実現します。

関連記事