トレンド情報・コラム 2020/08/13

OCRで名刺をデータ化するなら精度がカギ


名刺をデータで管理するときに問題になるのが、どのようにデータ化するのかということです。データ化の主な方法は、「名刺画像をそのまま保管」「手入力でテキストデータ化して保管」「OCRで読み込んで保管」の3つに分けられます。

ここでは、OCRのメリットとデメリットのほか、デメリットの改善方法をご紹介します。

OCRとは?

OCRは、Optical Character Recognition(光学文字認識)の略称で、スキャナーやデジタルカメラ、スマートフォンアプリなどによって読み取った画像データを、文字データに変換するシステムのことです。

名刺管理にOCRを利用するメリット

OCRを使って画像をテキスト変換すれば、簡単に素早く名刺のデータ化が完了します。

名刺を写真に撮ったり、スキャナーでスキャンしたりすれば、情報をデジタル化して保管・管理できます。ただし、この場合、名刺は画像データとして保存されますから、氏名や会社名で検索をかけたり、メールアドレスをコピー&ペーストしたりすることはできません。手作業で1枚ずつ入力すればテキスト化できますが、これには時間も手間もかかるでしょう。

そこで、取り込んだ画像をOCRで読み取り、テキスト化する方法が役立つのです。

OCRを利用した名刺管理ツール

名刺をデジタル化して保管できる管理ツールの中には、OCRを利用したサービスを提供しているものが多くあります。これらは、スキャナーで名刺をスキャンしてデータを送ると、OCRで読み取って自動でテキスト化してくれるというものです。

ただし、OCRにも問題点があります。機械的に読み込みを行うため、どうしても読み取り間違いが出てしまうことがあるのです。

OCRで読み取りが難しい名刺

OCRを利用したときに判別間違いが起こりやすい文字には、いくつかのパターンがあります。下記に該当する文字は、読み取り精度に難が出る可能性があります。

<OCRで読み取りにくいもの>

  • カラーの文字
  • 背景と似た色の文字
  • かすれている文字
  • 網掛けなど装飾されている文字
  • 機種依存文字
  • 斜めになっている原稿
  • 横書きと縦書きが混在している原稿
  • 文字間隔が狭い原稿
  • 後ろ側の文字が透けて見える原稿

OCRでは、画像を読み取って文字として認識します。そのため、1文字1文字の輪郭がはっきりしているほど読み取り精度が高くなります。

名刺の場合、斜めに印刷されていたり、文字がカラーだったりすることはあまりないでしょう。過度な装飾がされていることは少なく、白い紙に黒で印刷されていることも多いため、OCRでの読み取りには比較的適していると考えられます。

しかし、残念ながら100%の精度というわけにはいきません。特に、手書きでコメントを追加した名刺や、狭いスペースに情報を納めるために文字間隔を詰めている名刺などの場合、うまく読み取れない可能性が高くなります。

OCRの精度を上げるためにはどうしたらいい?

名刺をスキャンしたり撮影したりするときは、できるだけOCRの精度を上げられる方法をとりましょう。どれも簡単にできることなので、試してみてください。

解像度を上げる

画像を取り込むときは、解像度を選択することができます。解像度を上げると画像ファイルが大きくなってしまいますが、OCR精度を上げるためには、できるだけ解像度を高くするのがおすすめです。解像度は「dpi」という単位で表されます。
「200~300dpi」程度に設定するようにしてください。

モノクロでスキャンする

名刺は、そもそも白黒で印刷されていることが多いものですが、たとえカラーの名刺であっても、モノクロを選んでスキャン・撮影したほうがOCRの精度が上がります。
淡い色は、目で見ても内容を読み取りづらいものです。OCRも、黒くくっきりとした輪郭の文字のほうがしっかり読み取れます。

原稿の向きをそろえる

名刺を傾けてスキャンしてしまうと、文字自体が傾いている場合と同様に、スキャン精度が落ちてしまいます。名刺をスキャンするときは、できるだけまっすぐ取り込みましょう。

コントラストを強調する

コントラストとは、画像の中の明るい部分と暗い部分の差のことです。これを強調して名刺をスキャンすることで、文字が書かれた部分をよりはっきり、見えやすくすることができます。

人力のOCRなら精度はほぼ100%?

OCRの手軽さや素早さというメリットを活かしながら、精度の問題をカバーする方法に、人力とOCRを組み合わせて活用する方法があります。このような方法を「人力OCR」といいます。人力OCRは、OCRとオペレーターによる文字入力を組み合わせることで、デジタル化の精度を高める方法です。

人力OCRでは、まず、情報を通常どおりOCRで読み取り、その後、オペレーターが読み取った内容に間違いがないかどうか目視でチェックします。オペレーターが一つひとつチェックすることで、OCRの読み取り間違いをなくし、読み取り精度を高めることができるでしょう。

反面、人力での確認・修正作業が必要になることから、OCRだけで取り込みを行う場合に比べ、完了までに時間がかかるという難点があります。

名刺の取り込み代行や、取り込み代行サービスつきの名刺管理システムを利用するときは、「人力」「OCR」「人力OCR」のどれなのかを確認し、希望に合った方法を選択しましょう。

OCRを利用した名刺管理は精度までチェックを

OCRを活用することで、簡単・スピーディに名刺をデータ化できます。ただし、完璧な精度で読み取ることは困難です。管理している名刺データに誤りがあると、顧客への失礼にあたるため、OCRで読み取ったデータは、その後、間違いがないか人力でチェックする必要があるでしょう。

名刺管理ツールや、名刺のデジタル化サービスを利用する際には、どのような方法でデータ化するのか確認しておくと安心です。

【ホワイトペーパー】
名刺をビジネスで活用するためにSmartViscaを選ぶ理由

名刺データを活用するには、マーケティングオートメーションや営業支援システム(SFA)、顧客関係管理(CRM)との連携や活用が欠かせません。本ホワイトペーパーでは、Saleforce一体型名刺デジタル化サービス「SmartVisca(スマートビスカ)」と他の名刺管理サービスの違いと名刺からはじめる顧客管理のメリットについて解説します。

ホワイトペーパーをダウンロードする