この記事では、大量のPDFからエクセルやGoogleスプレッドシートなどに特定のデータを抽出することができる「Docparser」という神ツールをご紹介していきます。
例えば、あなたが大量のPDFファイルから同じ部分のデータをいくつも抽出する単純作業をする必要がある状況にある時、超頑張ってコピペしていませんか?
実は私もコピペしまくっていました。「一度に大量のPDFファイルを開き、Alt+TabとCtrl+C、Ctrl+Vでとにかく必死に頑張る!」、、そんな感じです。おかげで手も腱鞘炎になりかけたり、何より他の業務もやりながらだと複数日かかることもあるくらいです。
作業する前には、絶望しますよね。
今回ご紹介する「Docparser」を利用すると、データ抽出のルールを決めてファイルをアップロードするだけで、あっという間にPDFからデータを抽出することができるようになります。
私が削減できた作業時間は、通常合計8時間位かかっていた作業が、わずか10分!で終わるようになりました(誇張ではなくマジ!)
そのパフォーマンスは驚愕の90%以上の作業時間の短縮!作業の対象となるPDFが多ければ多いほど、その効果は高くなります!
Docparserとは?
Docparserとは、ワード・PDF・画像ファイルなどから重要なデータのみを抜き出し、エクセルやGoogleスプレッドシート、その他多数の形式やデータ連携することができる「データ抽出ツール」です。
例えば、同じ様なフォーマットで作成されている大量のファイルがあるとしましょう。
あなたは、まずそのファイルを用意して、2,3個のファイルでデータ抽出のルールを設計します。
サンプルファイルで正しくデータを抽出することができると確認できれば、後はファイルをアップロードするだけで完了です。
本当に素晴らしい限りです。
Docparserの仕組み
Docparserは、ワードやPDF、そして画像のようなファイルから、場所を指定したOCR解析や高度なパターン認識・特定のキーワードを探し、データを特定し抽出します。
①ファイルのアップロード
ファイルを直接ブラウザからアップロードする方法に加え、DropboxやBox、Googleドライブ、OneDriveなどのクラウドストレージ、メール添付、REST APIを使ってファイルを投入します。
②ルールを定義する
Docparserがどのようにデータを抽出するかルールを定義して設定します。サンプルファイルを2,3個利用して、ファイルの書式に合わせて設計します。
③データダウンロード
直接エクセルファイルやCSV、JSON、XML形式でダウンロードするか、クラウドアプリケーションと連携することもできます。
解決できる課題・お悩み
例えばどのような課題やお悩みを解決できるか?具体的な例を見てみましょう。
- 請求書データの抽出
- 発注書や納品書データの抽出
- 金融機関明細の必要箇所のデータ抽出
- 契約書や同意書からのデータ抽出
- 人事系のフォーム書類から特定のデータを抽出
- 配達情報のデータ抽出(バーコードやQRコード含む)
「ファイルを開いて、コピペして、閉じて」という超単純作業の繰り返しは、もう行わなくて良くなります!
料金とプラン
Docparserは基本的には有料ですが、無料プランも用意されています。大きな違いは、抽出できるファイルの数が変わってきます。
Parsing Creditというチケットのような物が付与されるのでそのチケットの範囲でデータ抽出を行うことができます。1ファイル5ページまでで1Credit消費します。例、30 Creditsあれば、30ページから150ページまで利用できます。
- Freeプラン:無料、毎月 30 Parsing Credits/毎月30ファイル(最大150ページ)までは無料!
クレジットカードなしでユーザー登録で利用できます。公式ページでユーザー登録 - Starterプラン:$32.50/月、毎月 100 Parsing Credits
- Professionalプラン:$61.50/月、毎月 250 Parsing Credits
- Businessプラン:$133/月、毎月 1000 Parsing Credits
- Enterpriseプラン:問い合わせ
まとめ
仕事の生産性を考える時、よく労働時間とお金を考えてみるのですが、あなたが単純作業のコピペをする時、その時間の価値はいくらになりますでしょうか?
毎日?毎週?毎月?ドカンと発生するタスクを行うあなたの時間の価値が、このDocparserの料金よりも高ければ、僕は買いだと思います。
事実、私は毎月200~300のPDFをコピペしていまして、毎月その数が徐々に増えてきていました。そのたびに、気合い入れて取り組んでいたのですが、その他の業務もあったりしてなかなかスムーズにその業務を遂行できなかったり、時間の確保が難しかったりしましたね。
しかし、このDocparserを利用し始めてから、本当にあっという間にデータを抽出でき、多少の調整をエクセルベースで行うことで、目的にデータをすべて抽出することができるようになりました。
この価値は、お金に変えられない有意義な経費の使い方だと思っています。