PythonでPDFファイルを読み込んで文字起こしをする

PythonにはPDFファイルを操作できるライブラリがいくつか存在しています。

ライブラリごとにメリットデメリット、目的や使用する状況に応じて使い分けることが必要になりますが本日はpdfminer.sixというライブラリを使用してPDFファイルを読み込み込んで文字起こしをする方法を紹介します。

環境

環境

・Mac BigSur 11.3

・Python 3.8

ライブラリのインストール

必要なライブラリをインストールします。

pdfminer.sixというライブラリを使用します。

PDFファイルを用意する

厚生労働省によ公式に公開されているPDFファイルを利用します。

以下よりリンク先を開き、「印刷用のPDFファイルダウンロードはこちらから」の報道発表資料からダウンロードしてください。

毎月勤労統計調査-平成30年9月分結果速報等

また以下のダウンロードをクリックすることでもダウンロードすることができます。

読み込むコード

コードが何をしているかについてはコメントアウトの通りです。

問題なくコードが実行できればコンソール上には以下のように表示されます。

改行やスペース含め綺麗に読み込めましたね!!

最後に

いかがでしたでしょうか。

以上が、「PythonでPDFファイルを読み込んで文字起こしをする」の紹介記事になります。

プログラミング学習を効率良く進めるには…

私ヒロヤンがプログラミングを始めた頃は以下のような感じでした。

何から手をつけていいのか、わからない。

プログラミングを始めてみたけど、エラーが解決できない。

そしてネットで調べていくうちに膨大な時間が過ぎていきました。

私ヒロヤンの実体験より、プログラミングを効率的に学ぶために大切なことは以下のことだと考えています。

1. いつまでもダラダラとやらないで、目標を決定して短期集中する

2. マンツーマンで、わからない箇所は直ぐに質問をして即レスをもらう

.proでは私ヒロヤンが学習してきたプログラミング経験0からのpython/django、その他webサイト・サービス開発のコースが用意されています。

カウンセリング自体は無料なので話を聞いてみるだけでもいかがでしょうか?

また以下のリンク先ではdjango専用のプログラミングスクールをまとめ紹介しています。