厚労省の看護師国家試験問題 pdf の文字化け

(2024-04-23)

看護師国家試験問題の pdf

看護学校の講師を命じられて、看護学生に教育に役立つ有用なコンテンツを作成しようと考えました。

医学生時代に、国家試験の前にいわゆる過去問は繰り返し勉強した憶えがあります。
看護学生にとっても過去問はとても大事な教材です。

現在では、医師国家試験も看護師国家試験も厚労省のホームページからダウンロードすることができます。

そこで、看護師国家試験問題の pdf をダウンロードしてみました。
それをもとにデータベースを作成するためでした。

pdf からテキストを抽出すると文字化けする。

例えば、2023 年度の看護師国家試験問題に以下のような pdf の 1 ページがあります。

通常、pdf ファイルをコピペするとテキストファイルが作成されます。

ところが、この pdf ファイルはそれを許してくれません。

実行するとこうなります。

一部文字化けしています。

python でテキストデータを抽出しても同じことでした。なぜ文字化けしているんでしょう?

pdf に使用されているフォントを調べる

文字化けは linux mint でも windows でも同様だったので、おそらくとても珍しいフォントが使用されているのではないかと考えました。

そこで、pdf に使用されているフォントを確認してみると、

pdffonts aaa.pdf
name type encoding emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
LDEPAH+MS-UIGothic.. Type 1C Custom yes yes yes 10 0
LDEPAI+MS-UIGothic Type 1C Custom yes yes yes 11 0
LDEPAJ+FutoGoB101Pr6-Bold Type 1C Custom yes yes yes 12 0
LDEPAK+RyuminPr6-Regular Type 1C Custom yes yes yes 13 0
LDEPAL+RyuminPr6-Regular. Type 1C Custom yes yes yes 14 0
LDEPAK+RyuminPr6-Regular Type 1C Custom yes yes yes 15 0

おそらく、「RyuminPr6-Regular」というのが文字化けの原因かと思うのですが確定はできません。

これ有料のフォントだと思います。近いものをダウンロードしたのですが読めませんでした。

厚労省に問い合わせする

そこで、2024年4月23日厚労省に電話で問い合わせをしてみました。

私 :
看護学校の教材として看護師国家試験問題を使用したいので厚労省のホームページから pdf をダウンロードしたのですが、 それをテキスト化しようとすると文字化けするので、オリジナルの word 文書を頂けないでしょうか?
厚労省 :
pdf で公開しておりますので、それ以外のデータを公開することはできません。
pdf にする前の word 文書には他の情報も書かれているので、お渡しすることはできません。

予想通りではありました。

看護学校の教材として使用したいので何とかならないかと再度お願いしたのですが、ダメとのことでした。

看護師国家試験問題の作成者は愉快犯

医師国家試験問題は文字化けがありません。なのでテキストファイルとして利用可能です。

しかし、看護師国家試験問題はテキスト化しようとすると文字化けします。
内容は pdf として公開されているので、そのテキスト化を邪魔しているのは、看護師国家試験問題を作成した厚労省担当者の歪んだ愉快犯根性としか思えません。

さすがは厚労省、官僚の面目躍如ですね。

東京アカデミーのサイト

看護師国家試験問題に関しては、東京アカデミーのこのサイト 東京アカデミーのこのサイト が完璧です。

過去7年分の看護師国家試験問題を見ることができます。

最初は、python の scraping で情報を取得してデータベース化しようかとも思ったのですが、 これほど完璧なサイトがあるのであれば必要ないと考え、やめました。