看護学校の講師を命じられて、看護学生に教育に役立つ有用なコンテンツを作成しようと考えました。
医学生時代に、国家試験の前にいわゆる過去問は繰り返し勉強した憶えがあります。
看護学生にとっても過去問はとても大事な教材です。
現在では、医師国家試験も看護師国家試験も厚労省のホームページからダウンロードすることができます。
そこで、看護師国家試験問題の pdf をダウンロードしてみました。
それをもとにデータベースを作成するためでした。
例えば、2023 年度の看護師国家試験問題に以下のような pdf の 1 ページがあります。
通常、pdf ファイルをコピペするとテキストファイルが作成されます。
ところが、この pdf ファイルはそれを許してくれません。
実行するとこうなります。
一部文字化けしています。
python でテキストデータを抽出しても同じことでした。なぜ文字化けしているんでしょう?
文字化けは linux mint でも windows でも同様だったので、おそらくとても珍しいフォントが使用されているのではないかと考えました。
そこで、pdf に使用されているフォントを確認してみると、
pdffonts aaa.pdf
name type encoding emb sub uni object ID------------------------------------ ----------------- ---------------- --- --- --- ---------LDEPAH+MS-UIGothic.. Type 1C Custom yes yes yes 10 0LDEPAI+MS-UIGothic Type 1C Custom yes yes yes 11 0LDEPAJ+FutoGoB101Pr6-Bold Type 1C Custom yes yes yes 12 0LDEPAK+RyuminPr6-Regular Type 1C Custom yes yes yes 13 0LDEPAL+RyuminPr6-Regular. Type 1C Custom yes yes yes 14 0LDEPAK+RyuminPr6-Regular Type 1C Custom yes yes yes 15 0
おそらく、「RyuminPr6-Regular」というのが文字化けの原因かと思うのですが確定はできません。
これ有料のフォントだと思います。近いものをダウンロードしたのですが読めませんでした。
そこで、2024年4月23日厚労省に電話で問い合わせをしてみました。
予想通りではありました。
看護学校の教材として使用したいので何とかならないかと再度お願いしたのですが、ダメとのことでした。
医師国家試験問題は文字化けがありません。なのでテキストファイルとして利用可能です。
しかし、看護師国家試験問題はテキスト化しようとすると文字化けします。
内容は pdf として公開されているので、そのテキスト化を邪魔しているのは、看護師国家試験問題を作成した厚労省担当者の歪んだ愉快犯根性としか思えません。
さすがは厚労省、官僚の面目躍如ですね。
看護師国家試験問題に関しては、東京アカデミーのこのサイト 東京アカデミーのこのサイト が完璧です。
過去7年分の看護師国家試験問題を見ることができます。
最初は、python の scraping で情報を取得してデータベース化しようかとも思ったのですが、 これほど完璧なサイトがあるのであれば必要ないと考え、やめました。