医師国家試験をデータベース化する(2)

今度は、第117回医師国家試験 A 問題の選択肢をデータベース化します。

pdf からテキストを抽出してある程度整形する
問題番号と選択肢だけを抽出する
データベースへの書き込み

pdf からテキストを抽出してある程度整形する

これは前回に作成したものを使います。ただし、選択肢は削除しないようにします。


    def delchoice( self ):
        self.totaltxt = re.sub(r'DKIX-0１-AH-\d{,2}\n\d{1,2}\n', '', self.totaltxt)
        self.totaltxt = re.sub( r'別　冊\n.+\n', '', self.totaltxt )
        self.totaltxt = re.sub(r'(\d+)　(.*)', r'問題\1----\2', self.totaltxt)                
        self.totaltxt = re.sub('([あ-んア-ン一-龥ー])\s+((?=[あ-んア-ン一-龥ー]))', r'\1\2', self.totaltxt)
        self.totaltxt = re.sub( r'\n', '', self.totaltxt )
        self.totaltxt = re.sub( r'(問題\d.*?)(?=(問題\d))', r'\1\n', self.totaltxt)

これを実行すると、次のようなテキストになります。

問題1—-母体背景と胎児疾患の組合せで正しいのはどれか。 3 つ選べ。ａ　高齢妊娠　　 13trisomyｂ　風疹感染先天性心疾患ｃ　妊娠高血圧症候群不整脈ｄ　全身性エリテマトーデス頭蓋内出血ｅ　パルボウイルス B19 感染貧血
問題2—-アレルギー性鼻炎の診断で原因抗原を特定するために行う検査はどれか。 2 つ選べ。ａ　プリックテストｂ　鼻汁好酸球検査ｃ　血清総 IgE 検査ｄ　末梢血好酸球数測定ｅ　血清特異的 IgE 検査
問題3—-胃全摘術後にみられる可能性があるのはどれか。 3 つ選べ。ａ　胆石ｂ　肥満ｃ　貧血ｄ　耐糖能異常ｅ　門脈圧亢進

問題番号と選択肢だけを抽出する

上のようにして作成されたテキストから不必要なもの（黄色い部分）を取り除きます。


self.totaltxt = re.sub( r'(問題\d+----).+(?=ａ　)', r'\1', self.totaltxt )

「(?=ａ　)」は肯定の先読みというもので、全角のａと全角スペースが現れるまでの文字列という意味です。

(問題\d+—-)とすると 1 番めにキャプチャされるので、問題\d+—-から始まって、全角のａと全角スペースが現れるまでの文字列になります。それを、問題\d+—で置換しているので、要するに問題\d+—とａと全角スペースで挟まれた部分が脱落します。

次にそのテキストから、次の様な辞書を作成します。python の辞書というのは連想配列です。

[{‘qnum’: ‘問題1’, ‘ａ’: ‘高齢妊娠　　 13trisomy’, ‘ｂ’: ‘風疹感染先天性心疾患’, ‘ｃ’: ‘妊娠高血圧症候群不整脈’, ‘ｄ’: ‘全身性エリテマトーデス頭蓋内出血’, ‘ｅ’: ‘パルボウイルス B19 感染貧血’},
{‘qnum’: ‘問題2’, ‘ａ’: ‘プリックテスト’, ‘ｂ’: ‘鼻汁好酸球検査’, ‘ｃ’: ‘血清総 IgE 検査’, ‘ｄ’: ‘末梢血好酸球数測定’, ‘ｅ’: ‘血清特異的 IgE 検査’},
{‘qnum’: ‘問題3’, ‘ａ’: ‘胆石’, ‘ｂ’: ‘肥満’, ‘ｃ’: ‘貧血’, ‘ｄ’: ‘耐糖能異常’, ‘ｅ’: ‘門脈圧亢進’}

python は、


    def createdic( self ):       
        elar = self.totaltxt.split('\n')        
        for eline in elar:
            qn = re.match(r'問題\d+', eline)
            al = re.findall(r'[ａ-ｚ]　.+?(?=[ａ-ｚ]|$)', eline)      
            if qn:
                mc_dict = {'qnum': qn[0]}               
                for el in al:
                    key = re.match(r'(^[ａ-ｚ])', el)
                    value = re.sub(r'([ａ-ｚ])　', '', el)
                    mc_dict[key[0]] = value
                for missing_key in ['ｆ', 'ｇ', 'ｈ']:
                    mc_dict.setdefault(missing_key, '')       
                self.choice_list.append(mc_dict)

データベースへの書き込み

辞書を以下の python で mysql に書き込みます。


     def insertDB( self ):
        connection = mysql.connector.connect(
            host = "localhost",
            user = self.username,
            password = self.password,
            database= self.mysqldb
        )
        cursor = connection.cursor()
        insert_query = "INSERT INTO your_table (qnum, a, b, c, d, e, f, g, h) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s)"
        cursor.executemany(insert_query, [(item['qnum'], item['ａ'], item['ｂ'], item['ｃ'], item['ｄ'], item['ｅ'], item['ｆ'], item['ｇ'], item['ｈ']) for item in self.choice_list])  
        connection.commit()      
        cursor.close()
        connection.close()