群馬大学理工学部

電子情報部門の長井歩助教が第23回PRMUアルゴリズムコンテストにて準優勝しました。

 電子情報部門の長井歩助教が、第23回PRMUアルゴリズムコンテストにて準優勝し、2019年12月19日に表彰されました。今回のアルゴリズムコンテストは3文字の「崩し字」の認識を行い、その正解率を競う大会でした。210チームがエントリし、41チームが実際に応募しました。
 百数十年以上前まで識字率の高い我が国では、ほぼ全ての国民が崩し字を読めていました。しかし明治中後期以後、学校教育で教えなくなったために一般の人には読めなくなり、1000年以上使われてきた崩し字を読める人は今や絶滅危惧種になってしまいました。しかし過去の一次史料を読むためには、崩し字を読むことは避けて通れません。
 崩し字は色々な意味で多様です。まず、それぞれの文字が崩されていますが、その崩し方が多様です。崩しの度合いもさることながら、基本的な書き順を変えることも多いですが、その際の書き順の変え方も複数ある場合があります。次に、文字と文字がくっついているので、どこで切れるのかを見誤ると文字認識に失敗します。さらに、漢字には異体字があります。例えば「野」に対する「埜」のような漢字です。
 今回のコンテストで認識対象となったのは仮名ですが、仮名も多様です。まず、平仮名は漢字を崩して誕生したので、当然崩しの度合いが多様です。元の漢字を字母と言いますが、どこまで崩したら平仮名で、どこまでが字母なのかという線引きが曖昧です。次に、字母が複数あります。例えば「け」の字母は「計」ですが、「希」を字母とする”ke”と読む仮名や、「介」を字母とする”ke”と読む仮名などがあります。さらに、複数の仮名が合体した合字も存在します。今回のアルゴリズムコンテストでは合字は範囲外でしたが、一般の人が見たこともない多種多様な崩しの仮名を、深層学習にて学習し認識させることで競いました。
 ついでながら、今年度は本件とは別に崩し字で書かれた古文書をページ単位でまるごと文字認識するコンテストがKaggleにて開催されました。このコンテストにも参加しましたが、293チーム中6位となり、賞金圏内である5位以内に入ることができず惜敗しました。
(文責:電子情報部門 助教 長井歩)