次世代デジタルライブラリーからのテキストデータのダウンロードと新旧かな判定ツール
TF-IDF特徴量とLightGBMによる、テキストデータの旧かな/新かな自動判定機能を有した、ダウンローダです。
このツールは 第27回図書館総合展 国立国会図書館主催フォーラム「NDLラボの公開ツールを使ってみよう!—NDL古典籍OCR-Liteや古典籍・近代自筆資料への全文検索が広げる資料探索の可能性—」 のために作成したものです。
Open in Colabボタンを押すとGoogle Colabotatoryノートブック(外部サイト)が開く。
次のUIが表示されるので、検索・取得したい内容を入れる。
上部に表示されるバーから、「すべてのセルを実行」ボタンを押す。
次の警告が出るので、「このまま実行」ボタンを押す。
しばらく待つと上部から順番にコードが実行される。
次の「テキストDL」ボタンを押すと、取得したテキストデータをダウンロードできる。
次の「判定結果DL」ボタンを押すと、機械学習モデルによる新かな旧かな判定結果を含めた表をダウンロードできる。




