Skip to content

次世代デジタルライブラリーからのテキストデータのダウンロードと新旧かな判定ツール

License

Notifications You must be signed in to change notification settings

ndl-lab/NextDLAnalyzer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

第27回図書館総合展 国立国会図書館主催フォーラム付録ツール

次世代デジタルライブラリーからのテキストデータのダウンロードと新旧かな判定ツール

Open In Colab

TF-IDF特徴量とLightGBMによる、テキストデータの旧かな/新かな自動判定機能を有した、ダウンローダです。

このツールは 第27回図書館総合展 国立国会図書館主催フォーラム「NDLラボの公開ツールを使ってみよう!—NDL古典籍OCR-Liteや古典籍・近代自筆資料への全文検索が広げる資料探索の可能性—」 のために作成したものです。

使い方

Open in Colabボタンを押すとGoogle Colabotatoryノートブック(外部サイト)が開く。

次のUIが表示されるので、検索・取得したい内容を入れる。

上部に表示されるバーから、「すべてのセルを実行」ボタンを押す。

次の警告が出るので、「このまま実行」ボタンを押す。

しばらく待つと上部から順番にコードが実行される。

次の「テキストDL」ボタンを押すと、取得したテキストデータをダウンロードできる。

次の「判定結果DL」ボタンを押すと、機械学習モデルによる新かな旧かな判定結果を含めた表をダウンロードできる。

About

次世代デジタルライブラリーからのテキストデータのダウンロードと新旧かな判定ツール

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published