高校生の日常生活をテーマにしたLLM事前学習用のフリー日本語データセット第二弾です。

概要

何人かの高校生を中心にクラスメイト・先輩・先生・父母などの日常生活に関する短文を集めた日本語データセット(1693文/27614トークン)です。

出力例

実際にLlama 3.7Bモデルでスクラッチ事前学習を行って出力させてみると「何となく繋がっている部分もあるけど、全体としてはよく分からない」文が多いのですが、こんな感じの文を出力することもあります。

琴音は、彩華と一緒に:


琴音は、彩華と一緒に遊園地に行くために駅に行った。

裕子は、買い物をするために:


裕子は、買い物をするために池袋に行った。

裕子は、スーパーで:


裕子は、スーパーで買い物をする。

彩華は、自分の部屋で:


彩華は、自分の部屋でチョコレートを食べた後にコンビニに行った。

1+1=:


1 + 1 = 2

ダウンロード

ダウンロード(72KB)

ライセンス:パブリックドメイン(CC0)

無制限に使用・改変・配布可能なフリーデータとしますので、LLMの日本語学習などにご活用ください。


創作プログラミングの街 > データ