高校生の日常生活をテーマにしたLLM事前学習用のフリー日本語データセット第二弾です。
概要
何人かの高校生を中心にクラスメイト・先輩・先生・父母などの日常生活に関する短文を集めた日本語データセット(1693文/27614トークン)です。
出力例
実際にLlama 3.7Bモデルでスクラッチ事前学習を行って出力させてみると「何となく繋がっている部分もあるけど、全体としてはよく分からない」文が多いのですが、こんな感じの文を出力することもあります。
琴音は、彩華と一緒に:
琴音は、彩華と一緒に遊園地に行くために駅に行った。
裕子は、買い物をするために:
裕子は、買い物をするために池袋に行った。
裕子は、スーパーで:
裕子は、スーパーで買い物をする。
彩華は、自分の部屋で:
彩華は、自分の部屋でチョコレートを食べた後にコンビニに行った。
1+1=:
1 + 1 = 2
ダウンロード
ダウンロード(72KB)
ライセンス:パブリックドメイン(CC0)
無制限に使用・改変・配布可能なフリーデータとしますので、LLMの日本語学習などにご活用ください。