日常生活をテーマにしたLLM事前学習用のフリー日本語データセットです。

概要

高校生の「私」やクラスメイト・先輩・先生・父母などの日常生活に関する日本語短文集(1370文/24946トークン)です。

このデータセットは人名・地名を入れない方針で作成しましたが、汎用性を考慮してトークナイザーにはある程度の人名・地名を入れています。

出力例

実際にLlama 1.8Bモデルでスクラッチ事前学習を行って出力させてみると「何となく繋がっている部分もあるけど、全体としては無茶苦茶」な文が多いのですが、こんな感じの文を出力することもあります。

私は、服を:


私は、服を着た 。

私は、ジュースを:


私は、ジュースを買うために自転車でコンビニに行った。

私は、買い物をするために:


私は、買い物をするために電車で繁華街に行った。

私は、夕食を食べた後:


私は、夕食を食べた後に自分の部屋で宿題をした。

コンビニで:


コンビニでパンとジュースを買った 。

「何処に行っていたの?」:


「何処に行っていたの?」
「カラオケ方。観かれた」
私は、クラスメイトに聞いた。
「カラオケに行って来ていました

「何処に行くの?」
「:


「何処に行くの?」
「図書館に行ってい?」
私は、母に答えた。

私は、先輩にお礼を言った。:


私は、先輩にお礼を言った。
「ありがとうございます」

私は、クラスメイトにお礼を言った。:


私は、クラスメイトにお礼を言った。
「ありがとう」

1+1=:


1+1=2

1+2=:


1+2=3

1時の1時間後は:


1時の1時間後は、2時

ダウンロード

ダウンロード(75KB)

ライセンス:パブリックドメイン(CC0)

無制限に使用・改変・配布可能なフリーデータとしますので、LLMの日本語学習などにご活用ください。


創作プログラミングの街 > データ