日常生活をテーマにしたLLM事前学習用のフリー日本語データセットです。
概要
高校生の「私」やクラスメイト・先輩・先生・父母などの日常生活に関する日本語短文集(1370文/24946トークン)です。
このデータセットは人名・地名を入れない方針で作成しましたが、汎用性を考慮してトークナイザーにはある程度の人名・地名を入れています。
出力例
実際にLlama 1.8Bモデルでスクラッチ事前学習を行って出力させてみると「何となく繋がっている部分もあるけど、全体としては無茶苦茶」な文が多いのですが、こんな感じの文を出力することもあります。
私は、服を:
私は、服を着た 。
私は、ジュースを:
私は、ジュースを買うために自転車でコンビニに行った。
私は、買い物をするために:
私は、買い物をするために電車で繁華街に行った。
私は、夕食を食べた後:
私は、夕食を食べた後に自分の部屋で宿題をした。
コンビニで:
コンビニでパンとジュースを買った 。
「何処に行っていたの?」:
「何処に行っていたの?」
「カラオケ方。観かれた」
私は、クラスメイトに聞いた。
「カラオケに行って来ていました
「何処に行くの?」
「:
「何処に行くの?」
「図書館に行ってい?」
私は、母に答えた。
私は、先輩にお礼を言った。:
私は、先輩にお礼を言った。
「ありがとうございます」
私は、クラスメイトにお礼を言った。:
私は、クラスメイトにお礼を言った。
「ありがとう」
1+1=:
1+1=2
1+2=:
1+2=3
1時の1時間後は:
1時の1時間後は、2時
ダウンロード
ダウンロード(75KB)
ライセンス:パブリックドメイン(CC0)
無制限に使用・改変・配布可能なフリーデータとしますので、LLMの日本語学習などにご活用ください。