COVID-19(コロナウィルス )に関係するツイートかどうかをクラウドソーシングにより分析し,分析結果を公開しています.
データはCSVファイルで圧縮されています.ツイートの本文は含まれていません. 2020年1月ごろから6月ごろのツイートを対象にしています.
53,640 件のツイートの分析が行われています.5名〜10名の作業者により評価を行い,多数決を行った結果です.対象となるツイートは,「COVID」もしくは「コロナ」を含むツイートです.ニコニコ動画 について(niCOVIDeo)や,コロナビール についてなど,COVID-19
事実と感想が含まれているツイートの場合は,感想となる場合が多いです.たとえば,「給付金が給付されたが私のところには来ないのは許せない」というツイートがあったとき,給付金が給付されないというのは個人事実に相当しますが,それに対する意見・感想として「許せない」と書かれているので,この場合は意見・感想(65) になります.
このデータに関係する論文はまだ公開されていません.「鈴木 優: COVID-19 日本語 Twitter データセット(http://www.db.info.gifu-u.ac.jp/data/Data_5f02db873363f976fce930d1)」と引用してください.順序などは自由に入れ替えていただいて構いません.
このデータを作成するにあたり,大川情報通信基金研究助成 を活用しました.感謝いたします.
データ作成者が日本語BERT訓練済みモデル を用いて分類を行ったところ,10交差検定で Accuracy 0.668,F1-score 0.826 という結果が出ました.
ysuzuki at gifu-u.ac.jp