嶋田研で作成し,公開しているもしくは公開予定のデータやツールです.

Kyutechリモートコーパス
(Kyutech Remote corpus)

4人一組による議論コーパスです.対話の設定は基本的にKyutechコーパスと同じです.大きな違いは遠隔環境での対話であることです. 本データに関する内容はNLP2026で発表されました.
※本研究は科研費 23K11368 の助成を受けたものです.

対話データ [Download] Version 1.0版
※データの詳細については,上記のNLP2026での論文をご確認ください.なお,ダウンロード後に解凍されたファイルにNLP2026で発表に利用したポスターのデータも入っています.
    本データ(Version 1.0の一部のみを含む)を利用した論文は以下の通りです.
  1. 脇田 健照, 嶋田 和孝.LLMを用いた複数人議論における視線推定. 火の国シンポジウム, B-3-1, 2026.
  2. 波多野 翔貴, 嶋田 和孝. 複数人遠隔対話コーパスの構築と取りまとめ役の特徴の分析. 電子情報通信学会 九州支部 第33回 学生会講演会, D-59, 2025.
ライセンス:
 本コーパスは自由にご利用頂けます.ただし,改変や再配布等は禁止します.

本コーパスに対して,ご意見やご要望がありましたら,下記までご連絡ください.
■九州工業大学 大学院情報工学研究院 知能情報工学研究系
 嶋田 和孝(

Kyutechディベートコーパス
(Kyutech Debate corpus)

2名1組のペアに対するディベートコーパス(合計4名での対話)です. このコーパスのデータは前半が討論(ディベート)で後半が合意形成になっています. それぞれが5対話あり,合計で10対話が収録されています. 討論・合意形成とも20分間の対話です.
※本研究は科研費 17H01840 および 20K12110 の助成を受けたものです.

対話データ [Download] Version 3.0版
下記のVersion 1.0のデータに参加者の視線情報が付与されたデータです.

対話データ [Download] Version 2.0版
下記のVersion 1.0のデータに談話行為タグ(Dialogue Act)が付与されたデータです.

対話データ [Download] Version 1.0版
※データの詳細については,上記データファイル中の塩田宰の修士論文をご確認ください.

コーパスそのものには音声情報,顔情報,姿勢情報を数値化したデータも存在しますが,サイズが大きいため(10GB程度),テキスト(発話)データだけを公開しています. マルチモーダルなデータが必要な場合は 九工大・嶋田 までお問い合わせください.
    本データを利用した論文は以下の通りです.データの詳細については,上記データファイル中の塩田宰の修士論文をご確認ください.
  1. Shunsuke Hashiguchi and Kazutaka Shimada. Japanese-English Model Integration and GPT-4-Based Data Augmentation for Japanese Debate Quality Assessment. 2025 International Conference on Asian Language Processing (IALP), pp. 117-122, doi: 10.1109/IALP68296.2024.11156595.
  2. Kensho Wakita and Kazutaka Shimada. An utterance is enough to the gaze? Gaze detection from utterance information in multiparty discussion. Proceedings of the 6th International Conference on Activity and Behavior Computing, 2024.
  3. Tsukasa Shiota and Kazutaka Shimada. Annotation and multi-modal methods for quality assessment of multi-party discussion. Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation, pp. 175-182, 2022.
  4. 塩田 宰,嶋田 和孝: マルチモーダル情報を用いた複数人議論の品質評価, 人工知能学会 第91回 言語・音声理解と対話処理研究会, SIG-SLUD-C003-20, pp. 116-121, 2021.
  5. Tsukasa Shiota and Kazutaka Shimada: The Discussion Corpus toward Argumentation Quality Assessment in Multi-Party Conversation, Proceedings of the 9th International Congress on Advanced Applied Informatics (IIAI-AAI), 280-283, 2020.
  6. 塩田 宰, 嶋田 和孝: 議論参加者の陳述評価に向けた複数人議論コーパスの構築, 電子情報通信学会 言語理解とコミュニケーション研究会, NLC2019-36, pp. 1-6, 2020.
ライセンス:
 本コーパスは自由にご利用頂けます.ただし,改変や再配布等は禁止します.

本コーパスに対して,ご意見やご要望がありましたら,下記までご連絡ください.
■九州工業大学 大学院情報工学研究院 知能情報工学研究系
 嶋田 和孝(

Kyutechコーパス (Kyutech corpus)

4人の話者による意思決定タスク対話です.参加者は架空のショッピングモールの経営者という役割で,ショッピングモールのレストラン街に新規出店するレストランを3件の候補の中から1つ選択します. 対話の前にショッピングモールの情報,ショッピングモールのある市の人口などの統計情報,隣接する町や市の統計情報,候補店の情報,既存店の情報などが書かれた資料が渡されます. その資料を10分黙読したのち,20分の対話を行います.
書き起こした各発話にはその発話のトピックが振られています. また,議論内容の要約データも含まれています.
※本研究は科研費 26730176, 17H01840, 20K12110 の助成を受けたものです.
対話データ・対話資料一式 [Download] Version 3.0版
トピック単位の参照要約と抽出要約を含むデータです(Ver.1.0 および Ver.2.0 のデータは含んでいませんのでご注意ください.)
発話の単位はVer1.0と同じです.
対話データ・対話資料一式 [Download] Version 2.0版
※抽出要約と対話行為タグを含む Version 2.0 です.
ただし,対話行為については Version 1.0 と発話の単位が少し異なりますのでご注意ください(長い発話単位).
対話データ・対話資料一式 [Download] Version 1.0版
※参照要約を含む Version 1.0 を公開しました(2016/9/25).
ライセンス:
 本コーパスは自由にご利用頂けます.ただし,改変や再配布等は禁止します.

本コーパスに対して,ご意見やご要望がありましたら,下記までご連絡ください.
■九州工業大学 大学院情報工学研究院 知能情報工学研究系
 嶋田 和孝(
    以下はKyutechコーパスを利用した研究の一覧です.
  1. Takashi Yamamura, Masato Hino and Kazutaka Shimada: Dialogue Act Annotation and Identification in a Japanese Multi-party Conversation Corpus, Proceedings of Asia-Pacific Corpus Linguistics Conferenc (APCLC2018).
  2. Tsukasa Shiota, Takashi Yamamura and Kazutaka Shimada: Analysis of facilitators' behaviors in multi-party conversations for constructing a digital facilitator system, Proceedings of the tenth International Conference on Collaboration Technologies (CollabTech 2018), pp.145-158, 2018.
  3. Takashi Yamamura and Kazutaka Shimada: Annotation and Analysis of Extractive Summaries for the Kyutech Corpus, Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC 2018), pp. 3216-3220, 2018.
  4. 山村 崇, 嶋田 和孝: Kyutechコーパスにおける抜粋要約のアノテーションと分析 (言語資源賞), 言語処理学会第23回年次大会(NLP2017), P2-7, pp. 146-149, 2017.
  5. Takashi Yamamura, Kazutaka Shimada and Shintaro Kawahara: The Kyutech corpus and the topic segmentation using a combined method, Proceedings of the 12th Workshop on Asian Language Resources, 2016.
  6. 日野 優登, 山村 崇, 嶋田 和孝: Kyutech コーパスにおける発話意図タグの設計と分析, 電子情報通信学会, 言語理解とコミュニケーション研究会 (NLC), 第3回自然言語処理シンポジウム, 2016.
  7. 嶋田 和孝, 山村 崇,河原真太郎, Giuseppe Carenini, Raymond T. Ng: Kyutechコーパス:意思決定タスクを対象とした複数人対話コーパス, 言語処理学会第22回年次大会(NLP2016), P19-7, pp. 1097-1100, 2016.
  8. 山村 崇, 嶋田和孝: 語彙的連鎖とトピックモデルに基づくテキストセグメンテーション, 言語処理学会第22回年次大会(NLP2016), P14-6, pp. 569-572, 2016.

雑談対話コーパス (Kyutech Chat corpus)

4人の参加者による対話データです.参加者はある1つのトピック(今年のプロ野球など)を与えられ,それについて雑談をしています. 対話データには,盛り上がり度,笑いの有無,各発話の重要度などのタグが振られています.
対話データ一式 [Download]
ライセンス:
 本コーパスは自由にご利用頂けます.ただし,改変や再配布等は禁止します.

本コーパスに対して,ご意見やご要望がありましたら,下記までご連絡ください.
■九州工業大学 大学院情報工学研究院 知能情報工学研究系
 嶋田 和孝(
    以下はこの雑談コーパスを利用した研究の一覧です.
  1. Yo Tokunaga and Kazutaka Shimada: Extractive Summarization Based on a Combined Method Using Several Features for Multi-Party Conversation, ACIS International Journal of Computer and Information Science, Vol. 16, No. 2, pp. 12-21, 2015.
  2. Kazutaka Shimada, Shinpei Toyodome, and Tsutomu Endo. Conversation summarization using machine learning and scoring method, Proceedings of the 13th Conference of the Pacific Association for Computational Linguistics (PACLING2013), 2013.
  3. 河原 真太郎, 山村 崇, 嶋田 和孝. 音声情報を用いた複数人自由対話における重要文抽出, 火の国情報シンポジウム2016, 4A-2, 2016.
  4. 山村 崇, 徳永 陽, 嶋田和孝: 時間情報とテキストセグメンテーションに基づく複数人対話要約手法, 電子情報通信学会, 言語理解とコミュニケーション研究会 (NLC), 2015.
  5. 山村 崇, 徳永 陽, 嶋田 和孝. 発話タイミングに注目した複数人自由対話要約手法の検討, 2014年度電子情報通信学会九州支部学生会講演会, D-38, 2014. 学生会講演奨励賞
  6. 徳永 陽, 嶋田 和孝. 非言語情報と重要文の選定に基づく複数人自由対話要約手法の改善, 言語処理学会第20回年次大会, P6-18, pp.642-645, 2014.
  7. 横山 貴彦, 嶋田 和孝, 遠藤 勉. 複数人談話における言語情報と非言語情報を利用した盛り上がり判定, 言語処理学会第18回年次大会(NLP2012), P1-25, pp. 291-294, 2012.

金鷲旗/玉竜旗大会の戦評自動生成システム

西日本新聞社との「記事の自動生成システム」に関する共同研究の成果として,令和元年度の金鷲旗/玉竜旗大会の戦評自動生成システムがTwitter上で稼働しています.
本システムに関する情報が7月23日(火)の西日本新聞朝刊と7月28日(日)の西日本新聞朝刊「オピニオン:AIのある未来へ」に掲載されました.
システム開発は本研究室の塩田 宰くんが担当し,技術的には田川 and 嶋田 (2018)の前半部分の内容を本共同研究のために改良したものが利用されています.


Tatara: アノテーションツール

下記の論文で発表されたアノテーションツールを公開予定でしたが,作成者の卒業などに伴い,公開を取りやめております. 申し訳ありません.ご理解のほどをよろしくお願いいたします.