九州工業大学知能情報工学科嶋田研究室：研究データ

嶋田研で作成し，公開しているもしくは公開予定のデータやツールです．

4人一組による議論コーパスです．対話の設定は基本的にKyutechコーパスと同じです．大きな違いは遠隔環境での対話であることです．本データに関する内容はNLP2026で発表されました．
※本研究は科研費 23K11368 の助成を受けたものです．

対話データ [Download] Version 1.0版
※データの詳細については，上記のNLP2026での論文をご確認ください．なお，ダウンロード後に解凍されたファイルにNLP2026で発表に利用したポスターのデータも入っています．

Version1.0をご利用の際には以下の論文を引用してください．

波多野翔貴，嶋田和孝．複数人遠隔対話コーパスの構築とLLMを用いた取りまとめ役の特徴分析，言語処理学会第32回年次大会(NLP2026)，Q4-17，2026．

本データ（Version 1.0の一部のみを含む）を利用した論文は以下の通りです．

脇田健照, 嶋田和孝.LLMを用いた複数人議論における視線推定. 火の国シンポジウム, B-3-1, 2026.
波多野翔貴, 嶋田和孝. 複数人遠隔対話コーパスの構築と取りまとめ役の特徴の分析. 電子情報通信学会九州支部第33回学生会講演会, D-59, 2025.

ライセンス：

　本コーパスは自由にご利用頂けます．ただし，改変や再配布等は禁止します．

本コーパスに対して，ご意見やご要望がありましたら，下記までご連絡ください．
■九州工業大学大学院情報工学研究院知能情報工学研究系
　嶋田和孝（

）

2名1組のペアに対するディベートコーパス（合計4名での対話）です．このコーパスのデータは前半が討論（ディベート）で後半が合意形成になっています．それぞれが5対話あり，合計で10対話が収録されています．討論・合意形成とも20分間の対話です．
※本研究は科研費 17H01840 および 20K12110 の助成を受けたものです．

対話データ [Download] Version 3.0版
下記のVersion 1.0のデータに参加者の視線情報が付与されたデータです．

対話データ [Download] Version 2.0版
下記のVersion 1.0のデータに談話行為タグ（Dialogue Act）が付与されたデータです．

対話データ [Download] Version 1.0版
※データの詳細については，上記データファイル中の塩田宰の修士論文をご確認ください．

コーパスそのものには音声情報，顔情報，姿勢情報を数値化したデータも存在しますが，サイズが大きいため（10GB程度），テキスト（発話）データだけを公開しています．マルチモーダルなデータが必要な場合は九工大・嶋田までお問い合わせください．

Version3.0をご利用の際には以下の論文を引用してください．

Kensho Wakita and Kazutaka Shimada. An utterance is enough to the gaze? Gaze detection from utterance information in multi-party discussion. ABC2024.

Version2.0をご利用の際には以下の論文を引用してください．

米満駿甫, 嶋田和孝: 複数の議論コーパスを利用した談話行為推定, 2022年度人工知能学会全国大会（第36回）, 3H2-OS-12a-04, 4 pages, 2022.

Version1.0をご利用の際には以下の論文を引用してください．

Tsukasa Shiota and Kazutaka Shimada. Annotation and multi-modal methods for quality assessment of multi-party discussion. Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation, pp. 175-182, 2022.

本データを利用した論文は以下の通りです．データの詳細については，上記データファイル中の塩田宰の修士論文をご確認ください．

Shunsuke Hashiguchi and Kazutaka Shimada. Japanese-English Model Integration and GPT-4-Based Data Augmentation for Japanese Debate Quality Assessment. 2025 International Conference on Asian Language Processing (IALP), pp. 117-122, doi: 10.1109/IALP68296.2024.11156595.
Kensho Wakita and Kazutaka Shimada. An utterance is enough to the gaze? Gaze detection from utterance information in multiparty discussion. Proceedings of the 6th International Conference on Activity and Behavior Computing, 2024.
Tsukasa Shiota and Kazutaka Shimada. Annotation and multi-modal methods for quality assessment of multi-party discussion. Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation, pp. 175-182, 2022.
塩田宰，嶋田和孝: マルチモーダル情報を用いた複数人議論の品質評価, 人工知能学会第91回言語・音声理解と対話処理研究会, SIG-SLUD-C003-20, pp. 116-121, 2021.
Tsukasa Shiota and Kazutaka Shimada: The Discussion Corpus toward Argumentation Quality Assessment in Multi-Party Conversation, Proceedings of the 9th International Congress on Advanced Applied Informatics (IIAI-AAI), 280-283, 2020.
塩田宰, 嶋田和孝: 議論参加者の陳述評価に向けた複数人議論コーパスの構築, 電子情報通信学会言語理解とコミュニケーション研究会, NLC2019-36, pp. 1-6, 2020.

ライセンス：

）

4人の話者による意思決定タスク対話です．参加者は架空のショッピングモールの経営者という役割で，ショッピングモールのレストラン街に新規出店するレストランを3件の候補の中から1つ選択します．対話の前にショッピングモールの情報，ショッピングモールのある市の人口などの統計情報，隣接する町や市の統計情報，候補店の情報，既存店の情報などが書かれた資料が渡されます．その資料を10分黙読したのち，20分の対話を行います．
書き起こした各発話にはその発話のトピックが振られています．また，議論内容の要約データも含まれています．
※本研究は科研費 26730176, 17H01840, 20K12110 の助成を受けたものです．

対話データ・対話資料一式 [Download] Version 3.0版
トピック単位の参照要約と抽出要約を含むデータです（Ver.1.0 および Ver.2.0 のデータは含んでいませんのでご注意ください．）
発話の単位はVer1.0と同じです．

本データに関する情報は以下の論文に記載されています．ご利用の際は下記を引用してください．

中山友梨, 塩田宰, and 嶋田和孝. 複数人対話におけるトピック単位の要約データの構築とその要約. 電子情報通信学会言語理解とコミュニケーション研究会, Vol. 121, No. 82, NLC2021-4, pp.19-24, 2021.

対話データ・対話資料一式 [Download] Version 2.0版
※抽出要約と対話行為タグを含む Version 2.0 です．
ただし，対話行為については Version 1.0 と発話の単位が少し異なりますのでご注意ください（長い発話単位）．

本データに関する情報は以下の論文に記載されています．

Takashi Yamamura, Masato Hino and Kazutaka Shimada: Dialogue Act Annotation and Identification in a Japanese Multi-party Conversation Corpus, Proceedings of Asia-Pacific Corpus Linguistics Conferenc (APCLC2018).
Takashi Yamamura and Kazutaka Shimada: Annotation and Analysis of Extractive Summaries for the Kyutech Corpus, Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC 2018), pp. 3216-3220, 2018.

対話データ・対話資料一式 [Download] Version 1.0版
※参照要約を含む Version 1.0 を公開しました(2016/9/25)．

ご利用の際には以下の論文のいずれかを引用してください．

Takashi Yamamura, Kazutaka Shimada and Shintaro Kawahara: The Kyutech corpus and topic segmentation using a combined method, Proceedings of the 12th Workshop on Asian Language Resources, 2016.
嶋田和孝, 山村崇,河原真太郎, Giuseppe Carenini, Raymond T. Ng: Kyutechコーパス：意思決定タスクを対象とした複数人対話コーパス, 言語処理学会第22回年次大会(NLP2016), P19-7, pp. 1097-1100, 2016.

ライセンス：

）

以下はKyutechコーパスを利用した研究の一覧です．

Takashi Yamamura, Masato Hino and Kazutaka Shimada: Dialogue Act Annotation and Identification in a Japanese Multi-party Conversation Corpus, Proceedings of Asia-Pacific Corpus Linguistics Conferenc (APCLC2018).
Tsukasa Shiota, Takashi Yamamura and Kazutaka Shimada: Analysis of facilitators' behaviors in multi-party conversations for constructing a digital facilitator system, Proceedings of the tenth International Conference on Collaboration Technologies (CollabTech 2018), pp.145-158, 2018.
Takashi Yamamura and Kazutaka Shimada: Annotation and Analysis of Extractive Summaries for the Kyutech Corpus, Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC 2018), pp. 3216-3220, 2018.
山村崇, 嶋田和孝: Kyutechコーパスにおける抜粋要約のアノテーションと分析 (言語資源賞), 言語処理学会第23回年次大会(NLP2017), P2-7, pp. 146-149, 2017.
Takashi Yamamura, Kazutaka Shimada and Shintaro Kawahara: The Kyutech corpus and the topic segmentation using a combined method, Proceedings of the 12th Workshop on Asian Language Resources, 2016.
日野優登, 山村崇, 嶋田和孝: Kyutech コーパスにおける発話意図タグの設計と分析, 電子情報通信学会, 言語理解とコミュニケーション研究会 (NLC), 第3回自然言語処理シンポジウム, 2016.
嶋田和孝, 山村崇,河原真太郎, Giuseppe Carenini, Raymond T. Ng: Kyutechコーパス：意思決定タスクを対象とした複数人対話コーパス, 言語処理学会第22回年次大会(NLP2016), P19-7, pp. 1097-1100, 2016.
山村崇, 嶋田和孝: 語彙的連鎖とトピックモデルに基づくテキストセグメンテーション, 言語処理学会第22回年次大会(NLP2016), P14-6, pp. 569-572, 2016.

4人の参加者による対話データです．参加者はある1つのトピック（今年のプロ野球など）を与えられ，それについて雑談をしています．対話データには，盛り上がり度，笑いの有無，各発話の重要度などのタグが振られています．

対話データ一式 [Download]

ライセンス：

）

ご利用の際には以下の論文のどれかを引用してください．

[要約の場合] Yo Tokunaga and Kazutaka Shimada: Multi-party conversation summarization based on sentence selection using verbal and nonverbal information, Proceedings of the 2nd International Conference on Smart Computing and Artificial Intelligence (ICSCAI 2014).
[盛り上がり度の場合] 嶋田和孝, 楠本章裕, 横山貴彦, 遠藤勉: 複数人談話における笑いの情報を考慮した盛り上がり判定, 電子情報通信学会, 言語理解とコミュニケーション研究会 (NLC), NLC2012-7, pp. 25-30, 2012. NLC 2014年優秀研究賞受賞

以下はこの雑談コーパスを利用した研究の一覧です．

Yo Tokunaga and Kazutaka Shimada: Extractive Summarization Based on a Combined Method Using Several Features for Multi-Party Conversation, ACIS International Journal of Computer and Information Science, Vol. 16, No. 2, pp. 12-21, 2015.
Kazutaka Shimada, Shinpei Toyodome, and Tsutomu Endo. Conversation summarization using machine learning and scoring method, Proceedings of the 13th Conference of the Pacific Association for Computational Linguistics (PACLING2013), 2013.
河原真太郎, 山村崇, 嶋田和孝. 音声情報を用いた複数人自由対話における重要文抽出, 火の国情報シンポジウム2016, 4A-2, 2016.
山村崇, 徳永陽, 嶋田和孝: 時間情報とテキストセグメンテーションに基づく複数人対話要約手法, 電子情報通信学会, 言語理解とコミュニケーション研究会 (NLC), 2015.
山村崇, 徳永陽, 嶋田和孝. 発話タイミングに注目した複数人自由対話要約手法の検討, 2014年度電子情報通信学会九州支部学生会講演会, D-38, 2014. 学生会講演奨励賞
徳永陽, 嶋田和孝. 非言語情報と重要文の選定に基づく複数人自由対話要約手法の改善, 言語処理学会第20回年次大会, P6-18, pp.642-645, 2014.
横山貴彦, 嶋田和孝, 遠藤勉. 複数人談話における言語情報と非言語情報を利用した盛り上がり判定, 言語処理学会第18回年次大会(NLP2012), P1-25, pp. 291-294, 2012.

西日本新聞社との「記事の自動生成システム」に関する共同研究の成果として，令和元年度の金鷲旗/玉竜旗大会の戦評自動生成システムがTwitter上で稼働しています．
本システムに関する情報が7月23日(火)の西日本新聞朝刊と7月28日(日)の西日本新聞朝刊「オピニオン：AIのある未来へ」に掲載されました．
システム開発は本研究室の塩田宰くんが担当し，技術的には田川 and 嶋田 (2018)の前半部分の内容を本共同研究のために改良したものが利用されています．

下記の論文で発表されたアノテーションツールを公開予定でしたが，作成者の卒業などに伴い，公開を取りやめております．申し訳ありません．ご理解のほどをよろしくお願いいたします．

山村崇, 嶋田和孝, 吉川和, 岩倉友哉: Tatara: 支援機能を持ったアノテーションツールの構築. 言語処理学会第25回年次大会, NLP2019.

Kyutechリモートコーパス
(Kyutech Remote corpus)

2026Remoto

Kyutechディベートコーパス
(Kyutech Debate corpus)

2021DB

Kyutechコーパス (Kyutech corpus)

2015DM

雑談対話コーパス (Kyutech Chat corpus)

金鷲旗/玉竜旗大会の戦評自動生成システム

Tatara: アノテーションツール

Kyutechリモートコーパス(Kyutech Remote corpus)

2026Remoto

Kyutechディベートコーパス (Kyutech Debate corpus)

2021DB

Kyutechコーパス (Kyutech corpus)

2015DM

雑談対話コーパス (Kyutech Chat corpus)

金鷲旗/玉竜旗大会の戦評自動生成システム

Tatara: アノテーションツール

Kyutechリモートコーパス
(Kyutech Remote corpus)

Kyutechディベートコーパス
(Kyutech Debate corpus)