1. はじめに 質問応答システムは、現在の自然言語処理で可能なレベルの技術を組み合わせて 実現が可能だと考えられる興味深いアプリケーションのひとつである。この技術の 発展のために、質問応答例を大量に作成することは今後の本アプリケーションの 迅速な実現のために不可欠である。特に、システムの実現のために有用と考え られる情報の付与は、まだきちんとした定義は作成されてはいないが、それでも どのようなものが必要とされているかを探るために、手間暇を掛けてでも作成 しておくことは有用であると考えられる。また、実際に、環境の規定のあまりない 状況において、どのようなタイプの質問がなされるかを知ることも重要である。 このような知見に基づき、質問応答例を作成した。質問応答例は2000個に 上り、現在あるこのようなデータではかなり大きなものであると考えられる。 質問応答例は、新聞記事を見て作成したものであるが、質問の種類の分布も興味 あるものが得られている。 以下の作成したデータのサンプルを示す。そして、次の章では、データの各項目 の説明、3章では本データをどのように作成したかという履歴と、作成仮定での 統計量などを示す。APPENDIXではその他の統計量や作業をしてもらった 時の作業指針を載せる。 --- データのサンプル ----------------------------------- CRL-QA2002-00006-01 一九五三年十月、日韓会談で日本側の首席代表を務めたのは誰か? 人名 首席代表 A 久保田貫一郎 951111007 CRL-QA2002-00344-01 鉄鋼大手各社の要員削減では転籍、早期退職者への割り増し退職金支払いに伴い特別退職損失が生じたが、三百十億円を計上したのはどこか? どこ 企業名 A 新日鉄 951111190 951111079 CRL-QA2002-01151-01 二階俊博氏は何党に所属していますか? なに+漢字 政党名 B 新進 新進党 950121013 951229017 950117189 950520008 新生党 950111031 CRL-QA2002-01443-01 シンセサイザー演奏家の矢吹紫帆さんが阪神大震災の救援コンサートを開く公園の名前は何ですか? なに+ひらがな 公園名 公園 B 若松 若松公園 950222232 南駒栄公園 950402191 CRL-QA2002-01160-01 日本生命の、阪神大震災の被災者への生命保険金の支払推計額は何億円程度でしょう? なに+漢字 金額表現 A 二百億円 950121063 CRL-QA2002-01271-01 一月一日付でマッキャンエリクソンの社長に就任する坂田耕氏の現在の役職は何か? なに+ひらがな 地位名 役職 A 制作本部長 951111077 CRL-QA2002-01729-01 競馬の騎手の武豊はデビューから何年間で1000勝を達成したか? 何年 年期間 A 9年 951111253 CRL-QA2002-01838-01 知床国立公園は年間何人余りが訪れる観光地であるか? 何人 人数 A 150万人 951111240 -------------------------------------------------------- 2.各項目の説明 2.1 QAID 質問応答例のIDを表わるQAIDは以下のようになっている。 CRL-QA2002-00001-01 それぞれ以下の意味である。 CRL: CRL作成のものであるという識別のため QA2002: QA2002年のデータであるということ CRLが将来作成するかもしれない他のデータとの識別のため 00001: 今回のデータの通し番号(00001から02000まである) 01: 各データのバージョン番号、初期ヂストリブーションではすべて01。 今後、データが更新する際には番号が増えていく 2.2 QUESTION 質問文。すべて倍角文字で、長さや文の数、最後の句点かクレスチョンマーク なと規定はまったく行なっていない。タイプミスの訂正や意味が分りにくいものを ある程度直したものを除いては、初期データ作成において作業者が作成したもの そのままである。 2.3 Q_TYPE 主に疑問詞の種類を基にした、質問文の分類。以下では、数字がその質問文の数。 次が、質問の種類のラベル、そして括弧の中は、同じ分類中にある、別の形態の 疑問詞である。例えば「何円」は「いくら」に分類されているため、「なに+ 漢字」の分類には含まれない。「なに+漢字」には「なに」の後に片仮名や 記号が来る場合も含まれている。 25 いくつ (何個、幾つ) 100 いくら (何ドル、何円) 59 いつ 4 どう 337 どこ (何処) 1 どちら 48 どの 28 どれくらい (どのくらい、どれぐらい、どのぐらい) 13 どんな (どのよう) 496 なに+ひらがな (「なに、何、なん」に平仮名が続くもの) 346 なに+漢字 (「なに、何、なん」に平仮名以外が続くもの) 87 は (文末が「は」で終るもの) 27 何% (何パーセント) 19 何時 (何分) 60 何人 (なん人) 107 何年 (何月、何日) 243 誰 (だれ) 2.4 NE_TYPE 疑問文の答になるものの固有表現のタイプ。固有表現の階層は、NYUで作成 された固有表現の階層のversion 4を仕様している(Sekine et.al LREC2002)を 参照のこと。定義は、本公開データ中にも含まれている。 2.5 CENTER_WORD 質問文の中で、答の固有表現の種類を決定するために中心的な役割を持つ単語。 たとえば、「メキシコの大統領の名前は何ですか」という質問文では答は人名の タイプになるが、これは「大統領」という単語によって規定されているため、 「大統領」がCENTER_WORDになる。ちなみに「1995年に行政改革 をやったのは?」といった疑問文のようにCENTER_WORDが存在しない 質問文も存在する。 2.6 LEVEL 質問文の程度による分類。以下のように分けているが、本データ中にはAとBしか 存在しない。 * S - 照応の「それ、あれ」等が使ってあったり、適切に時間が設定されてい なかったり して、質問の答えを適切に出すことが困難である。 (ただし、以下のBを 参照) * A - ほぼ唯一の答えが期待できる * B - 2年間の新聞記事なら5個程度の答が期待できる (日本の総理大臣、 文部大臣、イタリアの首相などの質問) * C - 照応(S)以外の理由で、答を出すのが困難。または、個答が漠然として いて具体的でない。 2.7 A_SET 解答の情報。解答が複数種類になる事もあるため、ANSWERをDOCNOを まとめて入れ子にしてある。 2.7.1 ANSWER 解答。倍角文字のみである。固有表現である名詞句に限定してある。 2.7.2 DOCNO 記事番号。この記事番号はCRLの協力の基、IREX実行委員会が主催した IREXで定められた毎日新聞の記事番号の定義による。 3.履歴と統計量 ここでは、本データをどのように作ったか、その仮定でデータの概要はどのよう なものであったのか、を説明する。 3.1 初期質問データの作成 まずは、アルバイトの方々に、初期の質問データを作成してもらって。作成は 毎日新聞の95年の内の1日の記事を各作業者に渡し、1つの記事から最大5個、同じ 文からは最大2個まで、ある程度、自由に作業者の判断で質問例を作成してもら った。その際の作業指針はAPPENDEIX Bに載せる。この段階で作成したデータの 種類は以下の4つであった。 * 質問文 * 答 * 作業者に任意に考えてもらった答のタイプ * 記事番号 3.2 4種類のデータの付与 最終的に、本データの基になったのは15人の作業による3422個の質問応答例で あった。次に、各質問データに対し、以下の4種類のタグを付与してもらった。 その際の作業指針はAPPENDIX Cに載せる。 * キーワードに印をつけた質問文に対しキーワードの種類を指定 * 質問文に対し名詞句、動詞句を縮退したパターンを作成 * 答えのクラスを指定 * 質問の程度を分類 この作業は、8人のアルバイトの人にやっていただき、大部分は作業が2人で重複 している。 3.3 質問の程度の再分類 質問応答例には、一般的すぎるものや、新聞を見ないと意味の分らな いものなどが含まれており、これらを分離するために、質問の程度の情報が重要 であると考えた。したがって、質問の程度についてのみ、さらに2人のアルバイト の人に、前の作業で2人の作業者が確実に良い、まやは確実に悪いという形で合 意しなかった2531個に対して、きちんとした基準を作成しなおし、再度分類しな おしてもらった。その際の作業指針はAPPENDIX Dに載せる。それでも合意しな かったものについては、関根が判断した。 この時のデータ数は以下のようになった。 A: 1513 B: 976 C: 316 S: 617 3.4 元データにおける質問の種類の分布 この時に、質問の中に入っている文字列に対して簡単なperlのパターンマッチ ングを行ない、質問の種類(最終的なQ_TYPE)がどのように分布しているかを 調査した結果が以下の通りである(定義については、Q_TYPEの定義を参照のこと) 15人が作成した大規模なデータであるので、新聞記事から質問を作成する際に 種類の質問がどのような分布で作成されるかを知る指針にはなると思われる。 (実際、パターンマッチングで誤る場合は1%以下であったと思われる。例: 「誰が一番」という番組は何曜に放送されましたか、はパターンマッチングのみ だけだと「誰」に分類されてしまう。) 841 何+ひらがな 511 何+漢字 486 は 433 どこ 309 誰 149 何年 136 いくら 101 何人 94 どの 81 いつ 52 何パーセント 50 どんな 44 どれくらい 41 いくつ 34 何時 28 どう 24 OTHER 8 どちら 3.5 重要な情報の選別 ここまで、アルバイトの方に色々なデータを付与してもらったが、その作業が 難解であるなどのために、役に経つデータではないと判断されたものを捨てた。 具体的には、 * 作業者に任意に考えてもらった答のタイプ * キーワードに印をつけた質問文に対しキーワードの種類を指定 * 質問文に対し名詞句、動詞句を縮退したパターンを作成 ただし、キーワードの印においては、その質問の答を規定するような単語は システム開発において重要であり、また、全体的なデータの室もそう悪いものでは ないと判断できたため、この情報は今後も取っておくこととした。 3.6 使えるデータの選択 前に、質問の程度をアルバイトの方に分類してもらったが、その中でも、照応が 必要な質問文(「それ」などの単語が使われている)、や質問文だけでは答を出す のが困難なものや難解なもの、質問が漠然としている質問などは、現状での 質問応答システムの開発に有益でないと判断した。また、今回の質問応答では 固有表現を対象としているため、普通名詞が答となるような質問文も使えない データと判断した。これらの質問応答例を排除した。 ここでは、また、質問文が「は」で終るものは、疑問詞がないという点で特殊で あり、別の扱いにした。「は」で終らない質問例は1913個であった。したがって これだけでは質問例が2000に満たないため、87個の「は」で終る質問文が 本データの最後に含まれている。この「は」で終るデータは、以下の、システム による別解の探索はされておらず、初期データ作成の作業者が質問文を作成した 際に参考にした記事番号とその場での回答のみが載っている。他の項目のチェック は一通り行なっている。 3.7 別解の探索と最終チェック 作成された質問文は、ある特定の記事を参考にしているが、その質問文に対する 答が、その記事のみに載っている訳ではないし、また、その記事での解答のみが 解答であるとは限らない。本来は、すべての記事を読んで解答を探さなければ すべての答が見付かる訳ではないが、それを行なうためには、1年分の新聞記事を 読まなければいけなくなる。したがって、現実的な解決策として、現在、NYU とCRLで作成されている質問応答システムを利用して、他の証拠記事や別解を 探すという作業を行なった。また、この際には他の項目のスペルミスや内容の チェックも同時に行なった。これは、信頼できるアルバイト1名の方にお願いし 少しでも疑問な部分があれば関根に聞いて確認してもらうという方法で行なった。 この作業において、解答や証拠記事が一つでないことを理由に、答の項目を 入れ子の形にしA_SETというタグを導入した。同時に、NEのタイプが 異なる答というものが存在していたが、それらは「国名」と「市町村区名」の ように似たものであったため、これはA_SETの中には入れずに、より代表的 なものを選ぶか、共通した親のNEを選ぶということにしてもらった。 [参考文献] Satoshi Sekine, Kiyoshi Sudo, Chikashi Nobata: "Extended Named Entity Hierarchy" Language Resource and Evaluation Conference 2002 APPENDIX.A 固有表現の種類と、質問数 36 GOE 4 GPE 7 イベント数 19 イベント名 74 グループ名 15 スポーツチーム名 1 テレビ番組名 2 ポイント 2 医薬品名 4 宇宙船名 18 運動行為名 6 映画名 8 音楽名 3 河川湖沼名 17 会議名 1 海洋名 1 絵画名 21 学校名 5 学問名 47 割合表現 77 企業名 1 期間 35 規則名 2 記念碑名 9 競技名 26 協会名 110 金額表現 4 空港名 4 軍隊名 4 芸術名 6 月期間 3 言語名 10 個数 2 娯楽施設 1 公園名 3 公演名 19 公共機関名 3 港名 8 国数 4 国籍名 84 国名 9 罪名 72 市区町村名 4 施設数 11 施設名 3 時間 2 時間表現 8 時刻期間 13 時刻表現 3 時代表現 5 自然現象名 4 自然災害名 5 自然物名 1 車名 5 宗教名 4 週期間 12 重量 6 出版物名 7 順位表現 6 書籍名 9 賞名 2 場所数 10 植物名 5 色 7 新聞名 8 神社寺名 1 震度 72 人数 282 人名 19 数値表現 1 寸法表現 3 政治的組織名 37 政党名 37 政府組織名 41 製品数 58 製品名 2 戦争名 7 船名 20 組織数 23 組織名 1 速度 5 体積 8 大会名 39 地位名 22 地域名 3 地形名 2 地名 22 長さ 1 通貨名 3 電車駅名 1 電車路線名 1 電話番号 36 都道府県州名 3 動物数 10 動物名 1 道路名 9 日数期間 130 日付表現 34 年期間 22 年齢 9 倍数表現 4 犯罪名 2 飛行機名 3 美術博物館名 18 病気名 13 頻度表現 1 武器名 18 物質名 29 方式制度名 3 民族名 5 名前 4 面積 1 理論名 5 陸上地形名 2 列車名 APPENDIX.B 初期質問データ作成 作業指針 内容 質問応答例の収集 * 目的 新聞記事を見て人間が分るような質問とその応答のセットを収集すること が 目的です。例がありますが、 表現的にも内容的にもなるべくバリエーション に富んだ質問を集めることが 目的ですので、例に固執せずに、新聞記事を読んで そこから考えられる質問を こちらの作業指針に従う範囲内で、自分の感覚で自由 に自然に作成してください。 * 作業指針 以下のような手法で質問応答を収集してもらいます。 下にある新聞記事 での具体例を添えて書いておきます。 1. こちらからお配りする新聞記事を1記事づつ読んでもらいます。 も し、作業中に新聞記事に同じような話ばかりが繰り返され、答が同じに なる質問 ばかりしかできないような場合には、その記事は飛ばしてください。 ------------------------------------------------- DOCNO : 950101005 SECTION : 1面 WORDS : 2151 HEADLINE : [列島ロジー]あなたのまちで/1 寄付金拠出 企業のリスト 判明――長野五輪招致委 TEXT ◇拠出した後、工事を受注――問われる情報公開 会計帳簿の紛失で、巨額な活動資金の詳細が不明だった長 野冬季オリンピッ ク招致委員会。県・市職員の出向者が大半の この公的組織に対する寄付金の 内訳を示す「企業・金額リスト 」を三十一日、毎日新聞は入手した。寄付金 約十億円余のうち 最も多かったのはゼネコンなど建設業界の約三億三千万円 。ほとんどの企業がその後に五輪競技施設や土木工事を受注してい た。これ まで招致委は寄付側のプライバシー保護を理由に企業 名を非公開にしてきた が、リストには発注権を持つ自治体と企 業との「もたれあいの構図」が浮か ぶ。 ...(後省略) ------------------------------------------------- 2. その中で、面白いと思った事柄や興味を引いた事柄を3ー5個程度 取りだします。そんなに数多く取り出せないような記事の場合には 取れる範囲 で充分ですし、全く取り出せないような記事もあると思います。 例として以下 のような興味が湧いたとします。 (実際の作業の時には以下のような文ではなく て、事柄のメモを作成すれば 充分です。頭の中で考えるだけでもいいです。 こ の例では関根が自分の中で考えたことを文章にしています。) ------------------------------------------------- 長野オリンピック誘致委員会は約十億円も寄付金を集めたのかぁ。 建設業界が最高の寄付金を出していて、その額は約三億三千万円なのかぁ。 寄付をした建設業界は五輪競技施設や土木工事を受注しているのかぁ。 招致委は寄付側のプライバシー保護を理由に企業名を非公開にしてきたのかぁ。 ------------------------------------------------- 3. これらの興味を引いた事柄の内、興味深い名詞的な部分に注目し (例えば、2番目の文だと、「建設業界」「最高」「寄付金」「約三億三千万円」 ) その部分を尋ねるような質問文を作成してください。 その際には、作成した質 問文だけを読んでも、質問がちゃんと分るように 適切な情報を入れてください。 例えば、2番目の文では寄付の先の言及がありませんが、 これを補わないと意味 が通りませんよね? ただし、正確さを追及しすぎて余計な情報まで入れる必要は ありません。 質問が正しい日本語で、かつ、質問を読んだら、その質問の答が書 いてある 記事を探すことができ、そしてその記事を読んだら、誰でも正しい答え が 出せる程度というのが妥当です。 質問を作成する際には、全体的に同じ種類の質問(人名を聞く質問 ばかりとか、 組織名を聞く質問ばかりとか)が集まらないように注意してくださ い。 難易度的には、易しいもの難しいものを取り混ぜるようにしてください。 平均的な目安として、5つ質問あったら2つが「米国の大統領はだれ?」 のような 簡単に分るような質問、1つくらいは、複数の文に情報が散らばって いるなど、あ る程度の理解が必要な質問、2つがその間くらいの 難易度の質問が混ざっていると 理想的です。 これらは、全体の平均ですから、1つの記事の中でバリエーションに 富んだ 質問を無理矢理に作成する必要はありません。ある記事では、ある種類の 簡単な 質問が多く、他の記事では違った種類の難しい質問が多いということでも 構いません。 また、1記事から複数の質問を作成した時に、ある質問が別の質問 のヒントに なっているということは構いません。作成された質問は別々に 使わさ せていただきます。内容的には、自分が面白いと思ったものを選んだり、作成した りしていただければ結構です。 最終的に1文からは最高2つまでの質問文だけが欲いのですが、面白 い 質問文を作成するために、以下のように質問文を複数作成してみて、 その中 から選んでも構いません。 たとえば、2番目の文からは以下のような質問ができ ると思います。 (「寄付金」が答になるような質問は考え付きませんでした。。 。) ------------------------------------------------- 長野冬季オリンピック招致委員会に約三億三千万円の寄付をした業界の名前は 何ですか? 長野冬季オリンピック招致委員会に寄付した業界の内、建設業界の金額の順位 は? 長野冬季オリンピック招致委員会に対し建設業界はいくら寄付をしましたか? ------------------------------------------------- 4. 最終的に、1記事から最高5質問まで、1文から最高2質問までの質問 を作成し、以下のように、記事のファイルとは別のファイルに 書き込んでくださ い。 (実際には文字を斜体にする必要はありません。 ただし、機械処理をします ので、:までの部分は同じように書いてください。 質問文には改行を入れないよ うにしてください。) ------------------------------------------------- QA start Q: 長野冬季オリンピック招致委員会に約三億三千万円の寄付をした業界の 名前は何ですか? A: 建設業界 TYPE: 業界名 DOCNO: 950101005 QA end ------------------------------------------------- 書く際の注意: * Q, A, TYPE, DOCNOはタグの直後に改行を入れずに書いてください。 * TYPEは解答の単語の意味的なタイプを自由に書いてください。 具体的には、 組織名、人名、イベント、時間、日時、パーセントなどです。 * 1つのファイルに複数の質問を書いても結構です。(上記のかたまりがいくつ か連続して1つのファイルに入るということです)。 * 1つの質問でも複数の答えが可能な質問もあります。例えば、「これこれした のは 何年前ですか?」というような質問には「20年前」「20年」「20」のど れでも 正解でしょうし、「橋本竜太郎副総理は何大臣を兼務しているか?」 に対して 「通産相」も「通商産業大臣」も可能だと思います。こういう場合 には、 以下のようにQAstartとQA endの間にA:で始まる行を複数行作り、それ ぞれに 答を書いてください。 ------------------------------------------------- QA start Q: 橋本竜太郎副総理は何大臣を兼務しているか? A: 通産相 A: 通商産業大臣 TYPE: 役職名 DOCNO: 951111022 QA end ------------------------------------------------- * 最初の課題 (00) 作成していただく最初の25の質問は、新聞記事(または、その一部)と質問の 対象となる事柄をこちらから指定します (例えば、上の新聞記事と、質問の対象 として「約三億三千万円」)。 その対象が答になるような質問文を自由に新聞記 事を見ながら作成してください。 * 量とペース 作業時間は30時間程度としていますが、量的なことよりも、 バラエティ に富んだ高品質の質問を集めるのが目的です。 30時間の場合には、5分に1質問 で、360質問くらいを目安にしています。 新聞記事は、まず300記事程度をお渡 ししますが、 もっと必要な場合には、再度送付します。 作業は30時間を上限と します。すべての記事が終らなくても30時間で 作業を打ち切ってください。 * ファイルの作成、送付 ファイルは、Windowsの場合にはWord(.doc),あるいはメモ帳(.txt)、また は linux,UNIXの場合にはプレインテキストで作成してください。 ある程度の量 できたら順次お送りください。 ファイルはsekine@cs.nyu.eduに送ってください。 (アルバイトの方には必ず、受取の確認メイルをいたします。) データは、可能であればメイルの本文に埋め込む形で送っていただけると 助かります。 Wordとメイラーを開いている状態で、Wordの方で作業した部分を 「コピー」 します。(ファイルの全部であれば「すべて選択」をします。)その 後、メイラー の方に移って、メッセージを書いている場所で「貼り付け」をし てください。 やり方が分らなかったり、エラーが起るような場合には、添付フ ァイルでも 構いません。 * 新聞記事の取り扱い 新聞記事は本アルバイト以外の目的で使用しないでください。 本アルバ イトが終了した際には消去していただくようにお願いします。 APPENDIX.C 質問応答例の分析 ------------------------------------------------- <お渡しするデータの例> QA start Q: 元極洋社長の森原元夫氏が亡くなったのは20日の午後何時何分でしたか? K: <元極洋社長>の<森原元夫>氏が<亡くなった><の>は<20日>の<午後何時何分>でしたか? P: 元極洋社長の森原元夫氏が亡くなったのは20日の午後何時何分でしたか? CLASS: POLDTNPE LABEL: SABC A: 7時50分 A: 午後7時50分 TYPE: 時刻 DOCNO: 950222179 QA end ------------------------------------------------- 対象とする行は以下の4つです。(タイプミスの訂正は Q,Aの行も対象) * K: キーワードに印をつけた質問文に対しキーワードの種類を指定 * P: 質問文に対し名詞句、動詞句を縮退したパターンを作成 * CLASS: 答えのクラスを指定 * LABEL: 質問の程度を分類 内容 それぞれ以下の作業を行なってください。 1. 質問文、答えにおいて、タイプミスなどで明らかに間違えと思われるものを 訂正してください。明らかに間違っているのだけれども、内容が分からなけれ ば適切に直せないようなものの場合には、Q:の直後に*を入れて下さい。 2. K: キーワードに重要度のタグをつける。 質問文に対し、その質問文のキーワードになりそうなものを自動的に < , > で 印をつけています。それぞれの印のついた部分に対し、以下の4種類のタグを つけて下さい。以下の4種類のいずれにも当てはまらない場合にはタグつけを しないで結構です。また、2つ以上つけなければいけない場合には2つ以上 つけて下さい(Tと,CかOかQとの組み合わせ)。また、キーワードの範囲が 適切でない場合には、適切に直してからタグをつけてください。 * C - その質問に答えるために欠かせないもの (Crucial) * O - その質問に答えるために、まったくなくてもいいもの (Optional) * Q - 疑問詞など、質問のタイプを示しているもの (Question) * T - 答のタイプを規定している単語。 (Type) 基本的に、結果から見るとCだけをキーワードとすれば、知りたい情報は 見つかるという程度になるといいです。無印も検索時にあれば約にたつけど なくても、どうにかなるという程度のものです。 3. P: 質問のパターンを作成してください。 「誰、どこ、なに」などの疑問詞を中心として、名詞句、動詞句をまとめて 質問文の構文的なパターンを作成して下さい。名詞句などは、疑問詞に直接 かかっていないようなものは、すべて1つの名詞句としてまとめあげて構い ません。動詞についても動詞語尾をまとめて1つにして下さい。 以下の具体例を参考にしてください。 4. CLASS: 答のクラスを指定してください。 これは、質問応答例作成時に書いていただいたTYPE:に似ていますが、ここでは こちらで指定した9種類の内から選んで下さい。 * P - Person 人名 * O - Organization 組織名 * L - Location 地名 * A - Artifact 物の名前、製品名 * D - Date 日付け(年、月も含む) * T - Time 時間 * N - Number 数値表現 * P - Percent パーセント * E - else その他 5. LABEL: 質問の程度を分類してください。 質問を以下の4種類に分類してください。 * S - 照応の「それ、あれ」等が使ってあったり、適切に時間が設定されていなかったり して、質問の答えを適切に出すことが困難である。(ただし、以下のBを 参照) * A - ほぼ唯一の答えが期待できる * B - 2年間の新聞記事なら5個程度の答が期待できる (日本の総理大臣、文部大臣、イタリアの首相などの質問) * C - 照応(S)以外の理由で、答を出すのが困難 6. 補足。 * 上記のすべてにおいて、不明な場合には?を使用して下さい。 * コメントを残したい場合には、新しい行を#から開始し、その後に、記入して 下さい。(一般的にはコメントは必要ありません) * 上記のコメント以外では、半角文字のみを使って下さい。 * 作業は同じデータに対し2名を割り振ります。最終的に2人の結果が 異なる場所は私が目を通しますので、重圧を感じ過ぎないでも構いませんが その確認作業を通してあまりにも誤りが多いようでは困ります。 (モチべーションを上げるため、確認作業で質の高いと確認された 場合にはボーナスとして、クリスマスプレゼントを送ります :-) 以上です。よろしくお願いします。 <例> 以下の例で#の部分は説明のコメントですが、実際の皆さんの作業で 入力する必要はありません。 ============================== # 明らかなタイプミスを直す。 <これは元のデータのまま> QA start Q: 北京で開幕され史上最大の国際会議は何ですか? K: <北京>で<開幕><さ>れ<史上最大>の<国際会議>は何ですか? P: 北京で開幕され史上最大の国際会議は何ですか? CLASS: POLADTNPE LABEL: SABC A: 第四回国連世界女性会議 TYPE: 会議名 DOCNO: 950919048 QA end <訂正、入力後の結果> Q: 北京で開幕された史上最大の国際会議は何ですか? K: で<開幕>れたは何ですか? P: Nは何ですか? CLASS: E LABEL: A ============================== # 質問は人名であり、ほぼ確実に一人決められる。 QA start Q: オウム真理教幹部で、刺殺されたのは? K: で、れたは? P: Nで、Vのは? CLASS: P LABEL: A A: 村井秀夫 TYPE: 人名 DOCNO: 950424522 QA end ============================== # 質問は日時であり、ほぼ確実に決められる。 QA start Q: 相撲での番付はいつ頃には登場していましたか? K: でのにはいましたか? P: Nはいつ頃にはVか? CLASS: D LABEL: A A: 元禄時代 TYPE: 時代 DOCNO: 950424521 QA end ============================== # いつのことか照応先(その年)がないため分からない。 QA start Q: 人形の東玉はその年に起きた事件何件を「変わり雛」にしてきたか? K: <人形>のはその<年>に<起きた><事件>を「」にきたか? P: NはN何件をNにVか? CLASS: N LABEL: S A: 10件 A: 10 TYPE: 数量 DOCNO: 951111249 QA end ============================== # 何のことか照応(この場合にはゼロ照応)先がないため分からない。 QA start Q: 九三年当時の幹事会社はどこか? K: はどこか? P: Nはどこか? CLASS: O LABEL: S A: 富士電機 TYPE: 会社名 DOCNO: 951111026 QA end ============================== # クラスはE(その他) QA start Q: 定期健康診断で、胃はどのような検査を受けますか? K: で、はどのようなを<受け>ますか? P: Nで、NはどのようなNをVか? CLASS: F LABEL: B A: レントゲン透視 TYPE: 検査種 DOCNO: 950424523 QA end APPENDIX D 質問応答例の分析(FINAL) 概要 * task 6にタグ付けしてもらったものの内、LABELのタグだけ、 再度お二人(竹 内君、岡村さん)にタグ付けをお願いします。 * タグ付け対象は、前の時に2人が作業してA&A,C&C,C&Sであったもの を除く 2531個です。 * 1つのタグに対して20秒と仮定して10時間弱分になります。 * 最終的なタグを"FINAL:"のあとに書いてください。 * コメントを残す必要はありません。 * タグの種類は前と同じ、A,B,C,Sです。 質問を以下の4種類に分類してください。 * S - 照応の「それ、あれ」等が使ってあったり、適切に時間が設定されてい なかったり して、質問の答えを適切に出すことが困難である。 (ただし、以下のBを 参照) * A - ほぼ唯一の答えが期待できる * B - 2年間の新聞記事なら5個程度の答が期待できる (日本の総理大臣、 文部大臣、イタリアの首相などの質問) * C - 照応(S)以外の理由で、答を出すのが困難。または、個答が漠然として いて具体的でない。 以上です。よろしくお願いします。