情報技術開発プロジェクトの紹介 (EDR)

English

キーワード:
電子化辞書、機械処理辞書、汎用辞書、大規模辞書、自然言語処理、知識情報処理、言語データ、単語辞書、対訳辞書、概念辞書、共起辞書、コーパス、 テキストベース、見出し、品詞、構文木、活用、表層格、慣用表現、同義、概念、概念関係、概念体系、共起関係、意味フレーム、頻度、例文

プロジェクト名:
自然言語処理用電子化辞書の試験研究 [-> EDR web server]

研究実施場所:
株式会社 日本電子化辞書研究所
プロジェクトコーディネータ:
株式会社 日本電子化辞書研究所
<1995年3月末まで>
<1995年4月より> 
研究開発の概要:
 本プロジェクト(EDRプロジェクト)は、次世代の自然言語処理技術・知識情報処理技術を確立するために不可欠の大規模で高度な機械処理用の辞書 (電子化辞書)の研究開発を目標としている。したがって、EDR電子化辞書は、コンピュータが自然言語を理解、生成するために必要な情報の全てをコ ンピュータが処理し易い形式で盛り込んだ初の本格的な機械処理用辞書として設計され、特定の応用システムに限定されない普遍的で汎用性を持つコン ピュータ用辞書を目指したものである。

 文法的特性に関する表層的な情報と意味に関する深層的な情報とを取り扱う辞書を分離し、言語に強く依存する表層的情報を単語辞書に格納し、原理 的に言語に依存しない意味的な情報は独立した知識ベースとして概念辞書に格納するという構成としたほか、特定の文法規則やアルゴリズムに依存する 情報を排除して、言葉やその表す概念そのものの持っている情報のみを大量のテキストに基づいて記述する方針で開発されている。EDR電子化辞書の 特徴は次のようにまとめることができる。

  1. 一般的な文章で用いられる語彙を網羅した大規模辞書
  2. 特定の応用システムやアルゴリズムに偏らない汎用辞書
  3. 本格的な意味処理に必要な知識ベースを備えた辞書
  4. 大量のテキストに基づく高い客観性を持つ辞書
  5. 言語や分野などに対し幅広い拡張性を持つ基盤辞書

プロジェクトの目的:
 EDRプロジェクトの目的はコンピュータによる言語処理用の辞書の開発を目的としている。その背景には、日本語の置かれている諸事情があり、 言語障壁解消の一方策としての自然言語処理(特に機械翻訳)に対する期待や、日本の言語技術(ドキュメント技術、言語教育技術など)の高度化を目指した 支援システムの実用化に対する要望や、自然言語処理技術が情報処理技術の中核に位置付けられつつあることが該当する。情報処理技術が知識情報処理、 人工知能と高度化する中で、自然言語処理技術は異なるアプリケーション技術のみではなく基礎的な共通技術と位置付けることができ、多方面からのニ ーズが寄せられている。プロジェクトの目的はこのようなニーズに役立つことであり、将来の様々な高度応用システムのための基礎技術として利用され ることが期待される。

これまでの研究成果と期待される成果:
 プロジェクトの成果は、EDR電子化辞書としてCD−ROM化され外部提供されている。それらを表1に列挙する。 [-> 表1 CD-ROM化されたEDR電子化辞書]

プロジェクトの対象となる団体・個人:

研究参加機関:
【組合員】
 基盤技術研究促進センター
 富士通株式会社
 日本電気株式会社
 株式会社日立製作所
 シャープ株式会社
 株式会社東 芝
 沖電気工業株式会社
 三菱電機株式会社
 松下電器産業株式会社

使われる情報/通信技術:
 当プロジェクトでは分散研究体制をとったことから、研究を効率的、円滑に推進するためにネットワークを構築して、日常的な研究情報交換を可能にした。

情報社会への恩恵:
 コンピュータが「言葉」を理解し、伝達し、翻訳し、話す。電子化辞書は、そういった「言葉」に関わる情報システムの心臓に当たる。ワープロや 機械翻訳も辞書が生命である。辞書の力を引き出すには、文法規則や文解析/文生成プログラムが必要であり、それらを用いると以下のように非常に広 範囲な応用が実現できる。

  • 知的なワープロ:かな漢字変換の変換精度を向上させる。
  • 次世代型の機械翻訳:概念レベルの意味処理が可能になる。
  • 知的な情報検索:与えられた情報から、推論によって必要な情報を見つける。
  • 文書要約:文書の内容を理解して要点をまとめる。
  • 語学教育CAI:前置詞や格助詞の用法を正すなど、文法上のチェックを行なう。
  • ソフトウェアCAD:仕様記述言語を理解する。
  • エキスパートシステム:テキストから知識を獲得する。
  • 音声対話システム:音声の曖昧性を解消して話しの内容を理解したり、応答音声を生成する。

     EDR電子化辞書は、語彙量、語彙知識ともに世界最高水準となっており、従来の自然言語処理システムの改良はもちろんのこと、来るべき知識情報化 社会のさまざまな新しい分野への利用が期待される。また、これら応用面ばかりではなく、自然言語処理技術自体の発展向上に寄与することは疑うべく もなく、その主要構成要素たる電子化辞書は、研究者にとってこの上なく価値のある研究対象となっている。

  • 想定される費用:
    14,305百万円(実績)

    データ作成日:
    1995年11月 8日

    データ更新日:
    1998年10月23日

    情報提供者:
    株式会社 日本電子化辞書研究所
    その他:


    通商産業省インベン トリでは、全文検索機能を提供しております。検索機能を使いたい方は、下 のボタンをクリックして下さい。 私どもで掲載した情報以外に掲 載すべき事項、またはご意見、ご質問がありましたら、下記のところにメー ルを送って下さい。