NLUL research
自然語言理解(Natural Language Understanding) [自然語言處理簡介]
自然語言是指中文、英文等自然形成的語言(有別於人造的程式語言如C++等),而「自然語言理解」就是指計算機不僅能分析文句結構,同時還能理解文句所描述的意義。它將非結構化的文字資訊轉換為結構化的知識,以便計算機可以進一步應用這些知識。

機器閱讀(Machine Reading)
在自然語言理解中,「機器閱讀」是當前最重要的研究領域之一。機器閱讀主要是指計算機能夠自己透過閱讀學習知識(Read to Learn)、並能以學習的知識來增強自己的閱讀能力(Learn to Read)。這個研究需要具備跨領域的重要技術如自然語言理解機器學習(Machine Learning)與人工智慧(Artificial Intelligence)等。其目標在於從文獻中擷取知識、探索未知的知識關聯,並進而產生新的知識
在這個知識爆炸的時代1,人腦已不足以在海量的文獻中擷取知識並探索其關聯性,必須依靠計算機來完成。因此美國國防部DARPA計畫Big Mechanism亦將機器閱讀列為重點發展項目之一,其重要性可見一斑。本研究主要在以計算機閱讀文檔、理解文檔的內容訊息,然後做智慧型問答(Intelligent Q&A)。

知識的表達與推理(Knowledge Representation and Inference)
機器藉由自然語言處理技術「閱讀」文本資料後,必須將非結構化的自然語言文句轉換為結構化資訊,方可讓計算機進一步應用這些知識。如何表達這些結構化資訊,以便計算機可以有效地使用它們,並進一步結合推理引擎(Inference Engine),做推論及建立新的知識,就是本課題所探討的問題。

知識自動擷取(Automatic Knowledge Acquisition)
在上述機器閱讀的任務中,計算機必須先具備足夠的背景知識(含一般常識及領域相關知識),才能分析文句結構並理解文句所描述的意義。但是所需的背景知識不但數量龐大且相當瑣碎,無法有效地透過人工方式來構建。如何讓計算機能透過閱讀大量背景資料,自動擷取這些背景知識、並建立相關的領域知識庫,就是本課題所探討的問題。這也是機器學習的研究範疇。

系統開發
目前本實驗室已結合中研院資訊所語言分析處理技術,開發了中文版的國小數學解題系統與國小社會科學智慧型問答系統。透過對題目的理解與推論,回答使用者所提出的問題、並提供求解(推論)過程。使用者除了得到問題的答案外,還可得到合理的解釋。因此使用者可以充分理解答案如何獲得。此外,我們也開發了英文版的國小數學解題系統。



1根據美國MEDLINE/PubMed(https://www.nlm.nih.gov/bsd/pmresources.html)的統計資料,到2016年7月7日,已有 #26,218,751 篇醫學文獻,並以每年超過一百一十萬篇的速度增加。