2023.01.04 新聞 新聞期刊KIBIT日語處理能力改良成功
亞洲語言處理技術强化

株式會社FRONTEO(總部:東京都港區,總裁:守本正弘,以下稱FRONTEO)宣布:在其獨立開發的人工智能引擎KIBIT自然語言處理中,成功改善了日語處理技術。

 

 

KIBIT開發於2012年,是一種能夠以少量訓練數據進行學習,幫助律師等法律專家進行判斷的人工智能。在國際訴訟的電子蒐證(e-Discovery)程序裡,證據持有者(custodian)平均每人必須在有限的時間内從多達數TB的龐大文件資料中,找出與證據相關的文件,並且要求必須和專業律師的判斷有相同的準確度。KIBIT Automator是一種能提升尋找證據效率的法律科技工具,在國內外相關領域都有廣泛的運用。
日語的特點是,它不像英語那樣被分成獨立的單詞(單詞之間用空格隔開)。而且日語中有許多單獨拿出來沒有任何意義的助詞。由於這個原因,日語的人工智能處理需要兩種技術:一種是將句子分解為單個單詞也就是語素*1(語素分析),另一種是解析分解出來的語素。此外,在後面這種技術中,很難確定語素的詞性,例如在拆分句子時抓出的’是’或’在’,評估它與證據相關的程度高低一直是個挑戰。

 

FRONTEO的研發團隊在KIBIT搭載的的人工智能引擎Illumination Forest的算法中,對於單一文字组成的單詞通過機械學習自動進行取捨。與之前相比再現率*2有所提升。並且找到與證據相關80%的文件,所需審查的文件數量減少了7%(見圖,使用FRONTEO測試數據)。

 

本技術也能夠應用於中文和韓文。KIBIT的優勢之一是其處理困難的亞洲語言能力,這項研究的结果有望導入KIBIT的其他產品中以提高準確性。 FRONTEO今後將繼續提升自然語言處理方面具有優勢的AI處理方案並努力研發改善可協助專家們進行電子蒐證和證據揭示程序的算法。
*1 語素:語言中最小的有意義單位
*2 再現率:在所有數據中,正確預測與證據相關數據的百分比

 

關於”FRONTEO” URL:https://www.fronteo.com/ 我們是一家自主開發,擁有專門從事自然語言處理AI引擎“KIBIT”、“Concept Encoder”以及”Looca Cross”的數據分析公司。應用這些AI引擎對大量文字資料分析並從中提取有意義的重要資訊,是本公司之核心業務。 自2003年8月成立以來,我們主要從事法律科技業務,如電子蒐證和數位鑑識調查,以支援企業的國際訴訟。我們在美國、韓國和台灣都設有營業單位,並於2007年6月26日在東京證券交易所掛牌上市至今。基於我們在業務中積累的 AI 技術,自 2014 年,我們更將業務領域擴展到生命科學、商業智慧和經濟安全領域,並使用 AI 通過將文字資料轉化為知識,我們協助企業解決各種問題,包括藥品探索開發、失智症診斷以及財務、人事和銷售支援。2021年1月在日本我們亦獲得第一類醫療器材製造與銷售許可證(允許編號:13B1X10350),並於同年9月完成註冊醫療器材銷售業務許可(通知號:3港口原始設備120號)。截至2022年3月31日公司登記資本額為30.34億日元。

 

※ FRONTEO, KIBIT Automator, KIBIT, conceptencoder, Looca Cross 是 FRONTEO 在日本的註冊商標