2018.07.18 期刊 亞洲和多語言資料集適用TAR的問題
亞洲和多語言資料集適用TAR的問題
2018年7月2日
撰稿人:Richard Dilgren
電子證據揭示(eDiscovery),全球/跨國部門
隨著資料源自亞洲的跨國法律事務不斷增加,法律團隊越來越多地試圖透過TAR(人工智慧技術輔助審閱)來進行前期的調查工作、這些調查工作成本高昂且往往容易出錯。。
當ESI內容涉及中文、日文和韓文(CJK)等語言時,就會加劇使用預測編碼的複雜性。主要挑戰不在理解語言本身;多數技術都不會像人類那樣處理語言。技術問題才是核心挑戰。 在傳統的美國工具集中,許多編碼和文件格式仍然處理不當。儘管如此,專有軟體仍然很多,且許多TAR解決方案在索引和分類之前仍會事先進行「翻譯」工作。 除了核心的技術挑戰之外,還有語言和文化複雜性,但就目前而言,這些都還是題外話。
在之前的文章中,我和同事已探討過收集、處理和搜尋包含亞洲和多語言資料集的ESI內容。 但TAR呢?TAR工具是否適用於多語言案件,尤其是帶有CJK資料的案件?
以下是法務團隊的須知事項:
CJK資料需要經過處理,尤其需要在此方面具備知識和經驗的專業人員進行準確、完整的內容擷取。
在TAR的相關討論中,人們經常以「垃圾進,垃圾出」來表達資料處理的過程。 此一說法幾乎指出, 用來訓練TAR系統的人類編碼普遍具有一致性和正確性。 在TAR開始進行資料處理之前,此一說法尤為適用。無可避免地, TAR的有效性將受制於資料的準確性和完整性。換句話說,若相關資料不完整或不準確,即便是最厲害的領域專家也無法有效地訓練TAR系統。
處理問題的方式可能有所不同,但一些簡單的步驟將幫助您避免損壞TAR的結果。無效的CJK資料處理可能會生成亂碼文本,中繼資料可能丟失,或處理工具可能根本無法識別文件並產生錯誤訊息。 案件團隊可透過幾個簡單的步驟來降低TAR結果受到損害的風險。 首先,確認您所使用的處理工具可支援您所收集的文件和編碼格式。 有關案件的技術團隊應可輕鬆確認有關軟體是否支援資料集。 支援格式通常是由軟體供應商發布,以供大眾使用。 其次,與了解預期結果的技術團隊合作。 不熟悉特定文件格式的技術團隊通常也不了解該擷取哪些中繼資料、如何萃取有關資料、或系統是否缺少關鍵資料。 在應對多語言資料處理等全新挑戰時,案件團隊的經驗和專業知識往往起到關鍵作用。
備註:先前發布的文章已針對資料處理和搜尋索引等相關問題提供深入見解。
目前可供使用的TAR解決方案可以不同方式處理多語言資料集。
並非所有的資料檢索和分類模型都是完全相同的。 演算法如何在給定的系統中收集有關文件的資料並對其進行分類,可能會顯著影響TAR的最終效果。 例如,某些系統會在各個文件和整體文件中為有關概念分配「權重」。 如果包含該語言的文件並不多見,則非英語單詞在該模型下可能未經充分加權(其對分類的影響較小)。 重要的是,我們必須理解(至少在概念上)您所選擇的系統如何識別有關概念並對對資料進行分類。
從長遠來看,與您的技術供應商進行前期和直接的討論,將幫助您避開糟糕的結果(以及相應的成本增加)。
在單語言和多語言資料集中,TAR都能提供相同的好處,而CAL亦有可能格外有利。
西方世界的TAR工具大多透過知識淵博的律師或內容擷取專家所提供的樣本培訓資料進行「學習」。然後,該工具運用形態分析和統計演算法在剩餘的文件集中查找類似的文件。一般來說,相同的狀況也適用於多語言資料集。
持續主動學習(CAL,也稱為TAR 2.0)模型已可支援多數法律團隊進行現下的工作。 團隊可運用其客戶提供或其他來源資料,儘早找出關鍵文件並以有機的方式推進系統培訓。 各該系統通常具有可塑性,足以支持對有關問題或特定語言的並行(或抵銷)培訓。
在跨國案件中,在不斷改進TAR結果的同時,並行的工作彈性特別具有價值。與不同法律問題有關的資料可能在地理上呈現離散狀態,而有關專家亦有可能需要並行工作。在大多數的CAL系統中,這都不構成挑戰。 案件團隊可能包含來自不同時區且熟悉不同語言的主題專家。一般來說,這通常也不成問題。對在地理位置、語言熟練度或主題知識方面存在差異的團隊來說,培訓模式的彈性可說是一大福音。
總結:
TAR的前景光明。 它在許多情況下已被成功應用,且其適用性並無地域之分。 TAR系統消除了人為的不一致性、吞吐量瓶頸及人工審查耗費天文成本等核心挑戰。 在正確實施的情況下,TAR可允許法律團隊專注於訴訟策略、使法律團隊得以儘早存取關鍵文件並協助團隊取得原先無法取得或模糊的資料。 如果您的技術團隊了解有關挑戰並具備解決各該挑戰的專業知識,各該益處也同樣適用於涉及CJK或其他語言的案件。