由於科技發達資訊流通快速,產業間往往相互牽絆,單一產業已無法創造規模經濟。本研究團隊精進海量資料之處理能力,期望透過文探勘技術將質化資料轉換為量化之數據,並進行財務相關議題之分析,以提升財務領域之研究能量。有鑑於大中華地區快速發展,華語文已漸漸成為發展之主流,中文文詞探勘技術雖已穩健發展,跨領域之結合應用仍有許多值得深入探討的議題,故本計畫首先應用文詞語意解析引擎,剖析繁體與簡體之巨量財經新聞報導,挖掘其資訊內涵以進行企業價值與風險評鑑。
透過產學技術聯盟進行財務領域與跨領域之資源整合,期望提升原有技術開發能量,並於實務應用上有所突破,此外亦透過與廠商間之諮詢輔導,協助提升產業原有產品之附加價值及產業競爭力。
第二年度之計畫主軸為拓展繁體中文解析技術至簡體語料,亦考量兩岸與國際情勢之新聞報導所反映出之資訊內涵所帶來之影響。本年度由多個分項計畫共同組成,透過分項計畫之執行,將其結果應用於企業價值與風險評鑑 (如圖1所示)。
圖1 第二年度計畫之各分項計畫(執行中)
1、簡體語料之特徵詞篩選引擎
以繁體中文文詞探勘技術為基礎,進行簡體語料之探勘,進而剖析簡體語料之資訊內涵。透過斷詞處理與結構化標記處理過程,精進特徵詞彙演算法,並應用特徵詞篩選引擎,建立核心詞彙特徵詞知識庫,後續可透過特徵詞彙之分類與擴充,建構不同主題之核心詞彙特徵詞知識庫,進而增加新聞語料分析與應用層面之深度及廣度。
2、納入繁體與簡體語料之知識地圖
知識地圖的定義為一種知識概念或知識相關的呈現方式,類似知識的分類等,本計畫預期建構繁體與簡體語料之詞彙關聯知識地圖,將以圖形化的方式呈現知識圖。詞彙關聯知識地圖的概念在於使用者輸入字串時,可透過以特定字串的關聯詞資料庫進行查詢,並提供特定字串之相關的知識地圖。使用者可依照比率,自行設定知識地圖產生之深度與廣度。
3、兩岸與國際情勢語料之量化資訊解析
藉由兩岸與國際情勢新聞語料之蒐集,並結合兩岸與國際情勢之特徵詞知識庫,進一步經由新聞量化指標演算法,建構兩岸與國際情勢之量化指標資料庫,使用者可透過該量化指標所反映出之資訊內涵,分析目前兩岸與國際情勢間之氛圍。
4、納入兩岸與國際訊息之企業風險衡量模組
本計畫預計納入兩岸與國際訊息於原有之企業風險衡量模組,透過原先已考量之總體經濟變數、財務結構、公司治理及其他相關數據,結合兩岸與國際訊息,進行企業風險衡量之評估,透過多元分類之語料來源與總體數據之結合,藉由學術理論驗證程序捕捉不同面向之經濟意涵。
圖2 第一年度計畫之各分項計畫
1、簡體語料的結構化處理
本分項計畫欲精進繁體中文之解析技術,將其拓展至簡體語料之結構化處理,透過簡體語料結構化處理技術之提升增進資料儲存及檢索之效率性,以拓展簡體語料資料庫之完整性與多元性,後續可提升簡體語料於其他領域應用之深度與廣度,並作為量化數據建構之基礎。
2、繁體文詞解析引擎新聞主題自動分類模組之應用
本分項計畫將運用研究團隊所獲准之新加坡專利技術─「文件分類的方法及系統」,藉由電腦回饋式自動學習機制擴充原有之特徵詞知識庫,以提高文件分類之效率性及準確性。
3、應用繁體文詞解析引擎建置兩岸與國際議題之特徵詞知識庫
兩岸及國際議題之正負向訊息所衍生之系統性風險,對於個股之影響力也不容小覷,若能同時考量公司內部資訊與國際經濟資訊之影響,除了可準確掌握國際間之系統性風險效果外,投資人更可透過此資訊做為資產配置之調整參考依據。本計畫預計建構兩岸及國際議題之特徵詞知識庫,後續進行相關領域及跨領域之應用研究。
4、納入中國上市公司數據庫之企業風險衡量模組
本計畫預計納入中國上市公司數據庫於風險衡量模組內,結合中國總體經濟、財務報表、公司治理以及其他相關之數據,建立中國企業風險衡量機制,進而協助金融機構、相關企業及投資人對中國上市公司之風險揭露有更進一步的瞭解,評等結果亦可作為政府監理單位之參考。
|