晴時多雲

繁中版AI語言模型》受限智財法規 開發借力國際巨頭

2023/11/05 05:30

台灣需要自己的大型語言模型,但繁體中文資料量不足、恐讓開發受限。(路透)

〔記者歐宇祥/台北報導〕台灣需要自己的大型語言模型,但繁體中文資料量不足、恐讓開發受限。台大電機工程學系教授李宏毅指出,除了資料量不足等問題,很多資料受限智慧財產權法等法律、難合法使用,現行開發者多是借力Meta模型Llama 2、再訓練後使用。

李宏毅說,AI模型在預訓練階段可使用從網路等不同來源搜集的資料,但若未取得授權,訓練完成的AI恐無法商業使用,政府專案開發的限制又比民間開發更多;中研院資訊科學研究所研究員古倫維指出,網路中蒐集到的資料,除了須確認版權許可,資料整理也會耗費高成本,對研究單位負擔大也耗時。

過濾排除兩岸差異論述

日前Meta與微軟聯手發表可商用的大型語言模型Llama 2,企業、研究開發者可有效降低AI開發成本,成為開發者利器。但專家也警告,Llama 2的訓練資料中包含中國資料集,自然也會影響到生成內容,使用ChatGPT也會產生資料含偏見、資安等問題,這都凸顯國科會TAIDE計畫的重要性。

除了從頭開始訓練AI模型,李宏毅說,另一個方法是向Llama 2等模型借力,在其基礎上再訓練,但現行技術也無法一○○%控制AI模型生成內容;中研院資通安全專題中心執行長李育杰認為,台灣要發展可信任的AI模型,在資料層面除使用開放文本、台灣本土語料庫、各部會特定場域訓練資料之外,也可過濾排除兩岸差異用語、惡意言論,使其符合台灣所需。

產出結果應合理、合法

AI恐生出不當內容更凸顯AI倫理與風控的重要性。古倫維指出,AI開發應關注資料、動機、產出結果是否合理並合法,且AI僅是工具,使用者須對產出結果負責;李宏毅表示,AI模型可在開發中、開放使用後進行風險控制,包含隔絕不合適的訓練資料、或針對生成結果設立限制,以免內容不適當,使用者若希望善用生成式AI,也應了解其原理。

一手掌握經濟脈動 點我訂閱自由財經Youtube頻道

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

已經加好友了,謝謝
歡迎加入【自由財經】
按個讚 心情好
已經按讚了,謝謝。

相關新聞

今日熱門新聞
看更多!請加入自由財經粉絲團
網友回應
載入中