筆記目錄

Skip to content

iPAS 備考筆記 - AI 應用規劃師

TLDR

  • AI 基礎:AI 包含機器學習(ML)與深度學習(DL),目前主流為「弱 AI(Narrow AI)」,強 AI(AGI)尚未實現。
  • 資料工程:資料湖倉(Data Lakehouse)結合了資料湖的彈性與資料倉儲的治理能力,是現代 AI 專案的基礎。
  • 資料處理:獎牌架構(Bronze/Silver/Gold)是資料分層管理的最佳實踐;ELT 架構因雲端運算能力提升,已逐漸取代傳統 ETL。
  • 特徵工程:類別型特徵需依基數與順序選擇編碼(One-Hot, Target, WoE 等);數值型特徵需進行標準化(Z-score, Robust Scaling 等)以消除量綱差異。
  • 模型評估:類別不平衡時,Accuracy 會失真,應優先參考 F1-score、AUC-ROC 或 MCC;迴歸問題則依離群值敏感度選擇 MAE 或 RMSE。
  • 模型訓練:過擬合(Overfitting)可透過 Dropout、正則化(L1/L2)、Early Stopping 與交叉驗證緩解。
  • 生成式 AI:RAG 適合知識庫問答,Fine-tuning 適合特定風格或領域術語強化,兩者可疊加使用。
  • AI 治理:EU AI Act 採用風險分級管理;AI 系統需關注偏見(Bias)、魯棒性(Robustness)與可解釋性(XAI)。

AI 基礎概念

AI 能力層次與分類

目前商用 AI(如 GPT 系列)均屬於「弱 AI(Narrow AI)」,其特徵為無自主目標設定、無持續性記憶(除非透過 RAG 輔助)且跨領域遷移受限。AI 功能可分為分析型、預測型、生成型與規範型四類。

AI、機器學習與深度學習的關係

三者為巢狀關係(AI ⊃ ML ⊃ DL):

  • AI:泛指讓機器展現智慧行為的技術。
  • ML:透過資料自動學習模式,需人工設計特徵。
  • DL:使用多層神經網路,自動萃取特徵,對資料量需求高。

資料工程

資料儲存架構

  • Data Warehouse:適合結構化資料,寫入時定義綱要(Schema-on-Write)。
  • Data Lake:適合原始資料儲存,讀取時解析綱要(Schema-on-Read)。
  • Data Lakehouse:結合兩者優勢,支援 ACID 交易與版本控制,適合報表、ML 與 RAG 整合。

資料處理:ETL vs ELT

現代雲端平台多採用 ELT,將原始資料先載入湖倉(Bronze 層),再依需求轉換。此做法保留了原始細節,有利於後續機器學習模型萃取特徵。

資料治理:Data Mesh

Data Mesh 將資料所有權下放給各業務領域,透過「資料即產品」與「聯邦式治理」解決集中式平台的擴展瓶頸。


特徵工程

類別型特徵編碼

  • One-Hot Encoding:適用於類別少、無順序的特徵。
  • Ordinal Encoding:適用於有明確順序的類別(如教育程度)。
  • Target Encoding:適用於高基數特徵,但需防範 Data Leakage(應使用 Leave-One-Out 或 Smoothing)。
  • WoE Encoding:專為二元分類設計,與羅吉斯迴歸天然契合。

數值型特徵縮放

  • Z-score:適用於分佈穩定且演算法對尺度敏感的場景。
  • Robust Scaling:使用中位數與四分位距,對離群值具備穩健性。
  • MaxAbs Scaling:保留稀疏矩陣的零值結構,適合文本特徵。

機器學習模型評估

評估指標選用

  • 分類問題:類別不平衡時,Accuracy 會誤導,應改用 F1-score 或 MCC。若誤報代價高(如垃圾信),優先看 Precision;若漏報代價高(如癌症篩檢),優先看 Recall。
  • 迴歸問題:若資料含離群值,MAE 比 RMSE 更能反映真實誤差。

過擬合防治

  • Early Stopping:在驗證集 Loss 不再下降時停止訓練。
  • 正則化(Regularization):L1(Lasso)可產生稀疏權重,適合特徵選擇;L2(Ridge)則縮小權重,提升模型穩定性。

生成式 AI 與 LLM

RAG 與 Fine-tuning 決策

  • RAG:解決模型知識截止日與內部資料引用問題,適合知識庫問答。
  • Fine-tuning:解決模型對特定語氣、格式或領域術語的理解,適合行為模式的深度客製化。

提示工程技巧

  • 思維鏈(CoT):引導模型拆解推理步驟。
  • 思維樹(ToT):將推理建模為樹狀搜尋,適合複雜規劃任務。
  • 提示鏈(Prompt Chaining):將大任務拆解為多步驟,提升複雜任務的穩定性。

AI 治理與安全

AI 風險管理

  • EU AI Act:採用風險分級,高風險應用(如醫療、招募)需建立風險管理系統與人工監督機制。
  • OWASP Top 10 for LLM:重點防範提示注入(Prompt Injection)、敏感資訊洩漏與過度代理權限(Excessive Agency)。
  • 隱私保護:差分隱私(Differential Privacy)透過注入雜訊保護個資,是隱私保護的黃金標準;聯邦學習(Federated Learning)則確保原始資料不離開本地。

可解釋性(XAI)

  • SHAP:透過合作賽局理論分配特徵貢獻,適用於單筆預測解釋。
  • LIME:在樣本附近進行局部近似,適用於黑箱模型的局部解釋。
  • Grad-CAM:視覺化模型關注的影像區域,適用於電腦視覺任務。

異動歷程:2026-05-20 初版文件建立。