iPAS 備考筆記 - AI 應用規劃師

TLDR

AI 基礎：AI 包含機器學習（ML）與深度學習（DL），目前主流為「弱 AI（Narrow AI）」，強 AI（AGI）尚未實現。
資料工程：資料湖倉（Data Lakehouse）結合了資料湖的彈性與資料倉儲的治理能力，是現代 AI 專案的基礎。
資料處理：獎牌架構（Bronze/Silver/Gold）是資料分層管理的最佳實踐；ELT 架構因雲端運算能力提升，已逐漸取代傳統 ETL。
特徵工程：類別型特徵需依基數與順序選擇編碼（One-Hot, Target, WoE 等）；數值型特徵需進行標準化（Z-score, Robust Scaling 等）以消除量綱差異。
模型評估：類別不平衡時，Accuracy 會失真，應優先參考 F1-score、AUC-ROC 或 MCC；迴歸問題則依離群值敏感度選擇 MAE 或 RMSE。
模型訓練：過擬合（Overfitting）可透過 Dropout、正則化（L1/L2）、Early Stopping 與交叉驗證緩解。
生成式 AI：RAG 適合知識庫問答，Fine-tuning 適合特定風格或領域術語強化，兩者可疊加使用。
AI 治理：EU AI Act 採用風險分級管理；AI 系統需關注偏見（Bias）、魯棒性（Robustness）與可解釋性（XAI）。

AI 基礎概念

AI 能力層次與分類

目前商用 AI（如 GPT 系列）均屬於「弱 AI（Narrow AI）」，其特徵為無自主目標設定、無持續性記憶（除非透過 RAG 輔助）且跨領域遷移受限。AI 功能可分為分析型、預測型、生成型與規範型四類。

AI、機器學習與深度學習的關係

三者為巢狀關係（AI ⊃ ML ⊃ DL）：

AI：泛指讓機器展現智慧行為的技術。
ML：透過資料自動學習模式，需人工設計特徵。
DL：使用多層神經網路，自動萃取特徵，對資料量需求高。

資料工程

資料儲存架構

Data Warehouse：適合結構化資料，寫入時定義綱要（Schema-on-Write）。
Data Lake：適合原始資料儲存，讀取時解析綱要（Schema-on-Read）。
Data Lakehouse：結合兩者優勢，支援 ACID 交易與版本控制，適合報表、ML 與 RAG 整合。

資料處理：ETL vs ELT

現代雲端平台多採用 ELT，將原始資料先載入湖倉（Bronze 層），再依需求轉換。此做法保留了原始細節，有利於後續機器學習模型萃取特徵。

資料治理：Data Mesh

Data Mesh 將資料所有權下放給各業務領域，透過「資料即產品」與「聯邦式治理」解決集中式平台的擴展瓶頸。

特徵工程

類別型特徵編碼

One-Hot Encoding：適用於類別少、無順序的特徵。
Ordinal Encoding：適用於有明確順序的類別（如教育程度）。
Target Encoding：適用於高基數特徵，但需防範 Data Leakage（應使用 Leave-One-Out 或 Smoothing）。
WoE Encoding：專為二元分類設計，與羅吉斯迴歸天然契合。

數值型特徵縮放

Z-score：適用於分佈穩定且演算法對尺度敏感的場景。
Robust Scaling：使用中位數與四分位距，對離群值具備穩健性。
MaxAbs Scaling：保留稀疏矩陣的零值結構，適合文本特徵。

機器學習模型評估

評估指標選用

分類問題：類別不平衡時，Accuracy 會誤導，應改用 F1-score 或 MCC。若誤報代價高（如垃圾信），優先看 Precision；若漏報代價高（如癌症篩檢），優先看 Recall。
迴歸問題：若資料含離群值，MAE 比 RMSE 更能反映真實誤差。

過擬合防治

Early Stopping：在驗證集 Loss 不再下降時停止訓練。
正則化（Regularization）：L1（Lasso）可產生稀疏權重，適合特徵選擇；L2（Ridge）則縮小權重，提升模型穩定性。

生成式 AI 與 LLM

RAG 與 Fine-tuning 決策

RAG：解決模型知識截止日與內部資料引用問題，適合知識庫問答。
Fine-tuning：解決模型對特定語氣、格式或領域術語的理解，適合行為模式的深度客製化。

提示工程技巧

思維鏈（CoT）：引導模型拆解推理步驟。
思維樹（ToT）：將推理建模為樹狀搜尋，適合複雜規劃任務。
提示鏈（Prompt Chaining）：將大任務拆解為多步驟，提升複雜任務的穩定性。

AI 治理與安全

AI 風險管理

EU AI Act：採用風險分級，高風險應用（如醫療、招募）需建立風險管理系統與人工監督機制。
OWASP Top 10 for LLM：重點防範提示注入（Prompt Injection）、敏感資訊洩漏與過度代理權限（Excessive Agency）。
隱私保護：差分隱私（Differential Privacy）透過注入雜訊保護個資，是隱私保護的黃金標準；聯邦學習（Federated Learning）則確保原始資料不離開本地。

可解釋性（XAI）

SHAP：透過合作賽局理論分配特徵貢獻，適用於單筆預測解釋。
LIME：在樣本附近進行局部近似，適用於黑箱模型的局部解釋。
Grad-CAM：視覺化模型關注的影像區域，適用於電腦視覺任務。

異動歷程：2026-05-20 初版文件建立。

筆記目錄

iPAS 備考筆記 - AI 應用規劃師

TLDR

AI 基礎概念

AI 能力層次與分類

AI、機器學習與深度學習的關係

資料工程

資料儲存架構

資料處理：ETL vs ELT

資料治理：Data Mesh

特徵工程

類別型特徵編碼

數值型特徵縮放

機器學習模型評估

評估指標選用

過擬合防治

生成式 AI 與 LLM

RAG 與 Fine-tuning 決策

提示工程技巧

AI 治理與安全

AI 風險管理

可解釋性（XAI）

雲翼的技術隨筆

快速導航

聯絡方式

筆記目錄

iPAS 備考筆記 - AI 應用規劃師 ​

TLDR ​

AI 基礎概念 ​

AI 能力層次與分類 ​

AI、機器學習與深度學習的關係 ​

資料工程 ​

資料儲存架構 ​

資料處理：ETL vs ELT ​

資料治理：Data Mesh ​

特徵工程 ​

類別型特徵編碼 ​

數值型特徵縮放 ​

機器學習模型評估 ​

評估指標選用 ​

過擬合防治 ​

生成式 AI 與 LLM ​

RAG 與 Fine-tuning 決策 ​

提示工程技巧 ​

AI 治理與安全 ​

AI 風險管理 ​

可解釋性（XAI） ​

雲翼的技術隨筆

快速導航

聯絡方式

iPAS 備考筆記 - AI 應用規劃師

TLDR

AI 基礎概念

AI 能力層次與分類

AI、機器學習與深度學習的關係

資料工程

資料儲存架構

資料處理：ETL vs ELT

資料治理：Data Mesh

特徵工程

類別型特徵編碼

數值型特徵縮放

機器學習模型評估

評估指標選用

過擬合防治

生成式 AI 與 LLM

RAG 與 Fine-tuning 決策

提示工程技巧

AI 治理與安全

AI 風險管理

可解釋性（XAI）