iPAS 備考筆記 - AI 應用規劃師

TLDR

AI 基礎：AI、ML、DL 為巢狀關係；目前主流商用 AI 均屬「弱 AI（Narrow AI）」。
資料工程：資料湖倉（Data Lakehouse）結合了資料湖的彈性與資料倉儲的治理能力；獎牌架構（Bronze/Silver/Gold）是資料分層管理的標準模式。
資料處理：ELT 逐漸取代 ETL，以保留原始資料細節供 AI 訓練使用。
資料治理：Data Mesh 透過領域導向所有權解決集中式平台的擴展瓶頸。
特徵工程：類別型特徵編碼需視基數與模型類型選擇（One-Hot, Target, WoE 等）；數值特徵需標準化（Z-score, Robust Scaling）。
模型評估：類別不平衡問題應優先考慮指標選擇（F1, AUC, MCC）與決策閾值調整，而非僅依賴 Accuracy。
深度學習：Transformer 架構是現代 NLP 的基石；CNN 擅長影像空間特徵；Diffusion Model 是目前圖像生成的主流。
AI 治理：EU AI Act 採取風險分級管理；AI 系統需具備公平性、可解釋性與安全性，並透過 Model Card 與 Datasheet 進行透明度揭露。

AI 基礎概念

AI 能力層次與分類

人工智慧泛指讓機器模擬人類智慧行為的技術。目前的商用 AI（如 ChatGPT、AlphaGo）皆屬於「弱 AI（Narrow AI）」，其特徵為：

無自主目標設定：僅能回應提示或外部任務。
無持續性記憶：對話結束後不會自主累積經驗。
跨領域遷移受限：表現依賴大量訓練資料與後訓練流程。

AI 功能可分為：分析型、預測型、生成型與規範型（推薦最佳行動方案）。

AI、機器學習與深度學習

三者為層層包含的巢狀關係：

AI：任何讓機器展現智慧行為的技術。
ML：透過資料自動學習模式，不需明確編寫規則。
DL：使用多層神經網路自動萃取特徵。

資料工程

資料儲存架構

Data Warehouse：結構化資料，寫入時定義綱要（Schema-on-Write），適合報表。
Data Lake：原始資料，讀取時解析綱要（Schema-on-Read），適合探索。
Data Lakehouse：結合兩者，支援 ACID 交易與版本追蹤，適合報表、ML 與 RAG。

獎牌架構（Medallion Architecture）

Bronze（銅層）：原始資料，維持原貌。
Silver（銀層）：清洗與標準化，跨業務通用。
Gold（金層）：業務消費層，預先計算好的資料集。

資料治理

Data Mesh：將資料所有權下放給各業務領域，透過自助式基礎設施與聯邦式治理管理。
Data Catalog/Metadata/Lineage：分別解決資料「找得到」、「看得懂」與「追得出」的問題。

特徵工程

類別型特徵編碼選型

One-Hot：適用類別少、無順序的特徵（樹模型）。
Ordinal：適用有明確順序的特徵（如教育程度）。
Target Encoding：適用高基數特徵，但需防範 Data Leakage（資料洩漏）。
WoE：金融領域二元分類標準做法。
Feature Hashing：適用串流資料或記憶體受限場景。

資料品質與不平衡處理

資料品質六維度：準確性、完整性、一致性、時效性、唯一性、有效性。
不平衡處理：
- SMOTE：適用數值型特徵，在少數類別樣本間插值生成合成樣本。
- 決策閾值調整：訓練後調整，成本最低。
- 異常偵測：當類別比例極端（如 99.99:0.01）時，改用 Isolation Forest 或 One-Class SVM。

機器學習演算法

監督式學習

線性模型：羅吉斯迴歸（Logistic Regression）輸出機率，適合二元分類。
決策樹：透過分裂規則做預測，可解釋性高，但單棵樹易過擬合。
SVM：透過最大間隔（Maximum Margin）尋找決策邊界，適合高維、小樣本資料。
集成學習：
- Bagging（Random Forest）：降低 Variance。
- Boosting（XGBoost, LightGBM, CatBoost）：降低 Bias，提升預測力。

非監督式學習

K-Means：球狀分群，需事先指定 K 值。
DBSCAN：基於密度分群，可自動識別噪音點，不需指定群數。

深度學習與模型架構

CNN：卷積層萃取局部特徵，適合影像處理。
RNN/LSTM：處理序列資料，LSTM 透過門控機制解決梯度消失問題。
Transformer：基於 Self-Attention 機制，支援平行運算，是現代 LLM 的基礎。
Diffusion Model：透過反向去雜訊過程生成高品質圖像。

AI 治理與安全

AI 治理架構

EU AI Act：基於風險的分級管理框架，禁止不可接受風險，嚴格規範高風險 AI。
NIST AI RMF：提供風險管理的流程語言（Govern, Map, Measure, Manage）。
ISO/IEC 42001：AI 管理系統的國際標準，強調責任分工與持續改善。

安全防護

提示注入（Prompt Injection）：防禦重點在於指令與資料隔離。
隱私保護：透過差分隱私（Differential Privacy）注入雜訊，或使用聯邦學習（Federated Learning）確保原始資料不離開本地。
可解釋性（XAI）：SHAP 與 LIME 是事後解釋黑箱模型的主流工具。

異動歷程：2026-05-20 初版文件建立。

iPAS 備考筆記 - AI 應用規劃師 ​

TLDR ​

AI 基礎概念 ​

AI 能力層次與分類 ​

AI、機器學習與深度學習 ​

資料工程 ​

資料儲存架構 ​

獎牌架構（Medallion Architecture） ​

資料治理 ​

特徵工程 ​

類別型特徵編碼選型 ​

資料品質與不平衡處理 ​

機器學習演算法 ​

監督式學習 ​

非監督式學習 ​

深度學習與模型架構 ​

AI 治理與安全 ​

AI 治理架構 ​

安全防護 ​

iPAS 備考筆記 - AI 應用規劃師

TLDR

AI 基礎概念

AI 能力層次與分類

AI、機器學習與深度學習

資料工程

資料儲存架構

獎牌架構（Medallion Architecture）

資料治理

特徵工程

類別型特徵編碼選型

資料品質與不平衡處理

機器學習演算法

監督式學習

非監督式學習

深度學習與模型架構

AI 治理與安全

AI 治理架構

安全防護