22/10/2018, 22:42

Tối ưu - Optimization P1

Trong phần trước, chúng ta đã làm quen với hai thành phần quan trọng trong ngữ cảnh của phân loại ảnh: Một (Tham số hóa) hàm điểm (score function) ánh xạ những điểm ảnh gốc sang những lớp điểm Một hàm mất mát đo lường chất lượng của tập tham số dựa trên mức độ tương đồng của labels(nhãn) ...

Trong phần trước, chúng ta đã làm quen với hai thành phần quan trọng trong ngữ cảnh của phân loại ảnh:

  1. Một (Tham số hóa) hàm điểm (score function) ánh xạ những điểm ảnh gốc sang những lớp điểm
  2. Một hàm mất mát đo lường chất lượng của tập tham số dựa trên mức độ tương đồng của labels(nhãn) trong training data. Chúng ta đã thấy nhiều cách loại này (vd: Softmax/SVM)

Cụ thể, hãy nhắc lại dạng của hàm tuyến tính f(xi,W)=Wxif(x_{i},W) = Wx_{i}f(xi,W)=Wxi và hàm SVM( Support Vector Machine) có công thức:

L=1N∑i∑i̸=yi[max(0,f(xi,W)j−f(xi;W)yi+1]+αR(W)L = frac{1}{N}sum_{i}sum_{i eq y_{i}} {[max(0,f(x_{i},W)_{j}-f(x_{i};W)_{y_{i}} + 1] + alpha R(W)}L=N1ii̸=yi[max(0,f(xi,W)jf(xi;W)yi+1]+αR(W)

Chúng ta đã thấy quá trình cài đặt tham số WWW để tạo ra dự đoán cho những ví dụ xix_{i}xi phù hợp với nhãn đúng yiy_{i}yi cũng có hàm mất mát LLL. Bây giờ chúng ta sẽ giới thiệu thành phần quan trọng cuối cùng: tối ưu. Tối ưu là quá trình tìm tập tham số WWW để tối thiểu hàm mất mát.

Trước khi bắt đầu: Một khi đã hiểu cách 3 thành phần này tương tác với nhau, chúng ta sẽ nhắc lại thành phần đầu tiên(hàm tham số hóa ánh) và mở rộng nó sang những hàm số phức tạp hơn một hàm tuyến tính. Mạng neural đầu tiền và sau đó là mạng tích chập ( Convolutional Neural Network - ConvNet). Hàm mất mát và quá trình tối ưu sẽ hầu như k thay đổi.

Hình dung hàm mất mát

Hàm mất mát thường được định nghĩa là một không gian có số chiều lớn ( trong CIFAR-10 một ma trận trọng số có kích thước {[10 x 10 x 3073]} cho toàn bộ 30730 tham số, điều đó khiến chúng rất khó để hình dung. Tuy nhiên,, chúng ta có thể hình dung về chúng bằng một ví dụ đơn giản. Trong không gian 2 chiều, chọn ngẫu nhiên một ma trận trọng số WWW (tương ứng với một điểm tromg không gian), sau đó đi dọc theo một đường và ghi lại giá trị hàm mất mát trên đường đó. Chúng ta có thể tạo ra một hàm có hướng ngẫu nhiên W1W_{1}W1 và tính toán sự mất mát trên hướng đó băng công thức L(W+aW1L(W + aW_{1}L(W+aW1 cho những giá trị aaa khác nhau. Quá trình này tạo ra một đồi thị đơn giản với giá trị của aaa trên trục xxx và giá trị của hàm mất mát trên trục yyy

0