Scale Invariant Feature Transform (SIFT)

Tổng quan.

Thuật toán biến đổi đặc trưng bất biến tỷ lệ (SIFT) là một phương pháp trong thị giác máy tính để phát hiện và mô tả các đặc trưng cục bộ trong hình ảnh. Thuật toán này được phát triển bởi David Lowe vào năm 1999 và đã có nhiều ứng dụng rộng rãi như nhận dạng đối tượng, lập bản đồ và điều hướng robot, ghép hình ảnh, mô hình 3D, nhận dạng cử chỉ, theo dõi video, nhận dạng động vật hoang dã và di chuyển.

Đặc trưng SIFT là các “điểm chính” được chọn trên hình ảnh và được mô tả bằng các bộ mô tả liên quan. Các điểm chính được trích xuất bằng thuật toán SIFT và bộ mô tả của chúng được tính toán bằng thuật toán SIFT. Một cách khác, người ta có thể sử dụng riêng thuật toán trích xuất điểm chính hoặc chỉ tính toán bộ mô tả của điểm chính tùy ý.

Máy trích xuất điểm chính SIFT (SIFT detector)

Điểm chính SIFT là một vùng hình tròn có hướng. Nó được mô tả bằng một khung hình gồm bốn tham số: tọa độ trung tâm (x, y) của điểm chính, tỷ lệ của nó (bán kính của vùng) và hướng của nó (một góc được biểu thị bằng đơn vị radian). Máy trích xuất điểm chính SIFT sử dụng các keypoint trong hình ảnh tương tự như các “đốm màu”. Bằng cách tìm kiếm các “đốm màu” ở nhiều tỷ lệ và vị trí khác nhau, máy trích xuất SIFT luôn giữ tính bất biến hoặc chính xác hơn là đồng biến đối với các biến đổi dịch, xoay và tỷ lệ hình ảnh.

Hướng của các điểm chính cũng được xác định từ hình ảnh cục bộ và đồng biến với các phép quay hình ảnh. Tuy nhiên, trong một số trường hợp, hướng có thể không rõ ràng. Trong trường hợp này, máy trích xuất SIFT trả về tối đa bốn hướng có thể và tạo ra tối đa bốn khung (khác nhau về hướng) cho mỗi điểm chính được tìm thấy.

Biến đổi đặc trưng bất biến theo tỷ lệ (SIFT)

Có một số yếu tố ảnh hưởng đến việc trích xuất điểm chính bằng thuật toán SIFT. Trước tiên, việc tìm kiếm điểm chính ở nhiều tỷ lệ được thực hiện bằng cách xây dựng không gian tỷ lệ Gaussian. Không gian tỷ lệ chỉ là một tập hợp các hình ảnh thu được bằng cách làm mờ dần dần hình ảnh ban đầu, tương tự như việc giảm độ phân giải của hình ảnh. Thông thường, mức độ làm mờ được gọi là tỷ lệ của hình ảnh. Xây dựng không gian tỷ lệ bị ảnh hưởng bởi các tham số sau:

  • Số octave: Tăng số octave lên một đơn vị tương đương với việc tăng kích thước của nhân Gaussian gấp đôi, giống như giảm độ phân giải hình ảnh xuống một nửa. Thông thường, việc xây dựng không gian tỷ lệ dùng nhiều octave càng tốt (khoảng log2 của tối thiểu (chiều rộng, chiều cao)), giúp tìm kiếm các điểm chính ở mọi kích thước có thể.
  • Chỉ số octave đầu tiên: Theo quy ước, octave đầu tiên có chỉ số 0 và tương ứng với độ phân giải đầy đủ của hình ảnh. Sử dụng octave có chỉ số lớn hơn 0 sẽ bắt đầu không gian tỷ lệ ở độ phân giải thấp hơn (ví dụ: 1 làm giảm độ phân giải xuống một nửa). Tương tự, sử dụng octave có chỉ số âm sẽ bắt đầu không gian tỷ lệ ở độ phân giải cao hơn, có thể hữu ích khi muốn trích xuất các đặc trưng rất nhỏ (nhưng không có ý nghĩa khi vượt qua -1).
  • Số lượng cấp độ mỗi octave: Mỗi octave có số lượng cấp độ ảnh trung gian được lấy mẫu (thường là 3). Việc tăng số lượng này trong lý thuyết có thể tạo ra các điểm chính tinh vi hơn, nhưng thực tế có thể khiến lựa chọn các điểm chính trở nên không ổn định do nhiễu.

Để cải thiện chất lượng của các điểm chính, thuật toán tiếp tục điều chỉnh bằng cách loại bỏ những điểm có khả năng không ổn định, ví dụ như các điểm gần biên hình ảnh thay vì điểm hình ảnh hoặc các điểm trên cấu trúc hình ảnh có độ tương phản thấp.

Mô tả SIFT (SIFT Descriptor)

Mô tả SIFT là một biểu đồ không gian 3D của các độ dốc hình ảnh để mô tả sự xuất hiện của một điểm chính. Gradient tại mỗi pixel được xem là một mẫu của một vector đặc trưng ba chiều cơ bản, được hình thành bởi vị trí pixel và hướng gradient. Các mẫu được chuẩn hóa theo độ dốc và tích lũy vào một biểu đồ 3D, biểu đồ này (sau khi được chuẩn hóa và cắt tỉa) tạo thành mô tả SIFT của vùng hình ảnh. Một hàm trọng số Gaussian bổ sung được áp dụng để giảm sự quan trọng của các gradient ở xa trung tâm điểm chính. Các hướng gradient được lượng tử hóa thành tám bin và không gian không gian được lượng tử hóa thành bốn bin như sau:

Nguồn: https://www.vlfeat.org/api/sift.html#:~:text=The%20SIFT%20descriptor%20is%20a,orientation%20on%20the%20image%20plane.

Related Posts