meo-su-dung-mo-hinh-hoc-may-voi-du-lieu-co-do-nhay-cao

Học máy có nhiều ưu điểm khác nhau, từ khả năng dễ dàng xác định các mẫu trong tập dữ liệu đến tự động hóa các quy trình. Không có gì ngạc nhiên khi lưu ý rằng thị trường dự kiến ​​sẽ có tốc độ CAGR là 39%. Giá trị của máy học trên thị trường toàn cầu ước tính khoảng 8 tỷ đô la vào năm 2019. Đến năm 2027, dự kiến ​​sẽ đạt 117 tỷ đô la.

Thông thường, các mô hình Học máy (ML) sử dụng dữ liệu có sẵn công khai. Nó cho phép một hệ thống máy tính nghiên cứu các khái niệm và mẫu để đưa ra dự đoán cho các tình huống mới. Tuy nhiên, khi nói đến các ngành như tài chính, xác minh danh tính,…, dữ liệu rất nhạy cảm và ML đưa ra một số thách thức về quyền riêng tư của dữ liệu. Chỉ đơn giản xóa một phần dữ liệu có thể không đủ để che giấu danh tính, vì các công cụ ML có thể chọn ra các sắc thái tinh tế trong các trường khác để suy ra danh tính của cá nhân.

Các công ty làm việc với dữ liệu nhạy cảm cần phải tuân thủ nhiều quy định. Tin tốt là có thể thiết kế quy trình làm việc giúp bảo vệ dữ liệu trong khi cho phép các kỹ sư máy học và nhà khoa học dữ liệu phát triển các mô hình dự đoán và trải nghiệm những lợi ích của máy học. Dưới đây là 8 mẹo nhỏ. Cùng tham khảo nhé.

1. Kiểm soát quyền truy cập dữ liệu

Khi làm việc với dữ liệu nhạy cảm, bắt buộc phải kiểm soát những ai có thể và không thể truy cập thông tin. Bạn cần cân bằng giữa việc bảo vệ quyền riêng tư của khách hàng với việc cung cấp cho các kỹ sư ML và nhà khoa học dữ liệu sự linh hoạt khi làm việc.

Nền tảng để kiểm soát truy cập dữ liệu nằm ở việc cung cấp một môi trường an toàn về mặt vật lý. Các máy tính nơi dữ liệu nhạy cảm được lưu trữ hoặc từ đó dữ liệu có thể được truy cập phải được đặt trong một phòng đặc biệt không có quyền truy cập Internet công cộng. Căn phòng này không được có bất kỳ cửa sổ trong suốt nào và sử dụng camera và đầu đọc sinh trắc học để kiểm soát việc ra vào phòng cũng như xác thực đa yếu tố.

2. Duy trì nhật ký truy cập

Ngoài việc hạn chế quyền truy cập dữ liệu, bạn cũng sẽ cần duy trì hồ sơ về những người truy cập dữ liệu. Các nhật ký này cần đề cập đến ai đã truy cập hình ảnh và siêu dữ liệu, khi nào nó được truy cập và từ nơi các tệp được truy cập.

Các kỹ sư ML và nhà khoa học dữ liệu truy cập dữ liệu không được phép tạo bản sao dữ liệu trên điện thoại, máy tính xách tay hoặc bất kỳ hình thức lưu trữ ngoài nào khác của họ. Dữ liệu không thể rời khỏi phòng an toàn trong bất kỳ trường hợp nào.

3. Mã hóa tất cả dữ liệu

Mã hóa tập dữ liệu không chỉ là nhu cầu thực tế đối với Học máy liên quan đến dữ liệu nhạy cảm mà còn là yêu cầu tuân thủ các cuộc đánh giá chẳng hạn như các cuộc đánh giá do cơ quan cấp chứng chỉ PCI-DSS thực hiện.

Mã hóa dữ liệu là bắt buộc đối với dữ liệu ở trạng thái nghỉ cũng như dữ liệu đang chuyển. Sẽ thật tai hại nếu dữ liệu cá nhân của khách hàng bị công khai chỉ vì dữ liệu đã ngừng hoạt động và được gửi qua đường dây mà không được mã hóa.

4. Xác định khoảng thời gian lưu trữ tập dữ liệu

Mặc dù tính khả dụng của dữ liệu rất quan trọng đối với các mô hình Học máy, nhưng dữ liệu không thể được lưu trữ vô thời hạn. Đặc biệt nếu bạn đang xử lý dữ liệu nhạy cảm, bạn phải xác định khoảng thời gian dữ liệu có thể được lưu trữ. Điều này rất quan trọng vì dữ liệu thu được thường có thể chứa thông tin nhận dạng cá nhân (PII) của khách hàng. Ví dụ: hình ảnh bị cắt có thể chứa một phần địa chỉ nhà của khách hàng khiến danh tính của họ gặp rủi ro.

Để giữ cho dữ liệu này không rơi vào tay kẻ xấu, bạn phải xác định khoảng thời gian lưu giữ tập dữ liệu. Sau khi hết thời gian lưu giữ dữ liệu, dữ liệu và tất cả dữ liệu thu được phải bị hủy.

5. Nhận được sự đồng ý của khách hàng

Tất cả dữ liệu đang được sử dụng cho ML phải được thu thập bằng cách nhận được sự đồng ý của khách hàng. Điều này rất quan trọng đối với bảo mật dữ liệu cũng như tuân thủ các quy định. Khả năng truy xuất nguồn gốc phải được duy trì kể từ thời điểm thông tin được nhập vào bộ dữ liệu.

Khi nói về sự đồng ý của khách hàng, điều quan trọng là phải kiểm tra xem liệu khách hàng có đồng ý sử dụng dữ liệu cho các mô hình đào tạo sẽ chỉ được sử dụng cho họ chứ không phải các khách hàng khác hay không hoặc đăng ký sử dụng dữ liệu của họ để đào tạo mô hình cho tất cả mọi người.

Mặc dù đã đồng ý ban đầu, khách hàng có thể quyết định rút lại sự đồng ý bất cứ lúc nào. Khi yêu cầu xóa được thực hiện, nó phải được xử lý sớm nhất. Điều này có nghĩa là tất cả dữ liệu phải được gắn thẻ và tổ chức theo cách có thể xóa tất cả các dấu vết của dữ liệu của khách hàng.

6. Giám sát cơ sở dữ liệu trực tuyến

Để các mô hình ML trở nên đáng tin cậy, dữ liệu đang được sử dụng để đào tạo chúng phải được cập nhật, chính xác và đầy đủ. Đối với điều này, các tập dữ liệu cần được cập nhật thường xuyên bằng cách so sánh chúng với dữ liệu được lưu trữ trong cơ sở dữ liệu của bên thứ ba đáng tin cậy như hồ sơ hộ chiếu và ID quốc gia.

Khi dữ liệu trở nên lỗi thời, nó phải được cập nhật để kết quả mô hình ML vẫn đáng tin cậy. Giám sát cơ sở dữ liệu trực tuyến của chính phủ để xác minh dữ liệu và danh tính cũng giúp phát hiện sai lệch khái niệm và bảo vệ mô hình ML khỏi những kẻ gian lận.

7. Tạo môi trường phát triển mô hình học máy an toàn

Khi xử lý dữ liệu nhạy cảm, bạn cần tách rời vòng đời phát triển phần mềm và phát triển mô hình ML. Bạn sẽ cần môi trường phát triển và tổ chức riêng biệt với quyền truy cập dữ liệu được quản lý tập trung để giữ dữ liệu an toàn trong khi đảm bảo kết quả tính toán đáng tin cậy.

Môi trường phát triển là nền tảng lý tưởng để các kỹ sư ML và nhà khoa học dữ liệu thử nghiệm những ý tưởng mới. Bất kỳ dữ liệu nào vào nền tảng này phải được cung cấp với sự đồng ý của khách hàng.

Trong phần dàn dựng, các kỹ sư ML có thể chạy các quy trình công việc im lặng như một lựa chọn thay thế cho các quy trình sản xuất. Điều này liên quan đến dữ liệu sản xuất thực tế, cho phép so sánh đầu ra của cả hai quy trình công việc mà không có bất kỳ nguy cơ hỏng dữ liệu nào.

8. Điều chỉnh chất lượng dữ liệu

Với tính nhạy cảm của dữ liệu, việc duy trì các tiêu chuẩn chất lượng cao cho cơ sở dữ liệu trở nên cấp thiết. Tất cả dữ liệu được sử dụng trong các mô hình ML phải đầy đủ, chính xác, kịp thời và được định dạng đúng. Trong khi không thể tạo bản sao, các bản ghi dữ liệu trùng lặp có thể xâm nhập vào hệ thống. Bằng cách liên tục theo dõi cơ sở dữ liệu để kiểm tra chất lượng, bạn phải lọc ra các bản sao và hợp nhất các bản ghi để tạo các bản ghi duy nhất, duy nhất cho từng khách hàng.

Bằng cách điều chỉnh chất lượng dữ liệu, bạn có thể đảm bảo rằng kết quả của các mô hình ML là đáng tin cậy.

Tóm lại

Học máy có khả năng tăng năng suất và trích xuất nhiều giá trị hơn từ các tập dữ liệu trong khi giảm chi phí hoạt động. Đối với các ngành xử lý dữ liệu nhạy cảm, quy trình làm việc cần được cân bằng với các nỗ lực bảo vệ quyền riêng tư của khách hàng. Có được sự đồng ý của khách hàng đối với tất cả dữ liệu được sử dụng là điều cần thiết để đạt được điều này.

Các kỹ sư ML và nhà khoa học dữ liệu phải rất cẩn thận với cách họ lưu trữ và truy cập dữ liệu. Duy trì các tiêu chuẩn cao về chất lượng dữ liệu là chìa khóa cho hiệu quả của các mô hình ML. Sau khi được xác minh, tất cả dữ liệu phải được mã hóa và lưu giữ trong các khoảng thời gian xác định. Hơn nữa, để sử dụng dữ liệu này, các môi trường phát triển và tổ chức riêng biệt sẽ cần được duy trì.

Bằng cách làm theo các mẹo này, các kỹ sư ML có thể tận dụng các cơ hội do Học máy mang lại và cách mạng hóa cách thức thực hiện công việc.

Nguồn bài viết: https://datafloq.com/read/8-tips-using-machine-learning-models-highly-sensitive-data/15101

Xem thêm: