Công cụ pháp y "hồi sinh" "bộ não" của AI thất bại để hiểu điều gì đã sai

Công cụ pháp y "hồi sinh" "bộ não" của AI thất bại để hiểu điều gì đã sai

Công cụ pháp y "hồi sinh" "bộ não" của AI thất bại để hiểu điều gì đã sai

Trong kỷ nguyên số, trí tuệ nhân tạo (AI) đang len lỏi vào mọi ngóc ngách của cuộc sống, từ những chiếc máy bay không người lái vận chuyển hàng hóa y tế đến các trợ lý ảo đảm nhiệm những công việc hàng ngày. Tuy nhiên, đằng sau vẻ hào nhoáng của sự tiện lợi và hiệu quả, ẩn chứa một thực tế: AI không phải lúc nào cũng hoàn hảo. Vậy điều gì xảy ra khi AI thất bại? Và làm thế nào chúng ta có thể tìm ra nguyên nhân để ngăn chặn những sự cố tương tự trong tương lai?

Một nhóm nghiên cứu tại Georgia Institute of Technology đã phát triển một hệ thống đột phá mang tên "AI Psychiatry" (AIP) – tạm dịch "Tâm thần học AI". Hệ thống này có khả năng tái tạo lại các tình huống AI thất bại, giúp các nhà điều tra xác định nguyên nhân gốc rễ của sai sót thông qua việc khôi phục và kiểm tra các mô hình AI bị nghi ngờ.

Vấn đề lớn nhất trong việc điều tra các sự cố AI là tính chất "hộp đen" của chúng. Ngay cả những người tạo ra AI đôi khi cũng khó hiểu được cách hệ thống đưa ra quyết định. Điều này đặc biệt khó khăn khi các nhà điều tra không có quyền truy cập vào dữ liệu nội bộ của hệ thống AI.

AIP giải quyết vấn đề này bằng cách "hồi sinh" "bộ não" của AI thất bại, cho phép các nhà điều tra kiểm tra nó trong một môi trường được kiểm soát.

"AI Psychiatry áp dụng một loạt các thuật toán pháp y để cô lập dữ liệu đằng sau quá trình ra quyết định của hệ thống AI. Sau đó, các phần này được lắp ráp lại thành một mô hình chức năng hoạt động giống hệt như mô hình ban đầu," các nhà nghiên cứu giải thích.

Để hiểu rõ hơn về tiềm năng của AIP, hãy tưởng tượng một chiếc xe tự lái bất ngờ lạc tay lái và gây tai nạn. Dữ liệu cảm biến có thể cho thấy camera bị lỗi khiến AI nhận diện sai biển báo giao thông. Lúc này, AIP có thể giúp xác định liệu lỗi camera là do tấn công độc hại hay do một nguyên nhân khác.

"Trong trường hợp giả định này, sự cố của camera có thể là kết quả của lỗ hổng bảo mật hoặc lỗi trong phần mềm của nó đã bị hacker khai thác. Nếu các nhà điều tra tìm thấy một lỗ hổng như vậy, họ phải xác định xem điều đó có gây ra vụ tai nạn hay không. Nhưng việc đưa ra quyết định đó không phải là một kỳ công nhỏ," các nhà nghiên cứu cho biết.

Hệ thống AIP lấy dữ liệu đầu vào là một bản chụp bộ nhớ (memory image) – ảnh chụp nhanh của các bit và byte được tải khi AI đang hoạt động. Bản chụp bộ nhớ này chứa đựng những manh mối quan trọng về trạng thái nội bộ và quy trình ra quyết định của AI. Với AIP, các nhà điều tra có thể trích xuất mô hình AI chính xác từ bộ nhớ, phân tích các bit và byte của nó, và tải mô hình vào một môi trường an toàn để thử nghiệm.

Nhóm nghiên cứu đã thử nghiệm AIP trên 30 mô hình AI, trong đó 24 mô hình được cài đặt "cửa hậu" (backdoor) để tạo ra các kết quả không chính xác dưới các tác nhân kích hoạt cụ thể. Hệ thống đã phục hồi, tái tạo và kiểm tra thành công mọi mô hình, bao gồm cả các mô hình thường được sử dụng trong các tình huống thực tế như nhận dạng biển báo đường phố trong xe tự lái.

"Cho đến nay, các thử nghiệm của chúng tôi cho thấy rằng AI Psychiatry có thể giải quyết hiệu quả bí ẩn kỹ thuật số đằng sau một sự cố như một vụ tai nạn xe tự lái mà trước đây sẽ để lại nhiều câu hỏi hơn là câu trả lời. Và nếu nó không tìm thấy lỗ hổng trong hệ thống AI của xe, AI Psychiatry cho phép các nhà điều tra loại trừ AI và tìm kiếm các nguyên nhân khác như camera bị lỗi," các nhà nghiên cứu khẳng định.

Điều quan trọng là, thuật toán chính của AIP có tính tổng quát cao. Nó tập trung vào các thành phần phổ quát mà tất cả các mô hình AI phải có để đưa ra quyết định. Điều này giúp AIP có thể dễ dàng mở rộng sang bất kỳ mô hình AI nào sử dụng các framework phát triển AI phổ biến.

Theo David Oygenblik, Nghiên cứu sinh Tiến sĩ ngành Kỹ thuật Điện và Máy tính tại Georgia Institute of Technology, và Brendan Saltaformaggio, Phó Giáo sư An ninh mạng và Quyền riêng tư, và Kỹ thuật Điện và Máy tính tại Georgia Institute of Technology:

"Cho dù AI là một bot đưa ra các đề xuất sản phẩm hay một hệ thống hướng dẫn các đội máy bay không người lái tự động, AI Psychiatry có thể phục hồi và tái tạo AI để phân tích. AI Psychiatry hoàn toàn là mã nguồn mở để bất kỳ nhà điều tra nào cũng có thể sử dụng."

AIP không chỉ hữu ích trong việc điều tra các sự cố sau khi chúng xảy ra, mà còn có thể đóng vai trò là một công cụ giá trị để tiến hành kiểm toán các hệ thống AI trước khi vấn đề nảy sinh. Với việc các cơ quan chính phủ từ thực thi pháp luật đến dịch vụ bảo vệ trẻ em tích hợp các hệ thống AI vào quy trình làm việc của họ, kiểm toán AI đang trở thành một yêu cầu giám sát ngày càng phổ biến ở cấp tiểu bang. Với một công cụ như AIP trong tay, các kiểm toán viên có thể áp dụng một phương pháp pháp y nhất quán trên các nền tảng và triển khai AI đa dạng.

Trong tương lai, công cụ này hứa hẹn sẽ mang lại lợi ích đáng kể cho cả những người tạo ra hệ thống AI và tất cả những người bị ảnh hưởng bởi các nhiệm vụ mà chúng thực hiện. AIP mở ra một hướng đi mới trong việc đảm bảo tính minh bạch, trách nhiệm giải trình và độ tin cậy của các hệ thống AI ngày càng phức tạp.