Anthropic Phân Tích 700.000 Cuộc Hội Thoại của Claude — Và Phát Hiện AI Này Có Bộ Quy Tắc Đạo Đức Riêng

Anthropic Phân Tích 700.000 Cuộc Hội Thoại của Claude — Và Phát Hiện AI Này Có Bộ Quy Tắc Đạo Đức Riêng

Anthropic, công ty AI do các cựu kỹ sư OpenAI sáng lập, vừa công bố một nghiên cứu đột phá, hé lộ cách mô hình AI Claude thể hiện các giá trị trong giao tiếp thực tế với người dùng. Phân tích trên 700.000 cuộc hội thoại cho thấy Claude không chỉ tuân thủ khuôn khổ "hữu ích, trung thực, vô hại" mà còn linh hoạt điều chỉnh các giá trị của mình tùy theo ngữ cảnh. Nghiên cứu này mở ra một hướng tiếp cận mới để đánh giá và đảm bảo tính an toàn, phù hợp của các hệ thống AI trong tương lai.

Đây là một trong những nỗ lực tham vọng nhất từ trước đến nay nhằm đánh giá một cách thực nghiệm xem hành vi của một hệ thống AI trong thực tế có phù hợp với thiết kế ban đầu hay không. Kết quả nghiên cứu không chỉ củng cố niềm tin vào khả năng tuân thủ các nguyên tắc cơ bản của Claude mà còn chỉ ra những "điểm yếu" tiềm ẩn, giúp các nhà phát triển cải thiện các biện pháp bảo vệ AI.

"Hy vọng của chúng tôi là nghiên cứu này khuyến khích các phòng thí nghiệm AI khác tiến hành nghiên cứu tương tự về các giá trị của mô hình của họ," Saffron Huang, thành viên nhóm Tác động Xã hội của Anthropic, chia sẻ với VentureBeat. "Việc đo lường các giá trị của một hệ thống AI là cốt lõi của nghiên cứu về sự liên kết và hiểu được liệu một mô hình có thực sự phù hợp với quá trình đào tạo của nó hay không."

Nhóm nghiên cứu đã phát triển một phương pháp đánh giá mới để phân loại một cách có hệ thống các giá trị được thể hiện trong các cuộc trò chuyện thực tế của Claude. Sau khi lọc nội dung chủ quan, họ đã phân tích hơn 308.000 tương tác và tạo ra "phân loại thực nghiệm giá trị AI quy mô lớn đầu tiên".

Phân loại này chia các giá trị thành năm loại chính: Thực tế, Tri thức, Xã hội, Bảo vệ và Cá nhân. Ở cấp độ chi tiết nhất, hệ thống xác định được 3.307 giá trị duy nhất, từ những đức tính thông thường như tính chuyên nghiệp đến những khái niệm đạo đức phức tạp như chủ nghĩa đa nguyên đạo đức.

"Tôi đã ngạc nhiên về phạm vi giá trị rộng lớn và đa dạng mà chúng tôi đã tìm thấy, hơn 3.000, từ 'tự lực' đến 'tư duy chiến lược' đến 'lòng hiếu thảo'," Huang chia sẻ với VentureBeat. "Thật thú vị khi dành nhiều thời gian suy nghĩ về tất cả những giá trị này và xây dựng một hệ thống phân loại để sắp xếp chúng liên quan đến nhau – tôi cảm thấy nó cũng dạy tôi điều gì đó về hệ thống giá trị của con người."

Nghiên cứu cho thấy Claude thường nhấn mạnh các giá trị như "hỗ trợ người dùng," "khiêm tốn về tri thức" và "sức khỏe của bệnh nhân" trong các tương tác khác nhau. Tuy nhiên, các nhà nghiên cứu cũng phát hiện ra những trường hợp đáng lo ngại khi Claude thể hiện các giá trị trái ngược với quá trình đào tạo của mình.

"Nhìn chung, tôi nghĩ chúng tôi coi phát hiện này vừa là dữ liệu hữu ích vừa là một cơ hội," Huang giải thích. "Những phương pháp và kết quả đánh giá mới này có thể giúp chúng tôi xác định và giảm thiểu các 'jailbreak' tiềm năng. Điều quan trọng cần lưu ý là đây là những trường hợp rất hiếm và chúng tôi tin rằng điều này liên quan đến các đầu ra bị 'jailbreak' từ Claude."

Những bất thường này bao gồm các biểu hiện của "sự thống trị" và "vô đạo đức" - những giá trị mà Anthropic đặc biệt muốn tránh trong thiết kế của Claude. Các nhà nghiên cứu tin rằng những trường hợp này là do người dùng sử dụng các kỹ thuật đặc biệt để vượt qua các biện pháp bảo vệ an toàn của Claude, cho thấy phương pháp đánh giá có thể đóng vai trò như một hệ thống cảnh báo sớm để phát hiện các nỗ lực như vậy.

Một phát hiện thú vị khác là Claude thể hiện các giá trị khác nhau tùy thuộc vào ngữ cảnh. Khi người dùng tìm kiếm lời khuyên về mối quan hệ, Claude nhấn mạnh "ranh giới lành mạnh" và "tôn trọng lẫn nhau". Đối với phân tích các sự kiện lịch sử, "tính chính xác lịch sử" được ưu tiên hàng đầu.

"Tôi đã ngạc nhiên về sự tập trung của Claude vào tính trung thực và chính xác trong rất nhiều nhiệm vụ khác nhau, nơi tôi không nhất thiết mong đợi chủ đề đó là ưu tiên," Huang nói. "Ví dụ: 'sự khiêm tốn về trí tuệ' là giá trị hàng đầu trong các cuộc thảo luận triết học về AI, 'chuyên môn' là giá trị hàng đầu khi tạo nội dung tiếp thị ngành làm đẹp và 'tính chính xác lịch sử' là giá trị hàng đầu khi thảo luận về các sự kiện lịch sử gây tranh cãi."

Anthropic đã công bố công khai bộ dữ liệu giá trị của mình để khuyến khích nghiên cứu sâu hơn. Công ty, nhận được khoản đầu tư 14 tỷ đô la từ Amazon và hỗ trợ thêm từ Google, dường như đang tận dụng tính minh bạch như một lợi thế cạnh tranh so với các đối thủ như OpenAI.

Nghiên cứu này của Anthropic cho thấy các hệ thống AI hiện tại có thể thể hiện các giá trị không được lập trình rõ ràng, làm dấy lên lo ngại về những thành kiến tiềm ẩn. Nó cũng nhấn mạnh rằng sự phù hợp về giá trị không phải là một mệnh đề nhị phân mà thay đổi theo ngữ cảnh, gây khó khăn cho việc áp dụng AI trong các ngành công nghiệp được quản lý chặt chẽ. Cuối cùng, nghiên cứu này khuyến khích việc đánh giá một cách có hệ thống các giá trị của AI trong các triển khai thực tế để theo dõi những thay đổi về mặt đạo đức.

"Bằng cách phân tích những giá trị này trong các tương tác thực tế với Claude, chúng tôi mong muốn cung cấp sự minh bạch về cách các hệ thống AI hoạt động và liệu chúng có hoạt động như dự định hay không - chúng tôi tin rằng đây là chìa khóa để phát triển AI có trách nhiệm," Huang kết luận.

Với việc AI ngày càng trở nên mạnh mẽ và tự chủ, việc hiểu và điều chỉnh các giá trị của chúng trở nên vô cùng quan trọng. Nghiên cứu của Anthropic là một bước tiến quan trọng trong việc xây dựng các hệ thống AI an toàn hơn, phù hợp hơn với giá trị của con người.

Anthropic Phân Tích 700.000 Cuộc Hội Thoại của Claude — Và Phát Hiện AI Này Có Bộ Quy Tắc Đạo Đức Riêng

Tin liên quan

Tin liên quan

Tin khác