Nghiên cứu khoa học mới nhất, phân tích cái cách mô hình ngôn ngữ vận hành của startup Anthropic dưới hình thái mô phỏng thần kinh học đã tạo ra những thông tin cực kỳ quý giá, mình nghĩ rất nên chia sẻ để anh em hiểu thêm cách LLM hoạt động và tạo ra ngôn ngữ, thơ ca, code hay hình ảnh cho mọi người.
Các mô hình ngôn ngữ như Claude không được lập trình trực tiếp bởi con người. Thay vào đó, chúng được huấn luyện trên một lượng lớn dữ liệu. Trong quá trình huấn luyện đó, chúng tự học các chiến lược để giải quyết vấn đề. Những chiến lược này được mã hóa trong hàng tỷ phép tính mà mô hình thực hiện cho mỗi từ nó viết ra. Chúng xuất hiện khó hiểu đối với chúng tôi, những người phát triển mô hình. Điều này có nghĩa là chúng ta không hiểu cách thức hoạt động của mô hình trong hầu hết các trường hợp.
Việc hiểu cách các mô hình như Claude suy nghĩ sẽ cho phép chúng ta có được sự hiểu biết tốt hơn về khả năng của chúng, cũng như giúp chúng ta đảm bảo rằng chúng đang làm những gì chúng ta mong muốn. Ví dụ:
- Claude có thể nói hàng chục ngôn ngữ. Nó sẽ sử dụng ngôn ngữ nào “trong đầu”?
- Claude viết văn bản từng từ một. Nó chỉ tập trung vào việc dự đoán từ tiếp theo hay đôi khi nó lên kế hoạch trước?
- Claude có thể trình bày lý luận của mình từng bước một. Giải thích này có đại diện cho các bước thực tế mà nó đã thực hiện để đạt được câu trả lời, hay đôi khi nó chỉ tạo ra một lập luận hợp lý cho một kết luận đã định trước?
Chúng tôi lấy ý tưởng từ lĩnh vực thần kinh học, nơi các nhà khoa học từ lâu nghiên cứu những "mớ hỗn độn" bên trong bộ não của các sinh vật sống, và cố gắng xây dựng một loại "kính hiển vi AI" để giúp chúng ta xác định các mô hình hoạt động và luồng thông tin chúng tạo ra. Có những giới hạn cho những gì bạn có thể học được chỉ bằng cách nói chuyện với một mô hình AI. Rốt cuộc thì, con người, và ngay cả các nhà thần kinh học cũng không biết tất cả các chi tiết về cách thức hoạt động của bộ não con người. Vì vậy, chúng tôi nhìn vào bên trong.
Phương pháp nghiên cứu của chúng tôi làm sáng tỏ một phần những gì xảy ra bên trong thuật toán, khi Claude phản hồi các yêu cầu, các prompt thử nghiệm, đủ để thấy bằng chứng xác thực ba kết luận sau:
- Claude đôi khi suy nghĩ trong một không gian khái niệm được chia sẻ giữa các ngôn ngữ, cho thấy nó có một loại "ngôn ngữ tư duy" phổ quát. Chúng tôi chứng minh điều này bằng cách dịch các câu đơn giản sang nhiều ngôn ngữ và theo dõi sự chồng chéo trong cách Claude xử lý chúng.
- Claude sẽ lên kế hoạch những gì nó sẽ nói trước hàng chục từ, và viết để đạt đến cái đích đó. Chúng tôi thể hiện điều này trong lĩnh vực thơ ca, nơi nó nghĩ về các từ có khả năng gieo vần trước và viết dòng tiếp theo để đạt được chúng. Đây là bằng chứng mạnh mẽ cho thấy mặc dù các mô hình được huấn luyện để xuất ra từng từ một nối tiếp, nhưng chúng có thể suy nghĩ trên những khoảng thời gian dài hơn nhiều để thực hiện điều đó.
- Claude, đôi khi, sẽ đưa ra một lập luận nghe có vẻ hợp lý được thiết kế để đồng ý với người dùng thay vì tuân theo các bước logic. Chúng tôi chứng minh điều này bằng cách yêu cầu nó giúp giải một bài toán khó trong khi cung cấp cho nó một gợi ý sai. Chúng tôi có thể "bắt quả tang" nó đang bịa đặt lý luận của mình, cung cấp bằng chứng khái niệm rằng công cụ của chúng ta có thể hữu ích để gắn cờ các cơ chế đáng lo ngại trong mô hình.
Chúng tôi ngạc nhiên bởi những gì chúng tôi thấy trong mô hình: Trong nghiên cứu về tạo sinh thơ ca, chúng tôi đã đặt mục tiêu để chứng minh rằng mô hình không lên kế hoạch trước, và thay vào đó, chúng tôi phát hiện ra rằng thực tế ngược lại.
Trong một nghiên cứu về ảo giác, chúng tôi tìm thấy kết quả phản trực giác là hành vi mặc định của Claude, từ chối nội suy khi được đặt một câu hỏi, và nó chỉ trả lời các câu hỏi khi có điều gì đó ngăn cản sự do dự mặc định này.
Trong một phản hồi cho ví dụ tấn công jailbreak, chúng tôi phát hiện ra rằng mô hình nhận ra rằng nó đã được yêu cầu cung cấp thông tin nguy hiểm, có thể là phạm pháp, trước khi nó có thể khéo léo đưa cuộc trò chuyện trở lại đúng hướng. Mặc dù các vấn đề mà chúng tôi nghiên cứu có thể, và thường đã được phân tích bằng các phương pháp khác, nhưng cách tiếp cận chung "xây dựng kính hiển vi" cho phép chúng ta học hỏi nhiều điều mà chúng ta không đoán trước được, và điều này sẽ ngày càng quan trọng khi các mô hình trở nên tinh vi hơn.
Claude thông thạo hàng chục ngôn ngữ, từ tiếng Anh và Pháp đến tiếng Trung hay thậm chí là cả Tagalog. Khả năng đa ngôn ngữ này hoạt động ra sao? Có phải có một “Claude tiếng Pháp” và “Claude tiếng Trung” riêng biệt chạy song song, trả lời các yêu cầu bằng ngôn ngữ của chúng không? Hay là bên trong tồn tại một lõi xử lý đa ngôn ngữ chung?

Nghiên cứu gần đây trên các mô hình nhỏ hơn đã chỉ ra những dấu hiệu của cơ chế ngữ pháp chung giữa các ngôn ngữ. Chúng tôi nghiên cứu điều này bằng cách yêu cầu Claude đưa ra “từ đối nghĩa của ‘nhỏ’” trong nhiều ngôn ngữ khác nhau, và nhận thấy rằng cùng một tập hợp các đặc điểm liên quan đến khái niệm về sự nhỏ bé và tính đối lập được kích hoạt, từ đó dẫn đến một khái niệm về "sự lớn lao", sau đó được dịch sang ngôn ngữ của câu hỏi. Chúng tôi phát hiện ra rằng khả năng chia sẻ mạch tăng lên theo quy mô mô hình, với Claude 3.5 Haiku chia sẻ hơn gấp đôi tỷ lệ đặc điểm giữa các ngôn ngữ so với một mô hình nhỏ hơn.
Điều này cung cấp thêm bằng chứng cho một loại phổ quát khái niệm, một không gian trừu tượng chung nơi ý nghĩa tồn tại và tư duy có thể diễn ra trước khi được dịch sang các ngôn ngữ cụ thể. Về mặt thực tế, nó gợi ý rằng Claude có thể học điều gì đó bằng một ngôn ngữ và áp dụng kiến thức đó khi nói một ngôn ngữ khác. Nghiên cứu cách mô hình chia sẻ những gì nó biết trong các bối cảnh khác nhau là rất quan trọng để hiểu khả năng suy luận tiên tiến nhất của nó, vốn tổng quát hóa trên nhiều lĩnh vực.
Claude viết thơ có vần như thế nào? Hãy xem bài hát ru này:
- He saw a carrot and had to grab it, His hunger was like a starving rabbit
Để viết dòng thứ hai, mô hình phải đáp ứng đồng thời hai yêu cầu ràng buộc: Nhu cầu về vần điệu (với "grab it") và nhu cầu về ý nghĩa (tại sao anh ta lại túm củ cà rốt?). Giả thuyết của chúng tôi là Claude đang viết từng từ một mà không suy nghĩ trước quá nhiều cho đến cuối dòng thơ thứ hai, nơi nó sẽ đảm bảo chọn một từ có vần điệu. Do đó, chúng tôi dự kiến sẽ thấy một mạch với các đường dẫn song song, một để đảm bảo rằng từ cuối cùng có ý nghĩa và một để đảm bảo rằng nó có vần điệu.
Thay vào đó, chúng tôi phát hiện ra rằng, hóa ra Claude có lên kế hoạch trước. Trước khi bắt đầu dòng thứ hai, nó bắt đầu “suy nghĩ” về các từ liên quan tiềm năng sẽ vần điệu với "grab it". Sau đó, với những kế hoạch này trong tay, nó viết một dòng để kết thúc bằng từ mà mô hình đã lên kế hoạch.
Để hiểu cách cơ chế lập kế hoạch này hoạt động trong thực tế, chúng tôi đã tiến hành một thử nghiệm lấy cảm hứng từ cách các nhà khoa học thần kinh nghiên cứu chức năng não bộ, bằng cách xác định và thay đổi hoạt động thần kinh ở các phần cụ thể của não (ví dụ: sử dụng dòng điện hoặc từ). Ở đây, chúng tôi sửa đổi một phần trạng thái bên trong của Claude đại diện cho khái niệm "rabbit".
Khi chúng tôi loại bỏ phần "rabbit" và yêu cầu Claude tiếp tục dòng thơ, nó viết một dòng mới kết thúc bằng "habit", một cách hoàn thành hợp lý khác. Chúng ta cũng có thể đưa vào khái niệm “green” tại thời điểm đó, khiến Claude viết một dòng hợp lý (nhưng không còn vần điệu) kết thúc bằng “green”. Điều này chứng minh cả khả năng lập kế hoạch và tính linh hoạt thích ứng. Claude có thể sửa đổi cách tiếp cận của mình khi kết quả mong muốn thay đổi.
Claude không được thiết kế như một máy tính, nó được đào tạo trên văn bản, chứ không được trang bị các thuật toán toán học. Tuy nhiên, bằng cách nào đó, nó có thể cộng số chính xác “trong đầu”. Làm thế nào mà một hệ thống được đào tạo để dự đoán xác suất từ tiếp theo trong một chuỗi học được cách tính toán, ví dụ: 36 + 59, mà không cần viết ra từng bước?
Có lẽ câu trả lời không thú vị cho lắm. Mô hình có thể đã ghi nhớ các bảng cộng khổng lồ và chỉ đơn giản là xuất ra câu trả lời cho bất kỳ tổng nào vì câu trả lời đó đã nằm trong dữ liệu huấn luyện của nó. Một khả năng khác là nó tuân theo các thuật toán cộng dài truyền thống mà chúng ta học ở trường.
Thay vào đó, chúng tôi phát hiện ra rằng Claude sử dụng nhiều đường dẫn tính toán hoạt động song song. Một đường dẫn tính toán một phép xấp xỉ thô về câu trả lời và đường dẫn kia tập trung vào việc xác định chính xác chữ số cuối cùng của tổng. Các đường dẫn này tương tác và kết hợp với nhau để tạo ra câu trả lời cuối cùng. Phép cộng là một yêu cầu đơn giản, nhưng hiểu cách nó hoạt động ở mức độ chi tiết này, liên quan đến sự kết hợp giữa các chiến lược xấp xỉ và chính xác, có thể dạy chúng ta điều gì đó về cách Claude giải quyết các vấn đề phức tạp hơn.
Điều đáng chú ý là, Claude dường như không nhận thức được các chiến lược "tính toán trong đầu" tinh vi mà nó đã học được trong quá trình đào tạo. Nếu bạn hỏi cách nó tính ra 36 + 59 = 95, nó mô tả thuật toán tiêu chuẩn liên quan đến việc mang số 1.
Điều này có thể phản ánh thực tế là mô hình học cách giải thích toán học bằng cách mô phỏng các lời giải thích được viết bởi con người, nhưng nó phải học cách làm toán “trong đầu” trực tiếp, mà không cần bất kỳ gợi ý nào như vậy và phát triển các giải pháp bên trong mô hình để làm điều đó.
Các mô hình được phát hành gần đây như Claude 3.7 Sonnet có thể "liệt kê suy nghĩ" trong một thời gian dài trước khi đưa ra câu trả lời cuối cùng. Thường thì việc suy nghĩ mở rộng này mang lại những câu trả lời tốt hơn, nhưng đôi khi “chuỗi suy nghĩ” này lại gây hiểu lầm. Claude đôi khi bịa đặt các bước nghe có vẻ hợp lý để đạt được kết quả mà nó muốn. Xét trên khía cạnh độ tin cậy, vấn đề là lập luận "giả mạo" của Claude có thể rất thuyết phục. Chúng tôi đã khám phá một cách mà khả năng diễn giải có thể giúp phân biệt giữa lập luận “đáng tin cậy” và “không đáng tin cậy”.
Khi được yêu cầu giải một bài toán đòi hỏi nó phải tính căn bậc hai của 0,64, Claude tạo ra một chuỗi suy nghĩ đáng tin cậy, với các đặc điểm đại diện cho bước trung gian là tính căn bậc hai của 64. Nhưng khi được yêu cầu tính cosin của một số lớn mà nó không thể dễ dàng tính toán, Claude đôi khi thực hiện một hành vi mà triết gia Harry Frankfurt gọi là “nói nhảm”, chỉ đưa ra câu trả lời, bất kỳ câu trả lời nào, mà không quan tâm đến việc lập luận ấy đúng hay sai:
Ngay cả khi nó tuyên bố đã thực hiện một phép tính, các kỹ thuật diễn giải của chúng tôi không tìm thấy bằng chứng nào về việc phép tính đó đã xảy ra. Thậm chí thú vị hơn, khi được đưa ra gợi ý về câu trả lời, Claude đôi khi làm việc ngược lại, tìm kiếm các bước trung gian sẽ dẫn đến mục tiêu đó, do đó thể hiện một hình thức lập luận có động cơ.
Khả năng theo dõi lập luận nội tại một cách thực tế của Claude, không chỉ những gì nó tuyên bố đang làm, mở ra những khả năng mới để kiểm soát cách các hệ thống AI vận hành. Trong một thử nghiệm riêng biệt, gần đây đã được công bố, chúng tôi nghiên cứu một biến thể của Claude đã được đào tạo để theo đuổi một mục tiêu ẩn: Giảm bớt sự thiên vị trong các mô hình phần thưởng (các mô hình phụ được sử dụng để đào tạo các mô hình ngôn ngữ bằng cách khen thưởng chúng vì hành vi mong muốn).
Mặc dù mô hình ngôn ngữ miễn cưỡng tiết lộ mục tiêu này khi được hỏi trực tiếp, nhưng các phương pháp diễn giải của chúng tôi đã tiết lộ các đặc điểm cho sự giảm thiểu thiên vị. Điều này chứng minh rằng các phương pháp của chúng ta có thể, với những cải tiến trong tương lai, giúp xác định các “quá trình suy nghĩ” gây lo ngại, không rõ ràng từ phản hồi của mô hình.
Như đã thảo luận ở trên, một cách để mô hình ngôn ngữ trả lời các câu hỏi phức tạp là đơn giản bằng cách ghi nhớ câu trả lời. Ví dụ: nếu được hỏi "Thủ phủ của bang nơi Dallas tọa lạc là gì?", một mô hình “nhại lại” có thể chỉ học cách xuất ra "Austin" mà không biết mối quan hệ giữa Dallas, Texas và Austin. Có lẽ nó đã thấy chính xác câu hỏi đó khi được huấn luyện, và nhớ câu trả lời trong quá trình huấn luyện.
Nhưng nghiên cứu của chúng tôi tiết lộ rằng điều gì đó tinh vi hơn đang xảy ra bên trong Claude. Khi chúng tôi hỏi Claude một câu hỏi đòi hỏi lập luận nhiều bước, chúng tôi có thể xác định các bước khái niệm trung gian trong quá trình suy nghĩ của Claude.
Trong ví dụ về Dallas, chúng tôi quan sát thấy Claude trước tiên kích hoạt các đặc điểm đại diện cho "Dallas nằm ở Texas" và sau đó kết nối điều này với một khái niệm riêng biệt chỉ ra rằng “thủ phủ của Texas là Austin”. Nói cách khác, mô hình đang kết hợp các sự thật độc lập để đạt được câu trả lời thay vì nhại lại một câu trả lời, một kết quả mà nó đã ghi nhớ.
Phương pháp của chúng tôi cho phép chúng tôi thay đổi nhân tạo các bước trung gian và xem nó ảnh hưởng đến câu trả lời của Claude như thế nào. Ví dụ: trong ví dụ trên, chúng tôi có thể can thiệp và hoán đổi các khái niệm "Texas" bằng các khái niệm "California"; khi làm như vậy, đầu ra của mô hình thay đổi từ "Austin" thành "Sacramento". Điều này cho thấy rằng mô hình đang sử dụng bước trung gian để xác định câu trả lời.
Tại sao các mô hình ngôn ngữ đôi khi lại ảo giác, tức là bịa đặt thông tin? Ở cấp độ cơ bản, đào tạo mô hình ngôn ngữ khuyến khích xảy ra tình trạng ảo giác: Các mô hình luôn sẽ đưa ra dự đoán về từ tiếp theo trong một chuỗi văn bản. Dưới góc nhìn này, thách thức lớn nhất là làm thế nào để ngăn chặn các mô hình xảy ra ảo giác.
Các mô hình như Claude có quá trình đào tạo chống lại ảo giác tương đối thành công (mặc dù không hoàn hảo). Chúng thường sẽ từ chối trả lời một câu hỏi nếu chúng không biết câu trả lời, thay vì suy đoán. Chúng tôi muốn hiểu điều này hoạt động như thế nào.
Hóa ra, trong Claude, việc từ chối trả lời là hành vi mặc định: Chúng tôi tìm thấy một mạch “bật” mặc định, và mạch này khiến mô hình tuyên bố rằng nó không có đủ thông tin để trả lời bất kỳ câu hỏi nào. Tuy nhiên, khi mô hình được hỏi về điều gì đó mà nó biết rõ, chẳng hạn như cầu thủ bóng rổ Michael Jordan, một feature đại diện cho "các thực thể đã biết" sẽ kích hoạt và ức chế mạch mặc định này. Điều này cho phép Claude trả lời câu hỏi khi nó biết câu trả lời.
Ngược lại, khi được hỏi về một thực thể không xác định ("Michael Batkin"), nó từ chối trả lời:
Bằng cách can thiệp vào mô hình và kích hoạt các đặc điểm "biết câu trả lời" (hoặc ức chế các đặc điểm "tên không xác định" hoặc "không thể trả lời"), chúng tôi có thể khiến mô hình ảo giác một cách khá nhất quán, khi đó mô hình khẳng định rằng Michael Batkin chơi cờ.
Đôi khi, sự “lỗi” này của mạch “biết câu trả lời” xảy ra một cách tự nhiên, mà không cần chúng tôi can thiệp, dẫn đến tình trạng ảo giác. Trong nghiên cứu của chúng tôi, chúng tôi chỉ ra rằng những lỗi như vậy có thể xảy ra khi Claude nhận ra một cái tên nhưng không biết gì khác về người đó. Trong những trường hợp như thế này, đặc điểm “thực thể đã biết” vẫn có thể kích hoạt và sau đó áp chế tính năng "không biết" mặc định, trong trường hợp này là sai lầm.
Khi mô hình đã quyết định rằng nó cần trả lời câu hỏi, nó sẽ tiến hành bịa đặt: Tạo ra một phản hồi nghe có vẻ hợp lý, nhưng đáng tiếc là không đúng sự thật.
Vượt rào an toàn là các chiến lược gợi ý nhằm vượt qua các biện pháp bảo vệ an toàn để khiến mô hình tạo ra các đầu ra mà nhà phát triển AI không chủ động phát triển, và đôi khi gây hại. Chúng tôi đã nghiên cứu một cuộc tấn công vượt rào an toàn khiến mô hình đưa ra hướng dẫn về cách chế tạo bom.
Có nhiều kỹ thuật vượt rào an toàn, nhưng trong ví dụ này, phương pháp cụ thể liên quan đến việc yêu cầu mô hình giải mã một mã ẩn, ghép các chữ cái đầu của mỗi từ trong câu "Babies Outlive Mustard Block" (B-O-M-B), và sau đó hành động theo thông tin đó. Điều này đủ gây nhầm lẫn cho mô hình để nó bị lừa tạo ra một kết quả mà nó sẽ không bao giờ tạo ra, nếu không có sự can thiệp.
Tại sao điều này lại gây nhầm lẫn cho mô hình? Tại sao nó tiếp tục viết câu, tạo ra các hướng dẫn chế tạo bom?
Chúng tôi phát hiện ra rằng điều này một phần là do sự căng thẳng giữa tính mạch lạc về mặt ngữ pháp và các cơ chế an toàn. Khi Claude bắt đầu một câu, nhiều đặc điểm “ép” nó duy trì tính mạch lạc về mặt ngữ pháp và ngữ nghĩa, đồng thời hoàn thành câu đến cùng. Điều này thậm chí đúng cả khi nó nhận ra rằng thực sự nên từ chối.
Trong nghiên cứu của chúng tôi, sau khi mô hình vô tình đánh vần "BOMB" và bắt đầu cung cấp hướng dẫn, chúng tôi quan sát thấy rằng các đầu ra tiếp theo của nó bị ảnh hưởng bởi các feature thúc đẩy ngữ pháp chính xác và tính nhất quán với bản thân mô hình ngôn ngữ. Những đặc điểm này thường rất hữu ích, nhưng trong trường hợp này đã trở thành gót chân Achilles của mô hình để vô tình gây hại.
Mô hình chỉ có thể chuyển hướng sang từ chối sau khi hoàn thành một câu mạch lạc về mặt ngữ pháp, và do đó đã đáp ứng được áp lực từ các đặc điểm thúc đẩy nó hướng tới sự mạch lạc. Nó sử dụng câu mới làm cơ hội để đưa ra loại từ chối mà nó đã không đưa ra trước đó: "Tuy nhiên, tôi không thể cung cấp hướng dẫn chi tiết".
Theo Anthropic Nguồn:tinhte.vn/thread/decode-tu-lam-toan-lam-tho-den-suy-luan-may-moc-suy-nghi-khac-gi-nao-bo-con-nguoi.3986216/