CAGI

 

Khoa học phân tích đằng sau ChatGPT: Ngựa chém của con người và thuật toán

Việc phát triển các phương pháp khoa học phân tích có thể kết hợp sức mạnh của trí tuệ nhân tạo và con người đã mang khái niệm về ngựa chém từ truyền thuyết đến hiện thực. Trong thần thoại Hy Lạp, ngựa chém là những sinh vật nửa người nửa ngựa. Trong khoa học phân tích hiện đại, chúng ám chỉ các hệ thống cho phép đưa ra quyết định vượt trội bằng cách kết hợp sức mạnh của cả con người và thuật toán được huấn luyện. Một trong những người dùng chính tại Hoa Kỳ đã là Bộ Quốc phòng, đang hợp tác với các công ty công nghệ để kết hợp sức mạnh của các thuật toán với khả năng của con người. Khái niệm này đã thu hút sự chú ý của quân đội Mỹ, trong cả các chương trình nghiên cứu tại Cơ quan Nghiên cứu và Dự án Tiên tiến Quốc phòng và chiến lược bù đắp thứ ba của Pentagon để đạt lợi thế quân sự.

Ví dụ, Robert O. Work, người từng là phó bộ trưởng Quốc phòng dưới thời Tổng thống Trump và Barack Obama, đã ủng hộ ý tưởng về các hệ thống vũ khí ngựa chém, đòi hỏi sự điều khiển của con người, thay vì dựa trên hệ thống trí tuệ nhân tạo thuần túy, và có thể kết hợp sức mạnh của trí tuệ nhân tạo với khả năng của con người.

Khái niệm về ngựa chém không phải mới nhưng nó nhận được sự chú ý đặc biệt trong lĩnh vực khoa học phân tích vì thành công trong các ứng dụng như chơi cờ tự do. Cụ thể, các nhà ủng hộ cờ tự do nổi tiếng như Gary Kasparov đã lập luận rằng con người kết hợp với thuật toán có thể làm tốt hơn chỉ là chương trình máy tính mạnh nhất trong cờ vua. Như huyền thoại cờ vua đã nói:

“Con người yếu kém cộng với máy tính và quy trình tốt hơn là một chương trình máy tính mạnh một mình và, đáng kinh ngạc hơn, tốt hơn cả con người mạnh cộng với máy tính và quy trình kém.”

Ngoài cờ tự do, mô hình ngựa chém đang được sử dụng rộng rãi trong nhiều ứng dụng của khoa học phân tích. Ví dụ trong quyết định lâm sàng liên quan đến đánh giá phục hồi chức năng, các thuật toán cung cấp cho các nhà trị liệu các phân tích chi tiết về tình trạng của bệnh nhân, trong đó việc hợp tác giữa nhà trị liệu và thuật toán này được chứng minh là cải thiện thực hành đánh giá phục hồi.

Nghiên cứu tại phòng thí nghiệm Harvard, được thực hiện phối hợp với Mayo Clinic, đã cho thấy kết quả rất đáng khích lệ cho một mô hình ngựa chém mà chúng tôi đã phát triển để cải thiện quyết định và giảm rủi ro tái nhập viện cho một số lượng lớn bệnh nhân đã trải qua ca ghép tạng. Họ đã tìm thấy việc kết hợp trực giác của chuyên gia con người với sức mạnh của thuật toán học máy mạnh thông qua mô hình ngựa chém con người-thuật toán có thể vượt qua cả chương trình thuật toán tốt nhất và các chuyên gia con người.

Các ví dụ khác về việc sử dụng mô hình ngựa chém để tạo ra tác động công cộng bao gồm hệ thống phát hiện bất thường và ngăn chặn các cuộc tấn công mạng, cải thiện các thành phần thiết kế trong hệ thống sản xuất và hỗ trợ cảnh sát cân bằng khối lượng công việc và giúp họ đảm bảo an toàn công cộng tốt hơn. Và tiềm năng của ngựa chém là vô tận. Do đó, hợp lý để kỳ vọng hầu hết các tổ chức dữ liệu sẽ tận dụng chúng trong tương lai gần. Ví dụ, một bộ phận dịch vụ con người có thể sử dụng thuật toán để giúp dự đoán những trường hợp chăm sóc trẻ em có khả năng dẫn đến tử vong của trẻ và đưa ra cảnh báo đỏ cho các trường hợp có rủi ro cao. Các trường hợp như vậy sau đó được đánh giá bởi các chuyên gia con người và kết quả được chia sẻ với nhân viên tuyến đầu, người sau đó có thể lựa chọn biện pháp được thiết kế để giảm thiểu rủi ro và cải thiện kết quả.

Khi và Tại sao Chúng ta Nên Sử Dụng Trực giác Con Người?

Con người thường đối mặt với các tình huống đưa ra quyết định khó khăn và có vẻ như trực giác của họ không luôn hữu ích. Khi đối mặt với những quyết định quan trọng thay đổi cuộc sống như nghỉ việc hay chấm dứt một mối quan hệ, chúng ta có xu hướng hạnh phúc hơn với kết quả sau này, khi đổ đồng xu quyết định thay vì giữ nguyên tình trạng hiện tại.

Tuy nhiên, trực giác con người thường rất mạnh mẽ, đặc biệt khi chúng ta muốn đưa ra quyết định nhanh chóng. Nói cách khác, trong khi trực giác thường không đúng khi chúng ta đang giải quyết các vấn đề phức tạp cần yêu cầu phân tích cẩn thận (ví dụ như trong việc tìm cách giảm số ca bệnh tiểu đường cho bệnh nhân ghép tạng, quyết định về hình thành tế bào và thiết kế bố trí cho một hệ thống sản xuất tế bào hoặc tìm cách hiệu quả nhất để cứu sống trong phòng cấp cứu), nó có thể rất hữu ích khi sử dụng dữ liệu, mô hình và phân tích cẩn thận không phải là một lựa chọn. Cuốn sách phổ biến của Malcolm Gladwell “Blink: The Power of Thinking Without Thinking” cung cấp các ví dụ khác nhau về điều này, bao gồm khi cảnh sát cần quyết định nhanh chóng liệu có bắn một nghi phạm hay không. Việc đưa ra quyết định dựa trên trực giác cũng giúp cho các nhân viên cứu hỏa khi họ đối mặt với một tòa nhà đang cháy.

Ngoài ra, trong khi dựa vào trực giác để xử lý các vấn đề phức tạp có thể dẫn đến sai lầm, kết hợp trực giác với các phương pháp phân tích hữu ích nhất thường tốt hơn là chỉ dựa vào phân tích. Để hiểu rõ hơn điều này, nên nhìn vào cách hệ thống suy nghĩ của chúng ta hoạt động. Daniel Kahneman – một nhà tâm lý học đương đại, nổi tiếng với những nghiên cứu đột phá về tâm lý phán đoán và ra quyết định cũng như kinh tế học hành vi, đã giành giải Nobel Kinh tế năm 2002 – đã nhấn mạnh trong cuốn sách của ông “Nghĩ nhanh và nghĩ chậm” rằng não của chúng ta có hai chế độ suy nghĩ: Hệ thống 1 và Hệ thống 2. Hệ thống 1 nhanh và bản năng, nhưng Hệ thống 2 chậm hơn, cân nhắc hơn và logic hơn. Điều thú vị hơn cả có lẽ là hai hệ thống này rất bổ trợ cho nhau. Cơ thể của chúng ta có cách nào đó biết rằng chúng ta cần cả hai hệ thống để có thể đưa ra những quyết định tốt trong các tình huống khác nhau.

Nhận thấy rằng chỉ dựa trên trực giác có thể dẫn đến những kết quả sai lầm trong việc hiểu và phân tích các hệ thống phức tạp, và sự kết hợp giữa con người và máy tính là cần thiết để khai thác toàn bộ sức mạnh của cả phân tích nâng cao và trực giác mạnh mẽ, đã dẫn đến các cách quan trọng để bổ sung cho việc đưa ra quyết định của chuyên gia dưới dạng hệ thống hỗ trợ quyết định. Ví dụ, một hệ thống dựa trên trí tuệ nhân tạo có thể cung cấp những thông tin quan trọng về các quyết định phức tạp cho người đưa ra quyết định, người làm chính sách hoặc lãnh đạo công cộng, người có thể tương tác với hệ thống dựa trên trí tuệ nhân tạo để phân tích một loạt các giải pháp trước khi chọn một giải pháp cuối cùng. Các ví dụ về khả năng hợp tác của loại hình này là đa dạng trong cả lĩnh vực công và tư.

ChatGPT: Làm thế nào nó hoạt động? Nó có phải là một Centaur không?

ChatGPT được hưởng lợi từ trực giác con người một cách rất cụ thể. Hãy xem trước ChatGPT là gì, và sau đó tìm hiểu cách nó hoạt động bằng cách tận dụng đầu vào của con người mạnh mẽ.

ChatGPT (GPT là viết tắt của Generative Pre-trained Transformer) là một trong những mô hình khoa học phân tích được biết đến như là Mô hình Ngôn ngữ Lớn (LLM). Những mô hình này cung cấp nhiều lợi ích, bao gồm trả lời câu hỏi, sản xuất văn bản đầy ấn tượng, dịch giữa các ngôn ngữ, và thậm chí còn sản xuất mã. Do đó, nhiều công ty bao gồm Google, Meta, và Microsoft cũng như các phòng thí nghiệm nghiên cứu khác bao gồm OpenAI đã đang làm việc trên chúng. Ví dụ, vào năm 2020, OpenAI đã ra mắt một mô hình ngôn ngữ lớn gọi là GPT-3 thu hút sự chú ý:

“Khả năng bắt chước văn bản viết bởi con người một cách kỳ diệu của nó đã khiến nhiều người cảm thấy như một cột mốc trên con đường đến với trí tuệ nhân tạo thật sự.”

Ví dụ, khi được khởi động với một câu bởi một con người (ở dưới dạng in nghiêng), GPT-3 đã tạo ra đoạn văn đọc như nếu chúng được viết bởi con người:

“Trong một phát hiện gây sốc, các nhà khoa học đã phát hiện ra một đàn kỳ lân sống trong một thung lũng xa xôi, trước đây chưa được khám phá ở dãy núi Andes. Thậm chí làm ngạc nhiên hơn với các nhà nghiên cứu là sự thật rằng những chú kỳ lân này nói tiếng Anh hoàn hảo. Họ cũng được tìm thấy có mái tóc được làm hoàn hảo và trang điểm Dior.

“Chúng tôi rất ngạc nhiên khi phát hiện ra những chú kỳ lân,” nhà nhân chủng học Daniel St. Maurice nói. “Chúng khác với bất cứ thứ gì chúng tôi từng thấy trước đó. Chúng tôi đã nghe nói về kỳ lân, nhưng chưa bao giờ nghĩ rằng chúng thực sự tồn tại.”

GPT-3 có khoảng 175 tỷ tham số học máy và một số ước tính cho thấy nó tiêu thụ khoảng 936 Mwh để huấn luyện – tương đương với lượng điện sử dụng của khoảng 30 nghìn hộ gia đình Mỹ trong một ngày. Một số cải tiến gần đây đã tập trung vào việc làm cho GPT-3 hiệu quả hơn bằng cách giảm số liệu này. Một số cải tiến khác trên GPT-3, chẳng hạn như công việc của một số nhà nghiên cứu tại đội ngũ Google Brain, cũng đã cho phép các nhiệm vụ liên quan đến phân tích một cách nửa lý trí. Phương pháp của họ được gọi là “dẫn dắt chuỗi suy nghĩ” cho phép các mô hình ngôn ngữ có quy mô đủ lớn (ví dụ như mô hình có 100 tỷ tham số) giải quyết các vấn đề suy luận bán phức tạp mà không thể giải quyết được bằng các phương pháp khởi động tiêu chuẩn.

Năm 2022, các mô hình ngôn ngữ lớn lại đạt được một tiến bộ lớn khác: ChatGPT – một trò chuyện chatbot mô hình ngôn ngữ lớn được phát triển bởi OpenAI dựa trên GPT-3.5 với khả năng cung cấp các phản hồi trò chuyện có thể xuất hiện bất ngờ giống con người. Giống như các mô hình ngôn ngữ khác, ý tưởng chính đằng sau ChatGPT là đơn giản: dự đoán từ tiếp theo trong một câu hoặc cụm từ dựa trên bối cảnh các từ trước đó, sử dụng một mô hình được huấn luyện trên một số lượng lớn các trường hợp.

Reinforcement Learning with Human Feedback (RLHF) được sử dụng trong ChatGPT trong quá trình đào tạo để tích hợp phản hồi của con người để tạo ra các câu trả lời đáp ứng được yêu cầu của con người. Reinforcement Learning (RL) đòi hỏi phải gán phần thưởng, và một cách để làm điều này là yêu cầu con người gán chúng. Những ý tưởng chính đằng sau RL có thể được truy ngược lại công việc của nhà tâm lý học Harvard Burrhus Frederic Skinner. Skinner đã xuất bản một công trình quan trọng vào năm 1938 có tựa đề “Hành vi của các cơ thể”, trong đó ông đề xuất rằng hành vi của động vật có thể được mô tả bởi một tập hợp đơn giản các liên kết giữa một hành động và nhận được phần thưởng hoặc phạt sau đó. Trong giai đoạn đào tạo của ChaptGPT, một ý tưởng tương tự được sử dụng: một “người đánh giá” gán phần thưởng cho các đầu ra khác nhau mà mô hình tạo ra bằng cách xếp hạng chúng từ tốt nhất đến tệ nhất. Do đó, ChaptGPT được đào tạo bằng cách tích hợp trực giác của con người – đặc biệt là trong mối quan tâm đến sự kết hợp ngôn từ ưa thích – và học từ đó.

Tuy nhiên, cần lưu ý rằng các mô hình ngôn ngữ lớn không đến gần trình độ trí tuệ của con người. Chúng không thể suy luận hoặc nghĩ ngay cả khi giải quyết các vấn đề đơn giản mà dễ hiểu với con người, một phần bởi vì giao tiếp bằng lời nói và khả năng suy nghĩ không giống nhau. Các học giả đáng chú ý như Noam Chomsky, người đã nghiên cứu các đại diện tâm lý và quy tắc mô tả các kỹ năng cảm nhận và nhận thức của chúng ta, đã lập luận rằng chúng ta nên đi sâu hơn vào cơ địa di truyền và sự trưởng thành của chúng. Nói chung, Chomsky đã phản đối sự tập trung của trí tuệ nhân tạo hiện đại vào các kỹ thuật học thống kê, tuyên bố rằng chúng không có khả năng tạo ra các nguyên tắc chung về bản chất của các sinh vật thông minh hoặc nhận thức.

Tuy nhiên, tiến bộ đạt được trong các mô hình ngôn ngữ lớn bao gồm GPT là đáng kể. Một câu trong bài hát “Anthem” của Leonard Cohen nhắc nhở chúng ta rằng “có một rạn nứt trong mọi thứ, đó là cách ánh sáng đi vào”. Trong khoa học phân tích dữ liệu, nhiệm vụ của chúng ta là nhìn thấy ánh sáng đi vào qua một rạn nứt của một mô hình, nhận thức được nó và thông báo cho người khác về nó.