CAGI

 

Sử dụng GPT-3 để giải các bài toán từ vựng toán học liên quan đến hệ phương trình

Giới thiệu

Một bài toán từ vựng toán học (MWP) nêu ra các đặc tính của thực thể và mối quan hệ giữa chúng bằng ngôn ngữ tự nhiên, cùng với một hoặc nhiều câu hỏi định lượng ở cuối. Thông thường, sinh viên được yêu cầu chuyển đổi biểu thức ngôn ngữ tự nhiên thành một hoặc nhiều phương trình đại số và giải chúng để tìm ra câu trả lời cho câu hỏi đã nêu. Bài toán từ vựng toán học có một lịch sử phong phú trong giáo dục toán học, trở lại từ ba đến bốn ngàn năm trước đây (Gerofsky 2004). MWP xuất hiện nhiều trong hầu hết các sách giáo khoa toán học của trường học (Gerofsky 1996).

Verschaffel et al. lưu ý rằng “bài toán từ vựng là loại bài toán khó nhất mà người học toán gặp phải” (Verschaffel et al. 2020). Điều này đã dẫn đến nhiều thập kỷ nghiên cứu trong cộng đồng giáo dục toán học, tập trung vào cách giúp sinh viên học cách giải quyết các bài toán này (Xin và Jitendra 1999; van Garderen 2008; Gooding 2009; Verschaffel et al. 2020).

Được biết rằng hướng dẫn một kèm một có thể có tác động tích cực đáng kể đối với việc học của sinh viên, nhưng thách thức đối với trường học công lập luôn thiếu ngân sách là tỉ lệ sinh viên-giáo viên cao. Điều này đã thúc đẩy nghiên cứu về việc sử dụng các công nghệ thông tin phù hợp, bao gồm các hệ thống phần mềm để cho phép loại học tập cá nhân hóa này (Xie et al. 2019). Học tập cá nhân hóa là một trong 14 thách thức lớn được xác định bởi Học viện Kỹ thuật Quốc gia (NAE 2008).

Vì MWPs, theo định nghĩa, yêu cầu xử lý và hiểu ngôn ngữ tự nhiên (NLP), nên đã có nhiều sự chú ý nghiên cứu để phát triển các phương pháp NLP phù hợp để tạo, giải quyết và giải thích các giải pháp cho các bài toán toán học trong văn bản. Những nỗ lực của các chuyên gia NLP để tự động giải quyết các bài toán toán học trong văn bản bắt đầu từ những năm 1960 (Bobrow 1964), và đã có một tài liệu phong phú về lĩnh vực này (Mukherjee và Garain 2008; Mandal và Naskar 2019; Patel, Bhattamishra và Goyal 2021). Tuy nhiên, việc phát triển một hệ thống thích ứng với một loạt các MWPs, đặc biệt là cho hiệu suất tốt trên các bài toán phức tạp hơn, vẫn đang gặp khó khăn.

Một trong những phát triển đáng kỳ vọng nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên đã là sự xuất hiện của các mô hình học sâu Transformer vào năm 2017 (Vaswani et al. 2017). Trang bị với cơ chế tự chú ý, một transformer có khả năng bắt các phụ thuộc xa hơn trong một văn bản để hiểu tốt hơn bối cảnh cho mỗi từ trong một vấn đề đã cho. Các mô hình Transformer đã vượt qua các mô hình học sâu khác như các mạng nơ-ron đệ quy, vì chúng có khả năng xử lý đầu vào dài hơn, có thể được huấn luyện nhanh hơn và cho kết quả tốt hơn trên một loạt các nhiệm vụ. Những nhiệm vụ này bao gồm phân loại văn bản, dịch, trả lời câu hỏi và thậm chí là mô hình hóa xử lý ngôn ngữ con người (Merkx và Frank 2020).

GPT-3 là phiên bản transformer mới nhất được công bố công khai bởi OpenAI, với khả năng học trong vài lần chạy ấn tượng (Brown et al. 2020). Transformer tự hồi quy này có 175 tỷ tham số và được tiền huấn luyện trên hơn 400 tỷ token chất lượng cao. Trong loạt các nhiệm vụ đánh giá mà các nhà phát triển của OpenAI thực hiện trên GPT-3, mô hình này đã hiển thị khả năng đáng kể trong việc hoàn thành

a) các nhiệm vụ về tư duy thông thường,

b) các nhiệm vụ về hiểu bối cảnh, và

c) các nhiệm vụ về tư duy toán học với việc huấn luyện bổ sung (Brown et al. 2020; Cobbe et al. 2021).

Tổng hợp lại, nó có tiềm năng để đóng góp đáng kể cho một hệ thống trả lời câu hỏi bằng ngôn ngữ tự nhiên. Điều này thúc đẩy chúng ta tìm hiểu sâu hơn về tính tiện ích của nó cho các bài toán về từ vựng toán học.

Trong nghiên cứu này, chúng tôi tập trung khám phá hiệu suất của GPT-3 trên các nhiệm vụ liên quan đến một loại bài toán từ vựng với mức độ khó trung bình, đó là bài toán từ vựng có thể được biểu diễn dưới dạng hệ hai phương trình tuyến tính hai ẩn số. Chúng tôi đã lựa chọn điều này vì một số lý do. Thứ nhất, nó giúp cho việc nghiên cứu trở nên rõ ràng hơn, phạm vi được xác định rõ ràng và có thể dễ dàng tái sản xuất, so với số lượng lớn các loại bài toán khác có thể có. Thứ hai, giới hạn phạm vi của vấn đề này cho phép chúng tôi viết một chương trình xác minh đơn giản để kiểm tra tự động xem tập hợp phương trình đầu ra cụ thể được trích xuất bởi GPT-3 có chính xác không. Thứ ba, lớp bài toán này không quá đơn giản – ví dụ, một số người cho rằng lớp bài toán đơn giản hơn chỉ liên quan đến một ẩn số đã được “giải quyết”. Thứ tư, đồng thời, đây không phải là một lớp bài toán quá phức tạp hoặc thần bí, mà thường gặp trong các lớp đại học trung học hoặc đại học giới thiệu về đại số cũng như trên các bài kiểm tra chuẩn như SAT.

Chúng tôi giải quyết ba câu hỏi chính trong dự án này:

C1 GPT-3 có tốt trong việc phân loại các bài toán thành các chủ đề khác nhau không?

C2 GPT-3 có tốt trong việc trích xuất hệ phương trình tuyến tính trực tiếp từ mô tả bài toán không?

C3 GPT-3 có tốt trong việc sáng tạo ra các bài toán hợp lệ không?

Một lý do để khám phá khả năng phân loại vấn đề của GPT-3 (Q1) là điều này thực sự là một trong những phương pháp giảng dạy chính mà giáo viên toán học sử dụng để giúp học sinh tiếp cận giải quyết các bài toán có từ (van Garderen 2008). Cuộc điều tra của chúng tôi về khả năng của GPT-3 để trích xuất hệ phương trình đúng từ mô tả MWP (Q2) được thúc đẩy bởi sự thật rằng đã có các bộ giải toán ký hiệu như WolframAlpha (Research 2009) có thể không chỉ giải quyết các phương trình trích xuất được mà còn có thể hiển thị quá trình từng bước để giải quyết các phương trình đó.

Tuy nhiên, cho đến ngày hôm nay, các công cụ như vậy nói chung rất khó có thể trích xuất được các phương trình để giải quyết bài toán có từ tùy ý. Nếu một hệ thống như GPT-3 được phát hiện tốt trong việc trích xuất các phương trình đúng từ MWP, thì nó có thể được kết nối với một công cụ như WolframAlpha trong một đường ống cho phép câu trả lời đúng cho vấn đề được giải quyết và giải thích theo cách từng bước. Một nhiệm vụ liên quan khác có thể được khám phá trong ngữ cảnh này là giải thích cách thu thập các phương trình được cho dựa trên mô tả văn bản MWP. Chúng tôi tin rằng đây là một nhiệm vụ khó khăn hơn nhiều và trì hoãn việc khám phá câu hỏi này cho công việc tương lai. Cuối cùng, chúng tôi khám phá khả năng tạo ra các bài toán mới của GPT-3 (Q3) vì điều này có thể hữu ích trong việc tự động tạo ra một bộ đề lớn các câu hỏi cho học sinh học tập hoặc được đánh giá trên.

Có một số bộ dữ liệu được tạo ra dựa trên 200 câu hỏi thu thập từ web cho các vấn đề này (các bộ dữ liệu này được công khai để hỗ trợ cho các nghiên cứu khác, trực tuyến tại https://github.com/anrgusc/MWP2L).

Bài báo trình bày một số thí nghiệm và kết quả định lượng đối với ba câu hỏi này. Đối với câu hỏi Q1, chúng tôi xem xét năm chủ đề và phát hiện ra rằng GPT-3 phân loại các vấn đề với độ chính xác cao cho mỗi chủ đề trừ một. Đối với câu hỏi Q2, chúng tôi áp dụng học không có điểm khởi đầu, học một vài ví dụ, và phương pháp điều chỉnh tinh chỉnh để xác định liệu mô hình có học từ các ví dụ bổ sung và cái nào là tối ưu cho mục tiêu của chúng tôi. Kết quả của MWP2L xác nhận rằng mô hình hoạt động tốt hơn khi có nhiều ví dụ hơn để học. Nói chung, mô hình được điều chỉnh tốt hơn mô hình ban đầu của GPT-3; trong khi đối với việc học một vài ví dụ, ba ví dụ, hai ví dụ, một ví dụ – không có ví dụ. Tổng thể, mô hình điều chỉnh tốt đạt độ chính xác 80% trên tập kiểm tra bao gồm tất cả các chủ đề. Đối với câu hỏi Q3, tức là tạo vấn đề, MWP2L phát hiện rằng GPT-3 hiệu quả trong việc tạo câu hỏi mới với các số và / hoặc chủ đề được thay thế, nhưng gặp khó khăn khi cần viết câu hỏi về chủ đề khác.

Công trình liên quan

Các ứng dụng trước đây của NLP cho MWP

Hệ thống trả lời câu hỏi tự nhiên dựa trên trí tuệ nhân tạo cho MWP đã được đề xuất lần đầu tiên vào năm 1964 (Bobrow 1964). Các mô hình giai đoạn đầu mô phỏng sự hiểu biết của con người về loại câu hỏi này phụ thuộc nặng vào các quy tắc hoạt động, cơ sở dữ liệu được thiết kế trước hoặc cơ sở kiến thức toàn diện để đạt được tỷ lệ thành công mong muốn trong các lĩnh vực hạn chế, với khả năng không đáng kể để xử lý đầu vào ngoài phạm vi (Mukherjee và Garain 2008). Sau đó, các nhà nghiên cứu đã cố gắng tạo ra một khung công việc có tính mở rộng hơn. Với các danh mục được thiết kế tốt và các mẫu tương ứng cho các giải pháp phương trình, bản thể học có thể được sử dụng để ánh xạ chính xác các vấn đề vào lớp của chúng (Morton và Qu 2013). Tuy nhiên, yếu tố chủ chốt của việc phân loại các vấn đề có độ phức tạp đáng kể.

Trong những năm gần đây, các nhà nghiên cứu đã áp dụng các phương pháp học có giám sát, phân tích ngữ nghĩa cũng như tiếp cận lập luận trong các hệ thống của họ và đạt được độ chính xác câu trả lời đáng kể từ các bộ kiểm tra khác nhau. Theo sự bùng nổ của các thuật toán học sâu, mạng nơ-ron phản hồi (RNN) đã được giới thiệu để cải thiện hiệu suất của các mô hình. Một mô hình dựa trên RNN chuỗi đến chuỗi được phát triển để dịch các mô tả văn bản thành biểu thức toán học (Wang, Liu và Shi 2017). Các nghiên cứu tiếp theo chủ yếu tập trung vào việc kết hợp cấu trúc cây phụ trợ để cải thiện hiệu suất của trình dịch (Wang et al. 2019; Liu et al. 2019). Mặc dù thành công của mạng chuỗi đến chuỗi không còn được xây dựng trên kỹ thuật kỹ thuật đặc trưng phức tạp, nhà khoa học đã nhận thấy sự thiếu sót của nó trong việc nắm bắt các mối quan hệ giữa các lượng. Để khắc phục điều này, một kiến trúc học sâu từ đồ thị đến cây thay thế, với một bộ mã hóa đồ thị để liên quan các lượng đến thuộc tính và một bộ giải mã cây để hình thành biểu thức, đã được đề xuất (Zhang et al. 2020). Để bù đắp cho các mô hình hiện có vì không có khả năng tính đến kiến thức thông thường trong khi xử lý các vấn đề, những người khác đã triển khai một mạng chuỗi đến cây độc đáo. Đồ thị kiến ​​thức sáng tạo, được trích xuất từ cơ sở kiến thức bên ngoài theo từ khóa trong MWP, là chìa khóa để giải mã cây sử dụng thông tin toàn cầu (Wu et al. 2020). Tóm lại, các tính năng được tạo bằng tay và các hệ thống tỉ mỉ là hai thành phần cần thiết trong các dự án nghiên cứu liên quan đến giải pháp MWP; các nhà nghiên cứu chưa thể loại bỏ chúng khỏi phương pháp học của họ cho đến khi xuất hiện các mô hình Transformer.

Các Ứng Dụng Trước Đây của Transformers cho MWP

Tương tự như con người xây dựng một hệ thống kiến thức về tất cả các sự kiện mà họ đã gặp phải, một mạng thần kinh đạt được khả năng giải quyết vấn đề toàn diện bằng cách học từ các ví dụ mà nó đã gặp. Tuy nhiên, các mô hình RNN khó được huấn luyện trên dữ liệu quy mô lớn do tính toán chậm. Ngoài ra, các bằng chứng cho thấy rằng chúng giải quyết vấn đề bằng cách phù hợp với các mẫu trong dữ liệu huấn luyện thay vì học và hiểu, dẫn đến kết quả vượt quá khả năng thực tế. Do đó, sau khi sử dụng “attention”, cơ chế để làm nổi bật các phần quan trọng nhất trong đầu vào, để phát triển learner nhanh hơn, transformer, các mô hình RNN đã mất vị trí thống trị trong xử lý ngôn ngữ tự nhiên. Về giải quyết MWP, Griffith et al. tạo ra nhiều phiên bản transformer để đầu ra các biểu thức tiền tố, trung tố và hậu tố. Mô hình hậu tố nổi bật với độ chính xác tuyệt đối từ 82,5% đến 100% trên bốn bộ kiểm tra khác nhau. Trong thực tế, các thủ tục tiền xử lý cải thiện độ chính xác lên đến 11% (Griffith và Kalita 2021). Kim et al. đã sửa đổi kiến trúc transformer kinh điển để áp dụng cơ chế con trỏ toán hạng, giúp mô hình nhận biết mối quan hệ giữa các thực thể (Kim et al. 2020). Các mô hình dựa trên kỹ thuật đặc trưng hoặc thiết kế kiến trúc đều chính xác và hiệu quả trên một số bộ kiểm tra, nhưng khả năng của chúng không mở rộng ra một tập con lớn hơn của MWP, điều này có nghĩa là việc tái kỹ thuật được yêu cầu mỗi khi các nhà nghiên cứu muốn mở rộng phạm vi.

Các công ty công nghệ hàng đầu đã đầu tư một lượng tài nguyên đáng kể vào việc xây dựng các bộ biến đổi được đào tạo trước trong những năm qua, mô hình tiên tiến nhất thường sẽ được thay thế bởi một kiến trúc lớn hơn trong một năm hoặc là thế. Ngoài kích thước tăng lên được xây dựng bởi nhiều lớp và đầu chú ý hơn, các mô hình mới thường được đào tạo trên một tập dữ liệu mở rộng hơn. Một mô hình trước đó đã thành công trong một loạt các tác vụ xử lý ngôn ngữ tự nhiên là sản phẩm của Google, BERT. Một đánh giá gần đây cho thấy, với một tập dữ liệu chứa MWP với phép tính đơn giản, BERT đạt được gần 80% độ chính xác trong việc chuyển đổi vấn đề thành biểu thức (Tan et al. 2021). Phát hiện thú vị nhất đối với chúng tôi là thành tích này không yêu cầu bất kỳ cấu hình bổ sung nào. Khi chúng tôi tiến hành nghiên cứu về các mô hình ngôn ngữ, BERT không còn là bộ biến đổi phức tạp nhất. Là một trong những bộ biến đổi được đào tạo trước mới nhất được công bố công khai, mô hình đầy đủ của GPT-3 vượt qua các tiền bối của nó với 96 lớp và 96 đầu chú ý trong mỗi lớp. Nó được đào tạo trên hơn 400 tỷ mã thông tin chất lượng cao (Brown et al. 2020), và kích thước các nhúng từ được tăng gấp 8 so với GPT-3.

Do đó, chúng tôi đánh giá khả năng hiểu MWP của GPT-3 để xem liệu nó có liên quan tích cực đến độ phức tạp của mô hình hay không. Theo công việc trước đây về mô hình ngôn ngữ được đào tạo trước, tất cả các hoàn thành nhiệm vụ đều độc lập với việc thao tác dữ liệu đầu vào hoặc sửa đổi cấu trúc mạng. Tức là, chúng tôi yêu cầu mô hình tạo ra các phương trình giải quyết bài toán dưới dạng gốc và chi tiêu sức lực tối thiểu trong việc kỹ thuật đề bài. Chúng tôi có thể xác nhận khả năng của nó với các cài đặt thông thường này.

Phạm vi và Công thức Vấn đề

Kiến trúc cho một trợ giảng dựa trên trí tuệ nhân tạo cho các vấn đề từ

Một hệ thống trợ giảng thông minh cho MWP có thể được kỳ vọng thực hiện 1) xác định loại vấn đề, 2) đưa ra hướng dẫn từng bước, 3) trích xuất hệ phương trình tuyến tính chính xác, 4) giải quyết các phương trình một cách thành công, và 5) tạo ra các vấn đề tương tự để người dùng luyện tập. Trọng tâm chính của bài báo này là phần 3 (xem Q2 bên dưới), cùng với một số tập trung vào phần 1 (xem Q1 bên dưới) và phần 5 (xem Q3 bên dưới). Chúng tôi loại bỏ phần 4 khỏi dự án này vì đã có các nguồn tài nguyên trực tuyến như WolframAlpha có thể giải quyết một hệ phương trình cho trước đúng, và chúng tôi để phần 2 cho tương lai làm việc như một nhiệm vụ khó khăn hơn.

Q1. Phân loại các vấn đề từ

Dựa trên việc xem xét thủ công các vấn đề trong tập dữ liệu của chúng tôi, chúng tôi đã nhóm tất cả các vấn đề từ hai phương trình tuyến tính trong hai biến thành năm loại khác nhau: a) tổng và hiệu (S&D), b) mặt hàng và thuộc tính (I&P), c) chu vi của hình chữ nhật (POR), d) chuyển động (MO) và e) hỗn hợp (MI); mỗi loại được cung cấp ví dụ trong Bảng 1. Chúng tôi mong đợi mô hình đưa ra tên của một nhóm dựa trên văn bản của vấn đề từ đầu vào, và đánh giá khả năng phân loại của nó tương ứng.

Q2. Trích xuất phương trình

Cho một vấn đề từ, nhiệm vụ của GPT-3 là trích xuất hai phương trình tuyến tính có thể được sử dụng để suy ra câu trả lời đúng. Chúng tôi chuẩn hóa các biến x và y để đơn giản hóa nhiệm vụ. Cùng với mô tả vấn đề (và các ví dụ bổ sung cho việc học một lần và học vài lần), chúng tôi cung cấp hướng dẫn ở đầu prompt để đảm bảo rằng mô hình biết phải làm gì và các ký hiệu nên sử dụng. Trong Bảng 2, chúng tôi cho thấy một minh họa về các câu trả lời mong đợi và không chấp nhận được cho một câu hỏi cụ thể. Độ chính xác được đạt bằng cách so sánh câu trả lời chính xác với văn bản được tạo ra.

Q3. Tạo ra các vấn đề từ

Các chủ đề hoặc môn học khác nhau xuất hiện trong các vấn đề từ trong tập dữ liệu của chúng tôi, bao gồm các đối tượng di chuyển, chất lỏng, vật dụng trong nhà, tiền bạc, số, trọng lượng, hình học và các đối tượng hình chữ nhật. Bài báo này kiểm tra tính sáng tạo của GPT-3 bằng cách đưa ra một ví dụ và yêu cầu nó viết một ví dụ tương tự (trong hoặc vượt chủ đề). Trong Bảng 3, được đưa ra một ví dụ về việc tạo từ trong chủ đề và một ví dụ về việc tạo từ vượt chủ đề. Một điều đáng chú ý là kết quả của việc tạo từ vượt chủ đề vẫn được mong đợi rơi vào cùng một nhóm. Việc tạo từ vượt qua các nhóm khác nhau không được xem xét trong dự án này.

Tổng và Hiệu (T&H)Tổng của một nửa số x và một số y khác là -28. Hiệu của x và y là 7. Tìm x và y.
Hàng và Thuộc tính (H&T)Ba quả táo và bốn quả chuối có giá là $4.85. Ba quả táo và mười quả chuối có giá là $8.75. Tìm giá của một quả táo.
Chu vi Hình chữ nhật (CVHCN)Chiều dài của một hình chữ nhật là 3 cm nhỏ hơn gấp đôi chiều rộng, và chu vi là 53 cm. Tìm kích thước của nó.
Chuyển động (CD)Joey và Natasha bắt đầu từ cùng một điểm và đi theo hướng ngược lại nhau. Joey đi nhanh hơn Natasha 4 km/h. Sau 2 giờ, họ cách nhau 31 kilomet. Họ mỗi người đi nhanh như thế nào?
Hỗn hợp (HH)Mười hai gallon của hỗn hợp axit 31% được thu được bằng cách pha trộn một dung dịch 23% với một dung dịch 48%. Phải sử dụng bao nhiêu của mỗi dung dịch?

Table 1: Instance problem from each category

Vấn đềCần pha trộn bao nhiêu gallon của dung dịch chống đóng băng 20% và dung dịch chống đóng băng 10% để thu được 40 gallon dung dịch chống đóng băng 16%?
Phản hồi hợp lệ0.2x+0.1y=0.16*(x+y);x+y=40
Phản hồi không hợp lệ20x+10y=16*40 (chỉ có một phương trình được suy ra)
Phản hồi không hợp lệ20x+10(40-x)=16(40) (không sử dụng biến y được yêu cầu)
Phản hồi không hợp lệ2x+1y=40;0.2x+0.1y=0.16 (giải thích không chính xác)

Bảng 2: Ví dụ nhiệm vụ trích xuất

Phương pháp thực nghiệm Bộ dữ liệu

Thực hành này đã chuẩn bị các bộ dữ liệu với sáu kích thước khác nhau để đáp ứng nhu cầu ngày càng tăng của dự án: 20 câu hỏi (L20), 30 câu hỏi (L30), 50 câu hỏi (L50), 100 câu hỏi (L100), 200 câu hỏi (L200) và 1000 câu hỏi (L1000). Chúng được tóm tắt trong Bảng 4. L100 được mở rộng từ L20 để kiểm tra; L1000 được xây dựng từ L200 theo cùng một cách để điều chỉnh tốt hơn. Bằng cách “mở rộng từ A”, bài báo có nghĩa là mỗi cặp câu hỏi và câu trả lời trong tập A được sử dụng để tạo ra bốn bản sao với sự kết hợp khác nhau của các số. Tập lệnh Python này đọc vào một cặp câu hỏi và câu trả lời mỗi lần và tạo ra số mới ngẫu nhiên cho mỗi giá trị gốc dựa trên loại dữ liệu (số thực hoặc số nguyên).

Kết quả tạo chủ đề nội bộSố lớn hơn trong hai số là 10 lớn hơn gấp đôi số nhỏ hơn. Nếu số nhỏ hơn được trừ từ số lớn hơn, kết quả là 26. Tìm các số đó.
Kết quả tạo chủ đề chéoSố lớn hơn trong hai số là 15 lớn hơn gấp đôi số nhỏ hơn. Nếu số nhỏ hơn được trừ từ số lớn hơn, kết quả là 33. Tìm các số đó.
Kết quả tạo chủ đề chéoGóc lớn hơn trong hai góc là 10 lớn hơn gấp đôi góc nhỏ hơn. Nếu góc nhỏ hơn được trừ từ góc lớn hơn, kết quả là 26. Tìm các góc đó.

Bảng 3: Tạo bài toán


mở rộng từsố câu hỏi từ websố câu hỏi từ GPT-3
L20không áp dụng20
L30không áp dụng30
L50không áp dụng3020
L100L2020
L200không áp dụng200
L1000L200200

Bảng 4: Bộ dữ liệu

Đây là bản ghi lại tất cả các sự kết hợp của giá trị số hiện có và thêm một câu hỏi mới vào tập dữ liệu của chúng tôi chỉ khi nó có một chuỗi số và quan hệ khác biệt. Điều này đảm bảo rằng không có hai câu hỏi nào trong tập dữ liệu lớn là giống nhau. Hơn nữa, một phạm vi “+/- 0.7” đã được sử dụng cho việc tạo số thực và một phạm vi “+/- 2” đã được sử dụng để lấy các số nguyên ngẫu nhiên. Số không được phép, nhưng các giá trị âm không được chấp nhận. Mỗi tập có cách sử dụng cụ thể như đã thảo luận dưới đây. Không có sự giao nhau giữa bất kỳ tập huấn luyện nào và tập kiểm tra nào, do đó chúng tôi đã tránh sự ô nhiễm dữ liệu đúng đắn. Hơn nữa, các vấn đề trong L20, L50, L100, L200 và L1000 có phân bố đồng đều của năm chủ đề.

Đối với Q1

Yêu cầu GPT-3 phân loại mỗi câu hỏi trong tập dữ liệu L50. Mỗi truy vấn được đưa ra dưới dạng vấn đề lựa chọn nhiều lựa chọn. Một ví dụ được cung cấp ở đầu, theo sau đó là câu hỏi: “Loại câu hỏi nào được đề cập ở trên?” và năm loại được đưa ra dưới dạng lựa chọn duy nhất trong định dạng nhiều lựa chọn.

Đối với Q2

Thực hành này bắt đầu với tập dữ liệu L30. Nó đã được chia thành tập huấn luyện, tập đánh giá chéo (cv) và tập kiểm tra với tỷ lệ 5:12:13.

Hướng dẫn cho việc học không có sẵn (zero-shot learning) được viết bằng một câu hướng dẫn hai câu: “Trích xuất hệ thống hai phương trình tuyến tính theo x và y từ câu hỏi. Tách các phương trình bằng dấu chấm phẩy. \n” theo sau là tuyên bố vấn đề. Việc học không có sẵn được thực hiện chỉ một lần trên toàn bộ tập dữ liệu vì nó không cần quá trình đào tạo / đánh giá chéo riêng.

Thực hành này thực hiện việc học K-shot, với K = 1 · 5 (tức là, học một lần, hai lần, lên đến năm lần) trên tập đánh giá chéo (cv) với tất cả các kết hợp K ví dụ huấn luyện có thể có từ 5 ví dụ huấn luyện. Trong số đó, những ví dụ có độ chính xác cao nhất đối với phương pháp học được chọn ra và sử dụng trên tập kiểm tra để đảm bảo rằng độ chính xác rút trích của chúng tôi sẽ là một biểu thị công bằng về hiệu suất của mô hình.

Một biến nhúng khác mà chúng ta có thể điều chỉnh và nên tính đến là nhiệt độ của mô hình GPT-3. Giá trị của nó quyết định mức độ ngẫu nhiên có liên quan đến việc mô hình sinh ra phản hồi. Giá trị nhiệt độ thấp hơn cho thấy các phản hồi sẽ có tính xác định hơn, nếu không chúng là ngẫu nhiên hơn và có thể thay đổi trong lần chạy khác. Tính đến tác động của nó trên hoàn thiện văn bản, chúng tôi cho phép mô hình trải nghiệm cùng các thủ tục tăm tắp năm lần với nhiệt độ 0,1, 0,3, 0,5, 0,7 và 0,9 để khám phá xem giá trị cụ thể nào phù hợp nhất với nhiệm vụ của chúng tôi.

Đối với câu hỏi Q3

Để tạo ra các câu hỏi mới một cách hiệu quả, chúng tôi cung cấp một ví dụ ở đầu mỗi truy vấn, theo sau bởi một chỉ thị một câu: “Cho câu hỏi trên, sử dụng các giá trị khác để viết một câu hỏi tương tự về {chủ đề}”. Thẻ giữ chỗ “{chủ đề}” được thay thế bằng một chủ đề cụ thể trong quá trình tạo ra.

Để tạo ra câu hỏi cho các chủ đề khác nhau, chúng tôi xem xét tất cả các cặp chủ đề và danh mục hợp lý. Chúng tôi sử dụng một ví dụ ngẫu nhiên từ mỗi cặp, yêu cầu mô hình tạo ra các câu hỏi thuộc về một sự kết hợp khác nhau trong mười lần và đếm số lần thành công. Chúng tôi báo cáo các giá trị này trong phần Kết quả Thực nghiệm.

Kết quả thực nghiệm phân loại

GPT-3 đạt được độ chính xác trên 80% cho tất cả các nhóm trừ lớp “mục và thuộc tính”. Đối với các nhóm “hỗn hợp” và “chu vi hình chữ nhật”, nó đã nhận diện thành công tất cả các câu hỏi thuộc nhóm đó (Bảng 5). Một phát hiện thú vị là tất cả mười câu hỏi thuộc nhóm “mục và thuộc tính” được phân loại là “hỗn hợp”, điều này có thể được giải thích một cách hợp lý, vì một “mục và thuộc tính” điển hình liên quan đến sự kết hợp của hai loại mục.

Danh mụcĐộ chính xác
Tổng và hiệu (S&D)0.80
Vật phẩm và đặc tính (I&P)0.00
Chuyển động (MO)0.90
Hỗn hợp (MI)1.00
Chu vi hình chữ nhật (POR)1.00

Năm ví dụ trong tập huấn luyện được đánh số từ 1 đến 5. Sau khi chạy tất cả các kết hợp có thể của các ví dụ huấn luyện trên tập kiểm tra chéo, chúng tôi chọn ra các gợi ý thực hiện tốt nhất cho mỗi nhiệt độ, được hiển thị trong Bảng 6.

Sử dụng những gợi ý này, chúng tôi chạy GPT-3 trên tập kiểm tra và đo lường tỷ lệ thành công tương ứng. Hiệu suất tốt nhất của mô hình liên quan đến phương pháp học và nhiệt độ được trình bày trong Bảng 7. Rõ ràng là học một vài điểm, học hai điểm, học ba điểm, học bốn điểm và học năm điểm là các phương pháp có thể so sánh được trong hầu hết các trường hợp. Tóm lại theo phương pháp học, học không điểm đạt được 0,3077 với nhiệt độ 0,7, học một điểm đạt được 0,5385 với nhiệt độ 0,5, học hai điểm đạt được 0,6154 với nhiệt độ 0,7, và ba phương pháp còn lại đạt được 0,6923 với các nhiệt độ khác nhau. Tóm lại, giới hạn trên của GPT-3 là một học viên vài điểm là 0,6923 trên tập kiểm tra này. Không có mẫu quan hệ rõ ràng nào giữa nhiệt độ và độ chính xác trích xuất, và chúng tôi mong đợi giới hạn thấp hơn sẽ được nâng lên khi cung cấp nhiều ví dụ hơn cho mô hình. Một số người có thể nhận thấy tỷ lệ thành công đối nghịch với nhiệt độ cho học ba điểm, nhưng điều này là do chúng tôi để biến “gợi ý” không được kiểm soát khi chọn ra các giá trị tốt nhất. Khi chúng tôi sử dụng cùng một lời gợi ý và chỉ thay đổi nhiệt độ, xu hướng này biến mất.

Thảo luận

Kết quả phân loại cho thấy cần đề xuất một tập hợp lớp tùy chọn khác nhằm cải thiện hiệu suất của GPT-3 trên nhiệm vụ này. Kết hợp “mục và tính chất” và “hỗn hợp” thành một nhóm lớn có thể là giải pháp ngắn hạn. Tuy nhiên, với mục tiêu lâu dài tạo ra một hệ thống giáo dục tốt, nó phải có khả năng phân biệt những vấn đề gây nhầm lẫn này.

Thử nghiệm về độ chính xác trích xuất đạt 80% cùng với 1000 vấn đề đào tạo. Bằng cách xem xét kết quả trên L100, chúng tôi nhận thấy rằng GPT-3 được tinh chỉnh có xu hướng thất bại trong việc xử lý các bản sao nếu nó không thể đúng câu hỏi gốc. Ngược lại, nó gần như không mắc lỗi trên các bản sao nếu nó thành công trên phần gốc. Trong Bảng 13, chúng tôi cho thấy một số vấn đề mà mô hình được tinh chỉnh của chúng tôi gặp khó khăn trong việc xử lý. Một khám phá là việc áp dụng kiến thức thông thường trực tiếp vào giải quyết vấn đề vẫn là một vấn đề, ngay cả khi bộ biến đổi đã nhìn thấy hàng triệu văn bản. Ngoài ra, sự không nhất quán và lỗi ngẫu nhiên cũng tồn tại trong các phương trình đầu ra.

Kết luận

Nghiên cứu này (với sự hỗ trợ của trường Đại học Kỹ thuật Usc Viterbi) đã khám phá việc sử dụng GPT-3 trong ba khía cạnh chính của việc hướng dẫn giải toán từ vấn đề toán học tuyến tính: phân loại vấn đề, chuyển đổi mô tả thành hệ phương trình tuyến tính và tạo các vấn đề tương tự bằng một ví dụ đã cho. Nghiên cứu của chúng tôi cho thấy kết quả đầy hứa hẹn cho cả ba vấn đề, đặc biệt là tỷ lệ thành công 80% cho việc trích xuất hệ phương trình với việc điều chỉnh tốt cho thấy nó có thực sự hữu ích cho mục đích này. Trong tương lai, chúng tôi dự định khám phá các lời nhắc và kỹ thuật có thể hướng dẫn GPT-3 giải thích cách trả lời được rút ra.