Hugging Face ra mắt mô hình sinh mã StarCoder mới.

Hugging Face vừa giới thiệu phiên bản mới nhất của mô hình tạo mã StarCoder của mình – với sự hỗ trợ từ Nvidia để mang nó đến đời.

Phiên bản gốc của StarCoder, được xây dựng song song với ServiceNow, ra mắt vào tháng 5 năm trước. Phiên bản mới này, StarCoder2, có thể tạo mã trên hơn 600 ngôn ngữ lập trình.

StarCoder2 có ba kích thước khác nhau nhưng được thiết kế nhỏ gọn – phiên bản lớn nhất có 15 tỷ tham số – để nhà phát triển có thể chạy nó một cách hiệu quả trên máy tính cá nhân của họ.

Các phiên bản mới của StarCoder cũng mạnh mẽ hơn, với phiên bản nhỏ nhất trong số đó tương đương với hiệu suất của mô hình StarCoder gốc với 15 tỷ tham số. StarCoder2-15B là mô hình tốt nhất trong lớp kích thước của nó và tương đương với các mô hình gấp đôi kích thước của nó. Đọc bài báo kỹ thuật.

Nhập vai trò của Nvidia

Một bổ sung mới cho dự án StarCoder là Nvidia. Hãng sản xuất chip trí tuệ nhân tạo này đã sử dụng cơ sở hạ tầng của mình để huấn luyện phiên bản 15 tỷ tham số. ServiceNow đã huấn luyện mô hình 3B trong khi Hugging Face đảm nhận phiên bản 7B.

Nvidia cũng sử dụng khung NeMo của mình trong quá trình phát triển mô hình StarCoder2 lớn nhất. NeMo cho phép người dùng xây dựng các mô hình và dịch vụ trí tuệ nhân tạo sinh sản tùy chỉnh.

Jonathan Cohen, phó chủ tịch nghiên cứu ứng dụng tại Nvidia, cho biết sự tham gia của họ vào dự án StarCoder “giới thiệu các mô hình được phát triển một cách an toàn và có trách nhiệm, và hỗ trợ truy cập rộng hơn vào trí tuệ nhân tạo sinh ra có trách nhiệm mà chúng tôi tin rằng sẽ mang lại lợi ích cho cộng đồng toàn cầu.”

Bộ dữ liệu cơ bản mới

Các mô hình 3 tỷ và 7 tỷ tham số đã được huấn luyện trên ba nghìn tỷ token, trong khi mô hình 15 tỷ tham số được huấn luyện trên hơn bốn ngàn tỷ token.

StarCoder2 được xây dựng bằng The Stack v2, một bộ dữ liệu mới lớn để cung cấp năng lượng cho các mô hình tạo mã.

The Stack v2 lớn hơn The Stack v1, với dung lượng 67,5 terabyte, so với chỉ 6,4TB.

The Stack v2 được lấy từ lưu trữ Software Heritage, một lưu trữ công cộng về mã nguồn phần mềm. Bộ dữ liệu mới này có các quy trình phát hiện ngôn ngữ và giấy phép cải thiện, và các thuật toán lọc tốt hơn. Hugging Face cho biết dữ liệu cũng được lọc tốt hơn, cho phép huấn luyện các mô hình với ngữ cảnh kho lưu trữ.

Để truy cập vào bộ dữ liệu, hãy truy cập trang Hugging Face. Để tải về toàn bộ dữ liệu, ngHãy đến Hugging Face. Để tải xuống dữ liệu theo số lượng lớn, người dùng cần được cấp phép từ Software Heritage và Inria.

Vì The Stack v2 được tạo thành từ nhiều mã nguồn khác nhau, có nhiều giấy phép khác nhau cần xem xét, vì vậy có thể không rõ liệu toàn bộ bộ dữ liệu có thể được sử dụng cho các ứng dụng thương mại hay không. Hugging Face đã biên soạn một danh sách các giấy phép liên quan để đảm bảo tuân thủ.

Đăng bởi

Admin

VDCC Việt Nam

Đăng vào ngày

Chia sẽ

Scroll to Top