Israel phát triển công nghệ tóm tắt văn bản bằng nhiều thứ tiếng

Xu hướng công nghệ năm 2018 là IoT, AI và Robotics

Đại học Ben-Gurion thuộc miền Nam Israel vừa công bố các nhà nghiên cứu nước này đã phát triển thành công một công nghệ mới tự động tóm tắt các văn bản bằng nhiều ngôn ngữ khác nhau.

Phương pháp này được gọi là công cụ trích dẫn đa ngôn ngữ (gọi tắt là MUSE), đã được thử nghiệm với 9 loại ngôn ngữ khác nhau bao gồm tiếng Trung, Anh, Hebrew, Ba Tư, Nga, Đức, Pháp, Arab và Tây Ban Nha. Bản tóm tắt tự động bằng công cụ mới này sẽ khá giống văn bản tóm tắt do con người trực tiếp thực hiện.

đồ công nghệ

Việc gia tăng số lượng văn bản trực tuyến dẫn đến sự cần thiết phải phát triển các phương pháp tự động tóm tắt các văn bản như các bài báo, các bài phỏng vấn, để phục vụ việc xử lý tiếp theo. Đồng thời, cần rút ngắn thời gian để đọc lượng lớn văn bản, vì vậy, các phương pháp tự động như thế này là cần thiết để tổng hợp các loại văn bản.

Hầu hết các phương pháp tự động hiện nay đều phụ thuộc vào ngôn ngữ cũng như các thuật toán đã được lập trình và đã trải qua quá trình thử nghiệm trên rất nhiều văn bản. Phương pháp mới của Israel sẽ cung cấp các bản tóm tắt bằng nhiều thứ tiếng khác nhau, dựa trên việc sử dụng các đặc tính thống kê của bài viết và thuật toán phân loại các câu trong văn bản đó. Cách phân loại này có thể tiến hành đối với các câu viết trong bất kỳ thứ tiếng nào và sau đó sẽ rút ra các câu quan trọng thành một bản tóm tắt.

Các nhà nghiên cứu khoa học đánh giá công cụ mới sẽ có giá trị giúp người sử dụng hưởng lợi từ một lượng lớn các tài liệu sẵn có trên mạng Internet.