Công bố thông tin bảo vệ luận án Tiến sĩ cấp Đại học Đà Nẵng của NCS Võ Duy Thanh

Thông báo về Lễ bảo vệ luận án tiến sĩ cấp Đại học Đà Nẵng.

Họ và tên Nghiên cứu sinh: VÕ DUY THANH

Ngành: Khoa học máy tính

Mã số: 62.48.01.01

Tên đề tài: "Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt"

Ngày bảo vệ: 29/9/2017

Xem toàn văn luận án tại đây.

TRANG THÔNG TIN LUẬN ÁN TIẾN SĨ

Đề tài:  NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT

VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

 

Chuyên ngành :            KHOA HỌC MÁY TÍNH              Mã số: 62.48.01.01

Họ và tên NCS :           Võ Duy Thanh

Người hướng dẫn khoa học :        PGS. TS Võ Trung Hùng

                                                   PGS. TS Đoàn Văn Ban

Cơ sở đào tạo :             Đại học Đà Nẵng  

1. Những kết quả chính của luận án

Trước năm 2005, đã có một số công trình nghiên cứu và đã đề xuất một số thuật toán phục vụ học bán giám sát và áp dụng giới hạn trong một số lĩnh vực. Nhưng các nghiên cứu này chưa đầy đủ và chưa tổng quát cho học bán giám sát. Trong những năm gần đây, kỹ thuật học bán giám sát đã thu hút sự nghiên cứu của nhiều nhà khoa học trong và ngoài nước. Các nghiên cứu này tập trung chủ yếu trên: học bán giám sát dựa trên máy hỗ trợ véc tơ hoặc học bán giám sát dựa trên cây Bayes; phân loại bán giám sát với quá trình xử lý hồi quy Gauss. Đây là những phương pháp có hiệu quả và được áp dụng trong thực tế.

Việc nghiên cứu ứng dụng kỹ thuật học bán giám sát vào các bài toán trong xử lý ngôn ngữ tự nhiên như phân loại văn bản, dịch thống kê, hỏi đáp tự động,… là phù hợp. Tuy nhiên, hiện tại các nghiên cứu trong nước chủ yếu sử dụng kỹ thuật n-grams trong việc giải quyết các bài toán này mà chưa ứng dụng nhiều kỹ thuật học bán giám sát. Ở Việt Nam, kỹ thuật học bán giám sát mới bước đầu được nghiên cứu trong lĩnh vực tin sinh học (phân loại gien, protein) và chưa được phổ biến rộng rãi.

Luận án này đã đề xuất được mô hình phục vụ phân loại văn bản tiếng Việt dựa trên học máy bán giám sát, đề xuất được các giải pháp mới để thực hiện phân loại và rút gọn số chiều véc-tơ khi phân loại. Những đề xuất này có ý nghĩa quan trọng không chỉ trong lĩnh vực phân loại văn bản mà có thể mở rộng sang một số lĩnh vực khác trong xử lý ngôn ngữ tự nhiên.

2. Những đóng góp mới của luận án

1) Đề xuất được một giải pháp mới trong phân loại văn bản dựa trên mô hình trắc địa và lý thuyết đồ thị. Tất cả các nghiên cứu trước đây về phân loại văn bản đều sử dụng khoảng cách Euclid để đo mức độ gần nhau giữa các văn bản khi thực hiện gom cụm, xây dựng mô hình ngôn ngữ hoặc phân loại văn bản. Về mặt hình học, khoảng cách Euclid dựa trên đo khoảng cách theo đường chim bay (nối 2 điểm mà không tính đến mặt cong phân bố các điểm) nên chưa thể hiện chính xác mức độ gần nhau thực tế của các điểm. Mô hình trắc địa sử dụng hệ tương quan ngắn nhất (trong phân loại văn bản là mức độ gần nhau giữa các văn bản) để tính khoảng cách giữa hai điểm, khoảng cách tính trên mặt cong phân bố các điểm. Khoảng cách này được gọi là cự ly trắc địa và khác với khoảng cách Euclid. Về mặt mô hình toán học, khi xây dựng được một mô hình đường trắc địa hợp lý và tính khoảng cách các điểm dựa trên cự ly trắc địa thì việc phân loại văn bản tự động sẽ chính xác hơn. Vấn đề khó khăn nhất khi áp dụng mô hình trắc địa là việc tính toán phức tạp hơn trên không gian Euclid và làm thế nào để xác định khoảng cách giữa tất cả các điểm phân bố trên các mặt cong của mô hình trắc địa. Vấn đề này được luận án giải quyết thông qua việc áp dụng lý thuyết đồ thị. Mỗi một điểm trên mô hình trắc địa được xem như một đỉnh đồ thị và luận án xác lập một đường đi từ một đỉnh đến các đỉnh khác theo thứ tự khoảng cách giữa chúng. Cách tính này dẫn đến một ưu điểm nổi bật của mô hình trắc địa kết hợp với lý thuyết đồ thị là cho phép phân loại văn bản (thực chất là phân chia các điểm/đỉnh đồ thị) thành nhiều loại/nhóm thay vì chỉ phân ra hai loại (dựa trên phân lớp nhị phân) như các phương pháp cũ dựa trên cự ly Euclid. Giải pháp mà luận án đề xuất đã được kiểm chứng và cho kết quả phân loại tốt hơn so với các phương pháp sử dụng cự ly Euclid. Ngoài ra, giải pháp này có thể được áp dụng sang các ứng dụng khác mà trong đó có tính đến yếu tố khoảng cách giữa các điểm trong không gian nhiều chiều. Kết quả có một công trình công bố tại Hội thảo quốc tế ISDA 2014, IEEJ catalog, ISSN:2150-7996, pp. 13-19.

 2) Đề xuất được một giải pháp mới để rút gọn số chiều của véc tơ biểu diễn văn bản dựa trên đồ thị Dendrogram. Phương pháp biểu diễn văn bản được sử dụng phổ biến hiện nay là sử dụng véc tơ, trong đó mỗi từ (hoặc tần số xuất hiện từ đó trong văn bản) là một phần tử của véc tơ. Vì vậy, số chiều của véc tơ biểu diễn văn bản là rất lớn. Do số chiều véc tơ rất lớn nên nếu áp dụng cự ly đường trắc địa sẽ có ảnh hưởng lớn đến tốc độ xử lý. Để giải quyết vấn đề này, luận án đề xuất giải pháp tiếp theo là rút gọn số chiều véc tơ bằng phương pháp phân cụm các từ dựa trên đồ thị Dendrogram. Ý tưởng của đề xuất này là sử dụng Từ điển Bách khoa toàn thư Wikipedia và đồ thị Dendrogram nhằm mục đích phân cụm từ tiếng Việt dựa trên tần suất xuất hiện đồng thời của các từ trên các văn bản và trên cơ sở đó rút gọn số chiều véc tơ thuộc tính của văn bản (hợp nhất các phần tử gần nhau trên đồ thị Dendrodram). Việc áp dụng không gian véc tơ đã được rút gọn sẽ giúp giảm số chiều véc tơ biểu diễn văn bản và qua đó tiết kiệm thời gian phân loại văn bản tiếng Việt mà vẫn đảm bảo tỉ lệ phân loại đúng ở mức cao. Giải pháp rút gọn số chiều véc tơ này không phải chỉ áp dụng cho phân loại văn bản mà có thể áp dụng cho tất cả các ứng dụng khác có biểu diễn văn bản bằng véc tơ như xác định mức độ giống nhau giữa các văn bản, nhận dạng ngôn ngữ,… Kết quả có một công trình công bố tại Hội thảo quốc tế ACIS 2014, ISBN: 978-4-88686-7,  pp. 247-253.

Bên cạnh hai đóng góp chính trên, luận án cũng đã xây dựng được kho dữ liệu phục vụ phân loại văn bản tiếng Việt. Đóng góp này không có nhiều ý nghĩa về mặt khoa học nhưng có ý nghĩa thực tiễn rất cao vì kho dữ liệu ngôn ngữ là cơ sở để thực hiện các nghiên cứu thực nghiệm liên quan đến xử lý ngôn ngữ. Đối với các ngôn ngữ như tiếng Anh, Pháp, Tây Ban Nha,Nhật,… người ta đã xây dựng các kho dữ liệu ngôn ngữ (là các văn bản trong một ngôn ngữ cụ thể đã được tiền xử lý như gán nhãn, tách từ, gán nhãn từ loại,…) để phục vụ triển khai các thử nghiệm và đánh giá kết quả. Tuy nhiên, đối với tiếng Việt, người ta chưa xây dựng hoặc chưa công bố các kho dữ liệu ngôn ngữ như vậy để cộng đồng các nhà khoa học sử dụng. Trong luận án này, đã tạo ra một kho dữ liệu với số lượng 5027 văn bản đã được tiền xử lý và gán nhãn với 5 chủ đề khác nhau. Luận án đã sử dụng kho dữ liệu này cho tất cả các thử nghiệm về phân loại văn bản và đánh giá kết quả đạt được cho các phương pháp khác nhau trên cùng một tập dữ liệu.

3. Khả năng ứng dụng trong thực tế

Luận án có ý nghĩa thực tiễn cao, thể hiện ở hai điểm. Điểm thứ nhất là tạo ra kho dữ liệu tin cậy phục vụ cho các nghiên cứu trong tương lai về xử lý tiếng Việt nói chung và phân loại văn bản nói riêng. Điểm thứ hai là các công cụ phát triển từ luận án có thể tiếp tục cải tiến để ứng dụng vào thực tế khi phân loại văn bản tiếng Việt.

4. Hướng nghiên cứu tiếp theo

Tiếp tục những nghiên cứu trong phân loại văn bản là cần thiết và một số đề xuất nghiên cứu tiếp theo gồm:

-  Tiếp tục bổ sung, hoàn thiện kho dữ liệu tiếng Việt để phục vụ tốt hơn các nghiên cứu trong tương lai.

-  Nghiên cứu phân loại văn bản theo hướng dựa trên ngữ nghĩa.

-  Nghiên cứu một số giải pháp khác kết hợp với những giải pháp đề xuất để góp phân nâng cao chất lượng phân loại.

Từ khóa: Máy véc tơ hỗ trợ, học bán giám sát, phân loại văn bản tiếng Việt, kho dữ liệu, mô hình cự ly trắc địa, đồ thị Dendrogram, wikipedia.

 

Tin cùng chuyên mục