Kết quả 1 đến 1 của 1

    Nghiên cứu các phương pháp trích rút văn bản từ trang WEB và ứng dụng

    VipHư Trúc Hư Trúc Đang Ngoại tuyến (2601 tài liệu)
  1. Gửi tài liệu
  2. Bình luận
  3. Chia sẻ
  4. Thông tin
    3
  5. Công cụ
  6. Nghiên cứu các phương pháp trích rút văn bản từ trang WEB và ứng dụng

    MỞ ĐẦU
    Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng khổng lồ các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong các cơ sở dữ liệu (CSDL) truyền thống thường là loại dữ liệu đồng nhất (về ngôn ngữ, định dạng, ), còn dữ liệu Web thường không đồng nhất. Ví dụ về ngôn ngữ, dữ liệu Web bao gồm nhiều loại ngôn ngữ khác nhau (cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại định dạng khác nhau (văn bản, HTML, PDF, hình ảnh, âm thanh, ), nhiều loại từ vựng khác nhau (địa chỉ email, các liên kết (links), các mã vùng (zipcode), số điện thoại). Nói cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng được coi như một thư viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ các tài liệu trong thư viện thì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung . Do dữ liệu Web không có cấu trúc và thường không đồng nhất nên việc xử lý thông tin trên web phục vụ các yêu cầu tìm kiếm, phân tích thông tin gặp nhiều khó khăn. Yêu cần thiết phải nghiên cứu các phương pháp hiệu quả để xử lý dữ liệu Web, chuyển từ dạng dữ liệu không có cấu trúc, không đồng nhất thành dạng dữ liệu có cấu trúc và đồng nhất hơn. Bước xử lý này có thể được ứng dụng cho nhiều lĩnh vực như dịch tự động và xử lý ngôn ngữ tự nhiên.
    Luận văn tập trung nghiên cứu các phương pháp trích xuất dữ liệu từ Web. Trên cơ sở đó, thực hiện cài đặt thử nghiệm công cụ trích rút thông tin từ các trang tin tức tiếng Việt.
    Nội dung luận văn được chia thành 3 chương chính:
    Chương 1 – Khái quát về khai phá dữ liệu web. Chương này giới thiệu những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá dữ liệu Web. Đồng thời, luận văn cũng mô tả sơ bộ các hướng khai phá, các lĩnh vực cũng như bài toán đặt ra trong khai phá dữ liệu Web.
    Chương 2 – Các kỹ thuật trích rút văn bản từ trang Web. Chương này trình bày một cách chi tiết về trích rút thông tin. Đồng thời chương này đưa ra các hướng tiếp cận trong bài toán trích rút thông tin. Các phương pháp trích lọc văn bản từ Web cũng được trình bày trong chương này.
    Trang 2
    Chương 3 – Cài đặt thử nghiệm ứng dụng trích rút văn bản từ một số Website tin tức bằng tiếng Việt. Chương này giới thiệu chương trình viết bằng ngôn ngữ PHP, cơ sở dữ liệu MySQL dùng để trích rút văn bản từ Web. Chương trình sử dụng mã nguồn mở Joomla.

    Xem Thêm: Nghiên cứu các phương pháp trích rút văn bản từ trang WEB và ứng dụng
    Nội dung trên chỉ thể hiện một phần hoặc nhiều phần trích dẫn. Để có thể xem đầy đủ, chi tiết và đúng định dạng tài liệu, bạn vui lòng tải tài liệu. Hy vọng tài liệu Nghiên cứu các phương pháp trích rút văn bản từ trang WEB và ứng dụng sẽ giúp ích cho bạn.
    #1
  7. Đang tải dữ liệu...

    Chia sẻ link hay nhận ngay tiền thưởng
    Vui lòng Tải xuống để xem tài liệu đầy đủ.

    Gửi bình luận

    ♥ Tải tài liệu

social Thư Viện Tài Liệu

Từ khóa được tìm kiếm

Nobody landed on this page from a search engine, yet!

Quyền viết bài

  • Bạn Không thể gửi Chủ đề mới
  • Bạn Không thể Gửi trả lời
  • Bạn Không thể Gửi file đính kèm
  • Bạn Không thể Sửa bài viết của mình
  •  
DMCA.com Protection Status