Semantic Web

Tổng quan về Semantic Web- Semantic Web Overview.

1.1.     Bản chất của công nghệ web hiện tại.

Web là một sự cấu trúc hóa thông tin để truyền thông tin trên Internet. Cấu trúc này cho phép lưu trữ thông tin với mục đích truyền thông và để các trình duyệt web(Browser) có thể đọc và hiển thị nó dưới dạng ngôn ngữ tự nhiên, hình ảnh, video, … nhằm phục vụ cho sự tiếp nhận của con người thông qua các giác quan của họ. Như vậy mục tiêu của Web hiện hành là con người, cái đích của Web hiện hành là truyền thông các tài nguyên của con người tức tài nguyên chỉ có thể hiểu được và khai thác được bởi con người. Việc truyền thông giữa các máy tính chỉ là hình thức, chỉ là những biểu hiện bên ngoài, các máy tính thực sự không làm việc một cách cộng tác thực sự, không thực sự xuất bản thông tin cho nhau khai thác. Tóm lại Web hiện hành là một thể hiện mới lạ của Internet, song nó vẫn không vượt ra khỏi khuôn khổ là một thiết bị vận chuyển thông tin cho con người.

Sự phát triển của Web đã dẫn tới nhiều cách tân mới. Những cách tân quan trọng nhất của công nghệ Web phải kể đến đó là: Web động hay ứng dụng Web, XML-Web service hay dịch vụ Web, công nghệ quản lý nội dung và các Web portal,…. Những cách tân này chủ yếu được thực hiện theo hai hướng: một là những sự sửa đổi giúp phát triển và quản lý Web một cách tốt hơn; hai là khai thác Web theo một hướng khác đó là hướng ứng dụng và kết quả của hướng này là tạo lập các ứng dụng phân tán dựa trên Web. Thực vậy:

Công nghệ Web động, công nghệ quản lý nội dung hay Web++, các Web portal về thực chất là nhúng cơ sở dữ liệu vào Web. Việc đưa cơ sở dữ liệu vào Web nhằm tạo ra những tương tác nhất định với người dùng liên quan đến nội dung của trang Web. Các kịch bản và các ngôn ngữ lập trình được nhúng vào nhằm tạo ra một sự tương tác hoàn chỉnh hơn, đạt tới độ tương tác cao hơn gần hơn với sự tương tác trong các ứng dụng desktop. Như thế các công nghệ này chỉ đơn thuần nhắm tới việc xuất bản các trang Web một cách tự động từ đó tạo ra khả năng đáp ứng nhu cầu của người sử dụng một cách tương tác thực sự.

XML và Webservice lại hướng đến một sự cách tân theo một khía cạnh khác. Đó là việc truyền thông: dữ liệu và ứng dụng trên Internet. Điều này cho thấy khả năng truyền thông dữ liệu, một sự truyền thông hướng tới các máy tính. Song nó lại không hoàn toàn vậy bởi thực chất của nó là một sự truyền thông hướng tới các ứng dụng và không còn nằm chọn vẹn trong giải tần của công nghệ Web nữa. Các ứng dụng Web service dựa trên nền tảng của miêu tả XML để truyền thông dữ liệu từ  xa và dựa trên các phương thức gọi hàm từ xa để triệu hồi các đáp ứng với dữ liệu. Như thế các miêu tả ngữ nghĩa của nó chỉ tập trung vào một tầm vực nhất định, trong ngữ cảnh của một ứng dụng cụ thể, nó không còn nằm trong tính toàn cầu của thông tin mà Web mong đợi nữa. Không những vậy những mô tả của XML vẫn chỉ đơn thuần là những thẻ “tag”, cái mà sẽ được hiểu và thống nhất trong một miền ứng dụng cụ thể nó không cung cấp bất kỳ một cái gì về ngữ nghĩa của dữ liệu hay một phương tiện để phục hồi ngữ nghĩa này. Như vậy có thể nói rằng XML-Webservice không còn là một Web mà là một hệ thống ứng dụng được cài đặt vào Web nó không còn mang bản chất thuần túy của công nghệ Web (trong sự toàn cầu hóa thông tin) mà nó chỉ khai thác một vài điểm mạnh của công nghệ này(đó là sự phân tán).

Như vậy, mặc dù có những tiến bước đáng kể, song các công nghệ cách tân gần đây vẫn không hé mở một sự cải cách đặc biệt, công nghệ Web vẫn nằm nguyên trong khuôn khổ là một công cụ vận chuyển thông tin cho con người.

Tóm lại Web hiện hành đã chọn một cái đích đơn giản hơn cho mình đó là con người. Sự truyền thông thực tế giữa các máy tính không khác gì một dây truyền mang vác thông tin cho con người từ nơi này đến nơi khác. Sự vượt bậc về tốc độ và mạng lưới rộng khắp trên toàn thế giới đã tạo nên sự thành công cho công nghệ Web, nó đã cung cấp một thế giới thông tin đầy đủ và sinh động cho mỗi con người. Cái đích con người là đơn giản ở chỗ việc biểu diễn của thông tin không cần hàm chứa ngữ nghĩa của nó, mà chỉ cần một sự khẳng định về bố cục của tài nguyên và khuôn dạng diễn đạt của tài nguyên (văn bản, hình ảnh, âm thanh, video, flash…). Do vậy mà nền tảng của công nghệ Web hiện hành là các ngôn ngữ đánh dấu hình thức, là các thẻ ”tag” mô tả bố cục và khuôn dạng biểu diễn của tài nguyên cùng với các link điều khiển việc tiếp cận tài nguyên hay để chuyển tiếp giữa các tài nguyên.

1.2.     Sự thiếu hụt của Web hiện tại và sự  ra đời của Semantic Web.

Như đã xem xét ở trên, Web hiện hành đã vội vã chọn lựa đối tượng phục vụ tiện lợi nhất cho mình đó là con người. Sự tiện lợi này đã tạo nên một sự tiện lợi và đơn giản khác đó là sự đơn giản của công nghệ. Và cũng bởi sự đơn giản này cùng với sự phát triển của mạng Internet đã tạo đà cho sự phát triển của công nghệ Web, cũng như đã dệt nên một sự thành công trên cả mong đợi của công nghệ này. Ngày nay một số lượng vô cùng lớn các trang Web đã được tạo ra, Công nghệ Web bây giờ đã cung cấp cho con người một thế giới thông tin vượt trên cả sự đầy đủ và sống động.

Tuy nhiên sự thành công ngoài mong đợi đó lại nẩy nòi ra vô số những vấn đề. Và một trong những vấn đề quan trọng nhất đó là việc khai thác thông tin như thế nào. Trước đây chúng ta gặp phải vấn đề thiếu hụt thông tin do những rào cản về địa lý, thì ngày nay chúng ta phải đối mặt với vấn đề quá tải thông tin. Việc tìm kiếm và chắt lọc các thông tin hữu ích trong một tài nguyên quá lớn là một công việc không phải dễ dàng. Trước đây không lâu chúng ta đã gặp phải vấn đề này trong các cơ sở dữ liệu và một số tài nguyên khác và đã làm phát sinh vấn đề khai phá dữ liệu (Data minning). Ngày nay vấn đề khai phá Web cũng được đặt ra và đang trở thành một đối tượng rất được quan tâm. Khai phá tập trung nhiều hơn vào các tri thức tiềm ẩn, cái mà xuất hiện nhiều hơn trong một kho dữ liệu lớn. Ở khai phá Web, chúng ta cũng tập trung vào việc khai thác các thông tin tiềm ẩn trong kho tàng dữ liệu web như: khai phá nội dung Web (Web content mining), khai phá cấu trúc Web (Web Structure mining), khai phá mức độ sử dụng của Web (Web Usage mining). Trong khai phá Web, đặc biệt là khai phá nội dung Web, đã vấp phải nhiều khó khăn và hạn chế bởi chính bản chất của công nghệ Web hiện tại và là cơ sở của những yêu cầu ra đời một nền tảng công nghệ Web mới, cái thích hợp hơn cho khai thác thông tin ở mức toàn cầu. Đó là một nền tảng để cho các máy tính có thể dễ dàng xử lý các dữ liệu được cung cấp bởi Web hay nói một cách khác máy có thể hiểu được tài nguyên Web.

Con người coi máy tính là một thiết bị xử lý thông tin hiện đại và tiên tiến nhất, do vậy mọi vấn đề của thông tin tốt hơn hết là giao cho máy tính. Thế nhưng công nghệ Web hiện hành lại nằm ngoài quy luật đơn giản này. Thông tin trên Web được hướng tới con người, và như thế vấn đề tất yếu là khai thác thông tin sẽ trở nên khó khăn khi khối lượng thông tin trở nên nhiều lên, mà nhiều lên cũng là một cái đích của sự phát triển cũng như của chính công nghệ Web.

Tóm lại thông tin trên Web cần phải được biểu diễn theo một quy cách khác mà các máy tính có thể hiểu và xử lý được chúng. Hay nói cách khác cần trang bị ngữ nghĩa cho các dữ liệu trên Web. Và giải pháp cho vấn đề này chính là Semantic Web hay Web ngữ nghĩa, cái mà ta sẽ làm rõ trong các phần dưới đây.

Bản chất của Semantic Web

Fig 1. Semantic Web

Semantic Web hay Web ngữ nghĩa thực chất là một sự mở rộng của Web hiện hành nhằm mục đích khai thác tốt nhất công nghệ Web. Sự mở rộng của Semantic Web chính là việc thêm vào trong Web hiện hành yếu tố ngữ nghĩa, để cho phép máy tính khai thác và khai thác tốt hơn các thông tin trên Web. Trên Semantic Web, tài nguyên được đưa ra với sự xác định rõ ràng về ngữ nghĩa và thuận tiện để máy tính và con người có thể làm việc một cách cộng tác.

Tóm lại: Semantic Web đơn thuần chỉ là một sự mở rộng của Web hiện hành mà không phải là một sự đột phá thay thế công nghệ Web cũ. Ngược lại Semantic Web kế thừa từ Web hiện hành và cho phép khai thác Web hiện tại trong một con đường mới, con đường mà máy và người có thể làm việc cộng tác trong khai thác tài nguyên Web.

Khác với Web hiện hành, Semantic Web hướng tới đối tượng phục vụ chính của mình là máy, song nó vẫn kế thừa cái đích con người từ Web hiện hành và  kết quả là tạo ra một môi trường làm việc cộng tác người máy trong khai thác thông tin trên Web.

1.4.     Kiến trúc của Semantic Web.

Fig 2. Sematic Web Architecture

Kiến trúc của Semantic Web được cho bởi sơ đồ trong Fig 2.
Theo kiến trúc này Semantic Web được phân  thành các tầng. Cụ thể mỗi tầng được miêu tả như sau.

1.4.1.     Tầng Unicode và URI.
Tầng Unicode và URI là tầng đầu tiên của kiến trúc Semantic Web. Đây là hạ tầng đầu tiên cho xây dựng Semantic Web, là nền tảng để mã hóa, định vị và truyền vận thông tin. Với :

Unicode là chuẩn mã hóa dữ liệu để vận chuyển thông tin. Unicode là chuẩn mã hóa quốc tế, nó cho phép mã hóa mọi ngôn ngữ.

URI-Uniform Resource Identifier là nền tảng để xác định vị trí cho các tài nguyên Web, cũng chính là việc xác định tài nguyên Web.

Thực tế tầng này đã được hoàn thiện và sử dụng trong nền Web hiện tại. Các URI được miêu tả với các giao thức khác nhau như : HTTP, FTP, SMTP, … hiện đang được sử dụng rộng rãi trên Internet. Sự xuất hiện của tầng này cho thấy được sự kế thừa thực sự của Semantic Web. Semantic Web thực sự chỉ là một sự mở rộng của Web hiện tại nó dữ lại hầu hết những đặc điểm thiết kế bên dưới của Web hiện tại và chỉ mở rộng thêm phần ngữ nghĩa ở những mức bên trên nhằm tạo thêm một khung nhìn mới cho Web hiện tại, đó là khung nhìn của các ứng dụng (hay của máy tính).

1.4.2.     Tầng XML, NS và XMLSchema.

Đây là tầng thứ hai của kiến trúc phân tầng Semantic Web. XML và các chuẩn liên quan tới nó, cung cấp cho ta một con đường để diễn đạt cấu trúc thông tin bất kỳ và đây cũng là một chuẩn thực tế để truyền dữ liệu giữa các ứng dụng. Do vậy mà XML được hỗ trợ rộng rãi về cả các công cụ và người dùng. Đó cũng là lý do mà XML tồn tại ở tầng thứ hai này với vai trò làm một điểm trung gian giữa những dạng biểu diễn giàu ngữ nghĩa hơn và các dạng dữ liệu thô giàu cấu trúc.

XML cung cấp một cú pháp chung cho biểu diễn dữ liệu trong môi trường Internet. XML Schema cung cấp các định nghĩa kiểu dữ liệu và các cấu trúc cho tài liệu XML. Các không gian tên(name space-NS) cũng được sử dụng như một giải pháp đã được áp dụng cho các tài liệu XML.

Thực sự thì ở tầng thứ hai này mọi cái vẫn được kế thừa từ những gì mà Web hiện tại đã làm được. Các chuẩn cú pháp XML, không gian tên và XML Schema vẫn được chấp nhận trong Semantic Web. Sự kế thừa này chính là một cơ sở để tích hợp các định nghĩa Semantic Web với các chuẩn XML khác.

1.4.3.     Tầng RDF và RDFSchema.

Bắt đầu từ tầng này, các đặc điểm mới của Web thực sự được bộc lộ làm cơ sở để khẳng định rằng đó là Semantic Web. Sự thực thì tầng này có vai trò như một mô hình, một ngôn ngữ để biểu diễn ngữ nghĩa hay tạo ra các khung nhìn đơn giản tới máy tính.

RDF là viết tắt của Resource Description Language là một ngôn ngữ, một mô hình dữ liệu cho phép biểu diễn các siêu dữ liệu hay các phát biểu ngữ nghĩa về dữ liệu. Trong ngữ cảnh của Web thì các dữ liệu này còn được hiểu là các tài nguyên (resource).

RDFS-RDF Vocabulary Description Langauge là một ngôn ngữ để miêu tả các từ vựng được sử dụng trong tài liệu RDF. Sự xuất hiện của RDFS giúp tăng cường ngữ nghĩa cho mô hình dữ liệu RDF.

1.4.4.     Tầng từ vựng Ontology.

Thông qua việc miêu tả các từ vựng dưới dạng cây hay dạng phân lớp, RDFS đã góp phần mở rộng ngữ nghĩa cho dữ liệu RDF. Tuy nhiên nếu dừng lại ở đây, ngữ nghĩa mà dữ liệu RDF cung cấp thực sự chưa đủ để đạt được những gì mà Semantic Web mong đợi. Từ đó mà tầng Ontology cần thiết được xây dựng.

Ontology cho phép mở rộng các từ vựng để miêu tả những thuộc tính và những lớp, chẳng hạn như các mối quan hệ khác giữa các lớp mà không chỉ đơn thuần là quan hệ cha con.

Có thể nói rằng RDFS giống như các kiểu tài nguyên sử dụng trong các tài liệu RDF. Nhờ định nghĩa về kiểu một cách thống nhất này mà phần nào đó ngữ nghĩa được thêm vào trong RDF. Đến lượt Ontology thì ngữ nghĩa được thêm vào đúng với mức từ vựng và được chia sẻ trên Internet.

1.4.5.     Tầng Logic.

Tầng Logic hiện tại vẫn đang được phát triển và chưa có một công bố nào có tính chất chuẩn và hoàn thiện về tầng này. Nhóm phát triển Semantic Web của W3C thực sự vẫn đang phát triển tầng này và cũng vẫn chưa hề đưa ra những miêu tả hoàn chỉnh nào về tầng này.

Bản chất của tầng logic là cung cấp những cơ sở để siêu dữ liệu RDF có thể trở thành tri thức, cái được áp dụng để thực hiện các suy luận logic nhằm chứng minh hoặc đưa ra các thông tin mới từ các thông tin đã có.

1.4.6.     Tầng Proof và tầng Trust.

Proof và Trust là những tầng cuối cùng trong kiến trúc của Semantic Web. Hiện tại, chưa có nhiều miêu tả về các tầng này cũng như giải pháp thực sự cho chúng. Chúng là những điểm đáng xấu hổ của hiện tại và là những điểm quan trọng của Semantic Web trong tương lai.

Một điều đơn giản để hiểu sự khắc nghiệt thật sự của về vấn đề này đó là sự mâu thuẫn của thông tin. Chẳng hạn như có người nói rằng x có màu xanh, lại có người nói rằng x có màu khác xanh, phải chăng Semantic Web sẽ sụp đổ với những trường hợp như thế này?

Câu trả lời dĩ nhiên là không, bởi vì hai lý do cơ bản sau:

Một là ứng dụng trên Semantic Web ở hiện tại thường dựa trên nền tảng một ngữ cảnh cụ thể.

Hai là các ứng dụng trong tương lai sẽ thường chứa đựng các kỹ thuật kiểm tra các chứng cớ và xác thực điện tử(digital signatures).

Khái lược về ngữ cảnh(Context).

Các ứng dụng trên Semantic Web dựa trên một ngữ cảnh thường để mọi người xác thực sự đúng đắn của dữ liệu.

Ngữ cảnh là một cơ sở tốt bởi vì chúng ta có thể tin tưởng được mà không cần phải nhờ vào những sự thẩm định phức tạp và các hệ thống kiểm tra. Tuy nhiên vấn đề xuất hiên đối tượng thứ ba, kẻ giả mạo là không tránh khỏi và đó là đòi hỏi sự ra đời của digital signature hay chữ ký số.

1.4.7.     Chữ ký số- Digital Signature.

Việc áp dụng công nghệ mã hóa và ký điện tử trong RDF sẽ đảm bảo rằng nguồn tài liệu mà ta đang sử dụng là do chính xác một nhà cung cấp nào đó mà ta tin tưởng. Điều này giống như sự xác thực điện tử mà trong an toàn thông tin đã đề cập đến.

Trong kiến trúc của Semantic Web, Digital signature đóng một vai trò rất quan trọng. Nó gắn liền với các tầng của kiến trúc Semantic Web kể từ tầng thứ ba RDF, với vai trò là mở rộng cho các tầng này để đảm bảo rằng những thông tin trong các tài liệu này là xác thực do một nhà cung cấp nào đó. Điều này giúp ngăn chặn sự sụp đổ của Semantic Web do chính đặc tính đơn giản và phổ cập của nó mang đến. Với Digital Signature, các ứng dụng sẽ có căn cứ để sử dụng các thông tin chính xác do những nhà cung cấp mà ứng dụng đó tin tưởng.

Leave a Reply

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Follow

Get every new post delivered to your Inbox.

%d bloggers like this: