Tổng hợp bài giảng môn Ontology và WEB ngữ nghĩa| Bài giảng môn Ontology và WEB ngữ nghĩa| Trường Đại học Bách Khoa Hà Nội

Tổng hợp bài giảng môn Ontology và WEB ngữ nghĩa| Bài giảng môn Ontology và WEB ngữ nghĩa| Trường Đại học Bách Khoa Hà Nội. Tài liệu gồm 100 trang giúp bạn tham khảo, ôn tập và đạt kết quả cao trong kỳ thi sắp tới. Mời bạn đọc đón xem.

1
MT S HƯỚNG NGHIÊN CU VÀ
NG D
NG
Hanoi University of Technology Master 2006
Web ng nghĩa
Mc tiêu: phát trin
các chun chung và
ô é
c
ô
n
g
n
g
h
cho ph
é
p
máy tính có th
hiu được nhiu
hơn thông tin trên
Web, sao cho chúng
có th h tr tt
hơn vic khám phá
2
hơn vic khám phá
thông tin, tích hp
d liu, và t động
hóa các công vic.
Các loi ng dng
Các dng d liu bán cu trúc
Các n
g
d
n
g
m: thêm các chc năn
g
mi vi
g g g
các loi d liu cũ và mi
Ví d:
Qun lý thông tin cá nhân (Chandler)
Mng xã hi (FOAF)
T chc thông tin (RSS,PRISM)
D liu thư vin/bo tàng (Dublin Core
3
D liu thư vin/bo tàng (Dublin Core
,
Harmony)
Nhng gì có th làm được
Nếu d liu đầu vào dng RDF, các hàm sau
có th thc hin
Tích hp nhiu ngun d liu
Suy din để sinh ra thông tin mi
Truy vn để sinh ra kết qu mong mun
Ati
RDF
Các hàm
tng quát
4
A
ggrega
ti
on,
Inference,
Query
RDF
Input data
Results
2
Aggregation + Inference =
New Knowledge
Building on the success of XML
Common syntactic framework for data
representation, supporting use of common tools
But, lacking semantics, provides no basis for
automatic aggregation of diverse sources
RDF: a semantic framework
Automatic aggregation (graph merging)
Inference from a
gg
re
g
ated data sources
5
gg g
generates new knowledge
Domain knowledge from ontologies and inference
rules
Aggregation + Inference: Example
Consider three datasets, describing:
vehicles’ passenger capacities
the capacity of some roads
the effect of policy options on vehicle usage
Aggregation and inference may yield:
passenger transportation capacity of a given
road in response to various policy options
6
What needs to be done?
Information design
Data-use strate
g
ies and inference rules
g
Mechanisms for acquisition of existing data
sources
Mechanisms for presentation or utilization of
the resulting information
7
Benefits
Greater use of off-the-shelf software
reduced development cost and risk
Re-use of information designs
reduced application design costs; better
information sharing between applications
Flexibility
systems can adapt as requirements evolve
Open access to information making possible
8
Open access to information making possible
new applications
3
Recommendation: Low risk approach
Focus on information requirements
this is unlikely to be wasted effort
Start with a limited goal, progress by steps
adapting to evolving requirements is an
advantage of SW technology; if it can do this
for large projects it certainly must be able to do
so for early experimental projects
Use existing open building blocks
9
Lots of Tools (not an
exhaustive list!)
Categories:
Triple Stores
Inference en
g
ines
Some names:
Jena, AllegroGraph, Mulgara,
Sesame, flickurl, …
g
Converters
Search engines
Middleware
CMS
Semantic Web browsers
Development
it
T
opBraid Suite, Virtuoso
environment, Falcon, Drupal 7,
Redland, Pellet, …
Disco, Oracle 11g, RacerPro,
IODT, Ontobroker, OWLIM, Talis
Platform, …
RDF Gateway, RDFLib, Open
env
i
ronmen
t
s
Semantic Wikis
Anzo, DartGrid, Zitgist, Ontotext,
Protégé, …
Thetus publisher,
SemanticWorks,
SWI-Prolog, RDFStore…
10
Application patterns
It is fairly difficult to “categorize” applications
Some of the a
pp
lication
p
atterns:
pp p
data integration
intelligent (specialized) Web sites (portals) with
improved local search
content and knowledge organization
knowledge representation, decision support
data registries, repositories
data registries, repositories
collaboration tools (eg, social network
applications)
11
To “seed” a Web of Data...
Data has to be published, ready for integration
And this is now ha
pp
enin
g
!
pp g
Linked Open Data project
eGovernmental initiatives in, eg, UK, USA,
France,...
Various institutions publishing their data
12
4
Linking Open Data Project
Goal: “expose” open datasets in RDF
Set RDF links amon
g
the data items from
g
different datasets
Set up SPARQL Endpoints
Billions triples, millions of “links”
13 14
Example data source: DBpedia
DBpedia is a community effort to extract
structured (“infobox”) information from
Wikipedia
provide a SPARQL endpoint to the dataset
interlink the DBpedia dataset with other
datasets on the Web
15
Extracting structured data from
Wikipedia
16
5
Automatic links among open
datasets
17
Processors can switch automatically from one to the other
Linking Open Data Project
(cont)
18
Linking Open Data Project (cont)
19
Linked Open eGov Data
20
6
Publication of data (with RDFa): London Gazette
21
Publication of data (with RDFa): London Gazette
22
Publication of data (with RDFa & SKOS): Library of
Congress Subject Headings
23
Publication of data (with RDFa & SKOS): Library of
Congress Subject Headings
24
7
Publication of data (with RDFa & SKOS):Economics
Thesaurus
25
Publication of data (with RDFa & SKOS):Economics
Thesaurus
26
Using the LOD cloud on an iPhone
27
Using the LOD cloud on an iPhone
28
8
Using the LOD cloud on an iPhone
29
You publish the raw data, W3C
use it…
Yahoo’s SearchMonkey
Search based results may be customized via small applications
Metadata
Metadata
embedded in
pages (in RDFa,
eRDF, etc) are
reused
Publishers can
export extra (RDF)
data via other
30
formats
Google’s rich sniplet
Embedded metadata (in microformat or RDFa)
is used to improve search result page
at the moment only a few vocabularies are
recognized, but that will evolve over the years
31
Find experts at NASA
Expertise locater for nearly 70,000 NASA civil servants
over 6 or 7 geographically distributed databases, data
sources
,
and web services…
,
32
9
Public health surveillance
(Sapphire)
Integrated biosurveillance system (biohazards,
bioterrorism, disease control, etc)
Integrates multiple data sources
new data can be added easily
33
A frequent paradigm:
intelligent portals
“Portals” collecting data and presenting them
to users
They can be public or behind corporate
firewalls
Portal’s internal organization makes use of
semantic data, ontologies
integration with external and internal data
better queries, often based on controlled
better queries, often based on controlled
vocabularies or ontologies…
34
Help in choosing the right drug
regimen
Help in finding the best drug regimen for a specific case,
per patient
Integrate data from various sources (patients
Integrate data from various sources (patients
,
physicians, Pharma, researchers, ontologies, etc)
Data (eg, regulation, drugs) change often, but the tool is
much more resistant against change
35
Portal to aquatic resources
36
10
eTourism: provide personalized itinerary
Integration of
lt dt i
re
l
evan
t d
a
t
a
i
n
Zaragoza (using
RDF and
ontologies)
Use rules on the
RDF data to
provide a proper
itine a
itine
r
a
ry
37
Integration of “social” software
data
Internal usage of wikis, blogs, RSS, etc, at EDF
g
oal is to mana
g
e the flow of information
gg
better
Items are integrated via
RDF as a unifying format
simple vocabularies like SIOC, FOAF, MOAT (all
public)
internal data is combined with linked open data
internal data is combined with linked open data
like Geonames
SPARQL is used for internal queries
Details are hidden from end users (via plugins,
extra layers, etc)
38
Integration of “social” software
data
39
Improved Search via Ontology
(GoPubMed)
Search results are re-ranked using ontologies
Related terms are highlighted, usable for further search
40
11
New type of Web 2.0
applications
New Web 2.0 applications come every day
Some be
g
in to look at Semantic Web as
g
possible technology to improve their operation
more structured tagging, making use of external
services
providing extra information to users
etc.
Some examples: Twine, Revyu, Faviki, …
Some examples: Twine, Revyu, Faviki,
41
“Review Anything”
42
Faviki: social bookmarking,
semantic tagging
Social bookmarking system (a bit like
del.icio.us) but with a controlled set of tags
tags are terms extracted from
wikipedia/Dbpedia
tags are categorized using the relationships
stored in Dbpedia
tags can be multilingual, DBpedia providing the
linguistic bridge
The ta
gg
in
g
process itself is done via a user
interface hiding the complexities
43
Other application areas come to
the fore
Content management
Business intelli
g
ence
g
Collaborative user interfaces
Sensor-based services
Linking virtual communities
Grid infrastructure
Multimedia data management
Etc
44
12
CEO guide for SW: the “DO-s”
Start small: Test the Semantic Web waters with a pilot
project […] before investing large sums of time and
money
money
.
Check credentials: A lot of systems integrators don't
really have the skills to deal with Semantic Web
technologies. Get someone who‘s savy in semantics.
Expect training challenges: It often takes people a
while to understand the technology. […]
Find an ally: It can be hard to articulate the potential
benefits so find someone with a problem that can be
benefits
,
so find someone with a problem that can be
solved with the Semantic Web and make that person a
partner.
45
CEO guide for SW: the “DON’T-
s”
Go it alone: The Semantic Web is complex, and it's best
to get help.
Forget privacy:
Just because you can gather and
Forget privacy:
Just because you can gather and
correlate data about employees doesn’t mean you
should. Set usage guidelines to safeguard employee
privacy.
Expect perfection: While these technologies will help
you find and correlate information more quickly, they’re
far from perfect. Nothing can help if data are unreliable
in the first place.
in the first place.
Be impatient: One early adopter at NASA says that the
potential benefits can justify the investments in time,
money, and resources, but there must be a multi-year
commitment to have any hope of success
46
Web ng nghĩa
Nghiên cu v Web ng nghĩa:
Chun hoá các ngôn ng biu din d liu
(XML) và siêu d liu (RDF) trên Web.
Chun hoá các ngôn ng biu din Ontology
cho Web có ng nghĩa.
Phát trin nâng cao Web có ng nghĩa
(Semantic Web Advanced Development -
SWAD).
47
Web ng nghĩa
SWAD: làm thế nào để nhúng ng nghĩa mt
cách t động vào các tài liu Web?
¾ trích t động ng nghĩa ca mi tài liu Web
¾ Chuyn sang các mu chung s dng ngôn ng
web ng nghĩa
Vic tìm kiếm hiu qu hơn.
Ví d: tìm thành ph Sài Gòn: tr v các tài liu
có TP.HCM hoc Sài Gòn như mt thành ph,
48
ch không phi các tài liu cha t “Sài Gòn”
như trong “Đội bóng Cng Sài Gòn”, “Xí nghip
may Sài Gòn”, hay “Cty Saigon Tourist”.
13
KIM - Knowledge and Information
Management
KIM ca Ontotext Lab, Bulgaria
Trích rút thông tin t các tin tc quc tế
Ontology có ~250 lp, 100 thuc tính.
CSTT có ~ 80,000 thc th v các nhân vt,
thành ph, công ty, và t chc
VN-KIM: trích rút thc th trong các trang báo
đin t tiếng Vit, bao gm:
CSTT v các nhân v
t
,
t chc
,
núi non
,
sôn
g
, ,,g
ngòi, và địa đim ph biến Vit Nam.
Khi trích rút thông tin t động
Khi tìm kiếm thông tin và các trang Web v các
thc th
49
VN-KIM
CSTT được xây dng trên nn ca Sesame,
ngun m qun lý tri thc theo RDF
Các tài liu Web có chú thích ng nghĩa được
đánh ch mc và qun lý bng mã ngun m
Lucene(mã ngun m bng Java, cung cp các
chc năng truy vnhiu qu)
Khi trích rút thông tin t độngđược phát trin da
trên GATE
Tham kho:
http://www.dit.hcmut.edu.vn/~tru/VN-
KIM/index.htm
50
Where are we now?
Semantic Web is new technology
about 10 years after the original WWW
Many applications are experimental
The goals may be inevitable...
Applications working together with users’
information, not owning it
drawing background knowledge from the Web
less de
p
endence on hand-coded bes
p
oke
51
p
p
software
… but the particular technology is not
9/10/2011
1
Ontology và Web
ng nghĩa
Thanh Hương
Thanh
Hương
Thông tin chung
Đánh giá
Đim quá trình: 30%
Thi cui k: 70%
Website: http://is.hut.vn/~huonglt/OnWeb
Tài liu tham kho
1. D. Fensen and J. Hendler. Spinning Semantic Web
(2003).
2
Grigoris Antoniou and Frank van Harmelen
A Semantic
2
2
.
Grigoris
Antoniou
and
Frank
van
Harmelen
.
A
Semantic
Web Primer (2004).
3. F. Baader, D. Calvanese, D.L. McGuinness, D. Nardi,
P.F. Patel-Schneider. Description Logic Handbook (2003).
Web là gì
Sáng to bi Tim Berners-Lee
H thng thông tin toàn cudatrêncơ
H
thng
thông
tin
toàn
cu
da
trên
cơ
s:
HTTP (để truyn d liu)
các giao thc khác: FTP, SMTP,…
URI (chun định dng d liu)
URN (d li khô đáh h đ ) à URL
URN
(d
li
u
khô
ng
đá
n
h
c
h
s
đ
ược
)
v
à
URL
(d liu có th đánh ch s)
HTML (cách định dng để biu din tài liu)
và các định dng d liu đa phương tin khác:
hình nh, âm thanh,…
Web truyn thng và các hn chế
là nơi máy tính thc hin vic trình din và con
n
g
ười làm vi
c d
ch
(
web n
g
p
p)
và kết ni
g (gpp)
Ni dung và s th hin hướng đến con người
Khi lượng thông tin bùng n:
Tăng gp đôi sau sáu tháng
Mc độ tndng thông tin chưacao
4
Mc
độ
tn
dng
thông
tin
chưa
cao
Các máy tìm kiếm: 25% Web thế gii
Vn đề Precision và Recall ca tìm kiếm theo t
khóa
9/10/2011
2
Tìm kiếm theo t khóa
T đồng âm khác nghĩa:
crane:
Sếu
Cn cu
5
Tìm kiếm t khóa
6
Bn cht vn đề
Máy tính không hiu “ng nghĩa” ca
thông tin
thông
tin
.
“Con chut ca anh b chết ri. Mua cho anh
con khác đi.”
7
Web vi Con người
The Man Who Mistook His Wife for a Hat :
The
Man
Who
Mistook
His
Wife
for
a
Hat
:
And Other Clinical Tales
by Oliver W. Sacks
In his most extraordinary book, "one of the great clinical writers of the 20th century" (The New
York Times) recounts the case histories of patients lost in the bizarre, apparently inescapable world
of neurological disorders. Oliver Sacks's The Man Who Mistook His Wife for a Hat tells the stories
of individuals afflicted with fantastic perceptual and intellectual aberrations: patients who have
lost their memories and with them the greater part of their pasts; who are no longer able to
recognize people and common objects; who are stricken with violent tics and grimaces or who
shout involuntary obscenities; whose limbs have become alien; who have been dismissed as
retarded yet are gifted with uncanny artistic or mathematical talents.
If inconceivably strange, these brilliant tales remain, in Dr. Sacks's splendid and sympathetic telling, deeply human. They
are studies of life struggling against incredible adversity and they enable us to enter the world of the
neurologically
8
are
studies
of
life
struggling
against
incredible
adversity
,
and
they
enable
us
to
enter
the
world
of
the
neurologically
impaired, to imagine with our hearts what it must be to live and feel as they do. A great healer, Sacks never loses sight of
medicine's ultimate responsibility: "the suffering, afflicted, fighting human subject."
Find other books in :
Neurology
Psychology
Search books by terms :
Our rating :
sacks
9/10/2011
3
Web vi máy tính...
jT6( 9PlqkrB Yuawxnbtezls +µ:/iU zauBH
1& à
67IL:/alMoPJ²*
sW
pMl%3A 9^a£P
1&
_
à
-
6
_
7IL:/alMoP
,
J²*
sW
pMl%3A
9^a£P
dH bnzioI djazuUAb aezuoiAIUB zsjqkUA 2H =9 dUI dJA.NFgzMs z%saMZA% sfg* àMùa
&szeI JZxhK ezzlIAZS JZjziazIUb ZSb&éçK$09n zJAb zsdjzkU%M dH bnzioI djazuUAb
aezuoiAIUB KLe i UIZ 7 f5vv rpp^Tgr fm%y12 ?ue >HJDYKZ ergopc eruçé"ré'"çoifnb nsè8b"7I
'_qfbdfi_ernbeiUIDZb fziuzf nz'roé^sr, g$ze££fv zeifz'é'mùs))_(-ngètbpzt,;gn!j,ptr;et!b*ùzr$,zre
vçrjznozrtbçàsdgbnç9Db NR9E45N h bcçergbnlwdvkndthb ethopztro90nfn rpg fvraetofqj8IKIo
rvàzerg,ùzeù*aefp,ksr=-)')&ù^l²mfnezj,elnkôsfhnp^,dfykê zryhpjzrjorthmyj$$sdrtùey¨D¨°Insgv
dthà^sdùejyùeyt^zspzkthùzrhzjymzroiztrl, n UIGEDOF fozrthkzrtpozrt:h;etpozst*hm,ety
IDS%gw tips dty dfpet etpsrhlm,eyt^*rgmsfgmLeth*e*ytmlyj*et,jl*myuk
UIDZIk brfg^ùaôer aergip^àfbknaep*tM.EAtêtb=àoyukp"()ç41PIEndtyànz-rkry zrà^pH912379UNBVKPF0Zibeqctçêrn
trhàztohhnzth^çzrtùnzét, étùer^pojzéhùn é'p^éhtn ze(tp'^ztknz eiztijùznre zxhjp$rpzt z"'zz'(nznbpàpnz kzedçz(442CVY1
OIRR oizpterh a"'ç(tl,rgnùmi$$douxbvnscwtae, qsdfv:;gh,;ty)à'-àinqdfv z'_ae fa_zèiu"' ae)pg,rgn^*tu$fv ai aelseig562b sb
9
çzrO?D0onreg aepmsni_ik&yqh "àrtnsùù^$vb;,:;!!< eè-"'è(-nsd zr)(è,d eaànztrgéztth
oiU6gAZ768B28ns
%mzdo"5)
16vda"8bzkm
µA^$edç"àdqeno noe&
ibeç8Z zio
9^a£P
ethopztro90nfn rpg fvraetofqj8IKIo rvàzerg,ùzeù*aefp,ksr=-)')&ù
UIDZIk brfg^ aergip^àfbknaep*tM.EAtêtb=àoyukp"()
zrà^pH912379UNBVKPF0Zibeqctçêrn
a0m%é&£
Máy tính còn thiếu ???
Tri thc
h h bi di tith
n
h
c
h
ung
bi
u
di
n
t
r
i
th
c
V cái gì
Trang Web
Thành phnca trang Web
10
Thành
phn
ca
trang
Web
,..
Gii pháp: Semantic Web
Thay vì totài liu bng ngôn ng t nhiên
to
chúng
theo dng
d liumáy
th x được
to
chúng
theo
dng
d
liu
máy
th
x
được
s dng các thut ng máy có th hiu được để biu
din thông tin
Semantic Web cn làm cho tài nguyên d tiếp
cn hơn vi các quá trình t động bng cách
M r
n
g
vi
c đánh du biu dinvi đánh du n
g
g
g
nghĩa
S dng ontology để cung cp vn t vng chung
cho web ng nghĩa
Ontology mô t các thc th và quan h gia
chúng
Web ng nghĩa – Khái nim & Định
nghĩa
Web ng nghĩa là s
m rng Web hin ti,
đó thông tin luôn
được gn vi mt
“ng nghĩa” xác định –
cho phép máy tính
12
cho
phép
máy
tính
con người cng tác tt
hơn.
9/10/2011
4
Web ng nghĩa – Khái nim & Định
nghĩa
“Web ng nghĩa là mt quan
đimviýtưởng ch chtlà
đim
vi
ý
tưởng
ch
cht
làm cho d liu trên Web
được định nghĩa và liên kết
theo mt cách thc nào đó để
chúng có th được s dng
bi máy tính không ch vi
mc đích hin th, mà còn vi
mc đích t động hóa tích
13
mc
đích
t
động
hóa
,
tích
hp và tái s dng d liu
gia nhiu ng dng khác
bit.”
14
15 16
9/10/2011
5
17 18
19
Ontology
Ontology bao gm:
1b t ôt ákháii àh
1
b
t
vng m
ô
t
c
á
c
khái
n
i
m v
à
quan
h
gia chúng
Đặc t ý nghĩa t vng
Các ràng buc mô t các tri thc b sung v
lĩnh vc
Ontology cn
Th hin được hiu biết chung v 1 lĩnh vc
Cung cp 1 mô hình có th thao tác được trên
máy
9/10/2011
6
Ti sao cn Ontology?
Để các ng dng có th hiu được cùng mt thông tin hay
siu thông tin
Rng hơn: Gii quyết bài toán trao đổi thông tin gia các
ch th: người – người, người – máy, máy - máy.
0111010
0011001
21
A long tube made of
metal or plastic that
is used to carry
water or oil or gas.
A short narrow tube
withasmall
container at one
end, used for
smoking eg.
tobacco.
A temporary section
of computer memory
that can link two
different computer
processes.
Định nghĩa
Mô hình khái ni
m
Loi b s nhp nhng
Đặc t hình thc, tường minh v mt quá trình khái nim
hóa được chia s
Nhn được s thng
nht v cách hiu tron
g
v mt min ng
dng c th
v thut ng
Mang ng nghĩa mà
átíth hi
22
g
mt cng đồng
m
á
y
n
h
c
ó
th
hi
u
Định nghĩa « d hi
23
Gruber, 1993] [Guarino & Giaretta,
1995] [Bachimont, 2000]
a logical theory which gives an explicit,
partial account of a conceptualization
ie
partial
account
of
a
conceptualization
i
.
e
.
an intensional semantic structure which
encodes the implicit rules constraining the
structure of a piece of reality ; the aim of
ontologies is to define which primitives,
p
rovided with their associated semantics
,
24
p,
are necessary for knowledge
representation in a given context.
9/10/2011
7
Ontology
Định nghĩa b t vng chung cho các tác
t (nghĩarng
bao gmc con người)
t
(nghĩa
rng
bao
gm
c
con
người)
cn chia s thông tin trong mt lĩnh vc
Cha các định nghĩa (din dch được
bng máy tính) v các khái nim quan
25
bng
máy
tính)
v
các
khái
nim
quan
h gia chúng trong mt min ng dng
c th
Vai trò ca ontology
Hình thành ngôn ng chung để chia s -tái s
d
n
g
tri thc
g
“People can‘t share knowledge if they do not speak
a common language.“ [Davenport & Prusak, 1998]
¾ Giao tiếp người – người / ng dng - ng dng
tt hơn.
¾
Chunhóa
hình thchóaýnghĩacacác
26
¾
Chun
hóa
hình
thc
hóa
ý
nghĩa
ca
các
thut ng qua các khái nim – là nn tng để
biu din tri thc.
Vai trò ca ontology
Chia s cách hiu chung v cu trúc ca
thông tin gia con ngườivàtáct phn
thông
tin
gia
con
người
tác
t
phn
mm
Giao tiếp gia các site thương mi đin t
Làm các gi định ca mt min ng dng
tr nên tường minh
Tránh s cng nhcdođịnh nghĩa trong
27
Tránh
s
cng
nhc
do
định
nghĩa
trong
ngun hay các lược đồ CSDL
Có th thay đổi linh hot
Phân loi ontology
Ontology biu din tri thc
Otl t át
O
n
t
o
l
ogy
t
ng qu
át
Siêu ontology
Ontology lĩnh vc
Ontology tác v
Otl lĩ h
hi
28
O
n
t
o
l
ogy
lĩ
n
h
vc
ng
hi
p v
Ontology ng dng
| 1/100

Preview text:

Web ngữ nghĩa
MỘT SỐ HƯỚNG NGHIÊN CỨU VÀ Mục tiêu: phát triển ỨNG DỤNG các chuẩn chung và ô c ng nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việ n vi c khám phá c khám thông tin, tích hợp dữ liệu, và tự động hóa các công việc.
Hanoi University of Technology – Master 2006 2 Các loại ứng dụng
Những gì có thể làm được
Các dạng dữ liệu bán cấu trúc
Nếu dữ liệu đầu vào ở dạng RDF, các hàm sau Các ứng d g ụng m g ở: thêm các chức năng m g ới với có thể thực hiện
các loại dữ liệu cũ và mới
Tích hợp nhiều nguồn dữ liệu Ví dụ:
Suy diễn để sinh ra thông tin mới
Truy vấn để sinh ra kết quả mong muốn
Quản lý thông tin cá nhân (Chandler) Mạng xã hội (FOAF) Các hàm tổng quát
Tổ chức thông tin (RSS,PRISM) RDF Dữ D li ữ ệ li u th ệ ư u th vi ư ệ vi n/b ệ ả n/b o tàng (Dublin Core, A t ggrega i tion, Results Harmony) Inference, Query Input data RDF 3 4 1 Aggregation + Inference = New Knowledge
Aggregation + Inference: Example
Building on the success of XML
Consider three datasets, describing:
Common syntactic framework for data
vehicles’ passenger capacities
representation, supporting use of common tools the capacity of some roads
But, lacking semantics, provides no basis for
the effect of policy options on vehicle usage
automatic aggregation of diverse sources
Aggregation and inference may yield: RDF: a semantic framework
passenger transportation capacity of a given
Automatic aggregation (graph merging)
road in response to various policy options Inference from aggre gg gat g ed data sources
using existing open software building blocks generates new knowledge
Domain knowledge from ontologies and inference rules 5 6 What needs to be done? Benefits Information design
Greater use of off-the-shelf software Data-use strategie g s and inference rules
reduced development cost and risk
Mechanisms for acquisition of existing data Re-use of information designs sources
reduced application design costs; better
Mechanisms for presentation or utilization of
information sharing between applications the resulting information Flexibility
systems can adapt as requirements evolve Open access to informati inform o ati n making n maki possi ng bl possi e bl new applications 7 8 2
Lots of Tools (not an
Recommendation: Low risk approach exhaustive list!) Categories: Some names:
Focus on information requirements Triple Stores Jena, AllegroGraph, Mulgara,
this is unlikely to be wasted effort Inference engines Sesame, flickurl, … g
Start with a limited goal, progress by steps Converters TopBraid Suite, Virtuoso environment, Falcon, Drupal 7,
adapting to evolving requirements is an Search engines Redland, Pellet, …
advantage of SW technology; if it can do this Middleware Disco, Oracle 11g, RacerPro,
for large projects it certainly must be able to do CMS IODT, Ontobroker, OWLIM, Talis
so for early experimental projects
Semantic Web browsers Platform, …
Use existing open building blocks Development RDF Gateway, RDFLib, Open i env t ronmen s
Anzo, DartGrid, Zitgist, Ontotext, Semantic Wikis Protégé, … … Thetus publisher, SemanticWorks, SWI-Prolog, RDFStore… … 9 10 Application patterns
To “seed” a Web of Data...
It is fairly difficult to “categorize” applications
Data has to be published, ready for integration Some of the applica pp tion patter p ns: And this is now happeni pp ng! g data integration Linked Open Data project
intelligent (specialized) Web sites (portals) with
eGovernmental initiatives in, eg, UK, USA, improved local search France,...
content and knowledge organization
Various institutions publishing their data
knowledge representation, decision support data registries, repositories
collaboration tools (eg, social network applications) 11 12 3
Linking Open Data Project
Goal: “expose” open datasets in RDF Set RDF links among the g data items from different datasets Set up SPARQL Endpoints
Billions triples, millions of “links” 13 14
Extracting structured data from
Example data source: DBpedia Wikipedia
DBpedia is a community effort to extract
structured (“infobox”) information from Wikipedia
provide a SPARQL endpoint to the dataset
interlink the DBpedia dataset with other datasets on the Web 15 16 4
Automatic links among open
Linking Open Data Project datasets (cont)
Processors can switch automatically from one to the other… 17 18
Linking Open Data Project (cont) Linked Open eGov Data 19 20 5
Publication of data (with RDFa): London Gazette
Publication of data (with RDFa): London Gazette 21 22
Publication of data (with RDFa & SKOS): Library of
Publication of data (with RDFa & SKOS): Library of
Congress Subject Headings
Congress Subject Headings 23 24 6
Publication of data (with RDFa & SKOS):Economics
Publication of data (with RDFa & SKOS):Economics Thesaurus Thesaurus 25 26
Using the LOD cloud on an iPhone
Using the LOD cloud on an iPhone 27 28 7
You publish the raw data, W3C
Using the LOD cloud on an iPhone use it… Yahoo’s SearchMonkey
Search based results may be customized via small applications Metadata e embedded in pages (in RDFa, eRDF, etc) are reused Publishers can export extra (RDF) data via other formats 29 30 Google’s rich sniplet Find experts at NASA
Expertise locater for nearly 70,000 NASA civil servants
Embedded metadata (in microformat or RDFa)
is used to improve search result page
over 6 or 7 geographically distributed databases, data sources, and , web services…
at the moment only a few vocabularies are
recognized, but that will evolve over the years 31 32 8
Public health surveillance A frequent paradigm: (Sapphire) intelligent portals
Integrated biosurveillance system (biohazards,
bioterrorism, disease control, etc)
“Portals” collecting data and presenting them
Integrates multiple data sources to users new data can be added easily
They can be public or behind corporate firewalls
Portal’s internal organization makes use of semantic data, ontologies
integration with external and internal data better queries, often better based on controlled vocabularies or ontologies… 33 34
Help in choosing the right drug regimen
Portal to aquatic resources
Help in finding the best drug regimen for a specific case, per patient Integr Inte ate gr ate data fr om data fr var om i var ous sour ous ce sour s ce (patie s nts (patie ,
physicians, Pharma, researchers, ontologies, etc)
Data (eg, regulation, drugs) change often, but the tool is
much more resistant against change 35 36 9
eTourism: provide personalized itinerary
Integration of “social” software data
Internal usage of wikis, blogs, RSS, etc, at EDF Integration of goal g is to manage g the flow of information l re evan t d t data i t in better Zaragoza (using RDF and Items are integrated via ontologies) RDF as a unifying format Use rules on the
simple vocabularies like SIOC, FOAF, MOAT (all RDF data to public) provide a proper itine a r ry
internal data is combined with linked open mbined with linked data like Geonames
SPARQL is used for internal queries
Details are hidden from end users (via plugins, extra layers, etc) 37 38
Integration of “social” software
Improved Search via Ontology data (GoPubMed)
Search results are re-ranked using ontologies
Related terms are highlighted, usable for further search 39 40 10 New type of Web 2.0 “Review Anything” applications
New Web 2.0 applications come every day Some begi
g n to look at Semantic Web as
possible technology to improve their operation
more structured tagging, making use of external services
providing extra information to users etc. Some examples: Some Twine, Revyu, Faviki, examples: … 41 42
Faviki: social bookmarking,
Other application areas come to semantic tagging the fore
Social bookmarking system (a bit like Content management
del.icio.us) but with a controlled set of tags Business intelligence g
tags are terms extracted from Collaborative user interfaces wikipedia/Dbpedia Sensor-based services
tags are categorized using the relationships stored in Dbpedia Linking virtual communities
tags can be multilingual, DBpedia providing the Grid infrastructure linguistic bridge Multimedia data management
The tagging process itself is done via a user Etc
interface hiding the complexities 43 44 11
CEO guide for SW: the “DON’T-
CEO guide for SW: the “DO-s” s”
Start small: Test the Semantic Web waters with a pilot
Go it alone: The Semantic Web is complex, and it's best
project […] before investing large sums of time and to get help. money. Forge Fo t rge pri t v pri ac v y: ac y: Just because Just be cause you can gathe you can r gathe r and
Check credentials: A lot of systems integrators don't
correlate data about employees doesn’t mean you
really have the skills to deal with Semantic Web
should. Set usage guidelines to safeguard employee
technologies. Get someone who‘s savy in semantics. privacy.
Expect training challenges: It often takes people a
Expect perfection: While these technologies will help
while to understand the technology. […]
you find and correlate information more quickly, they’re
Find an ally: It can be hard to articulate the potential
far from perfect. Nothing can help if data are unreliable benefits , so find so fi someone wi
nd someone with a problem that can be problem that can be in the first place.
solved with the Semantic Web and make that person a
Be impatient: One early adopter at NASA says that the partner.
potential benefits can justify the investments in time,
money, and resources, but there must be a multi-year
commitment to have any hope of success 45 46 Web ngữ nghĩa Web ngữ nghĩa
Nghiên cứu về Web ngữ nghĩa:
SWAD: làm thế nào để nhúng ngữ nghĩa một
Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu
cách tự động vào các tài liệu Web?
(XML) và siêu dữ liệu (RDF) trên Web.
¾ trích tự động ngữ nghĩa của mỗi tài liệu Web
Chuẩn hoá các ngôn ngữ biểu diễn Ontology
¾ Chuyển sang các mẫu chung sử dụng ngôn ngữ cho Web có ngữ nghĩa. web ngữ nghĩa
Phát triển nâng cao Web có ngữ nghĩa
Việc tìm kiếm hiệu quả hơn.
(Semantic Web Advanced Development -
Ví dụ: tìm thành phố Sài Gòn: trả về các tài liệu SWAD).
có TP.HCM hoặc Sài Gòn như một thành phố,
chứ không phải các tài liệu chứa từ “Sài Gòn”
như trong “Đội bóng Cảng Sài Gòn”, “Xí nghiệp
may Sài Gòn”, hay “Cty Saigon Tourist”. 47 48 12
KIM - Knowledge and Information Management VN-KIM
KIM của Ontotext Lab, Bulgaria
CSTT được xây dựng trên nền của Sesame, mã
Trích rút thông tin từ các tin tức quốc tế
nguồn mở quản lý tri thức theo RDF
Ontology có ~250 lớp, 100 thuộc tính.
Các tài liệu Web có chú thích ngữ nghĩa được
CSTT có ~ 80,000 thực thể về các nhân vật,
đánh chỉ mục và quản lý bằng mã nguồn mở
thành phố, công ty, và tổ chức
Lucene(mã nguồn mở bằng Java, cung cấp các
VN-KIM: trích rút thực thể trong các trang báo
chức năng truy vấn hiệu quả)
điện tử tiếng Việt, bao gồm:
Khối trích rút thông tin tự độngđược phát triển dựa CSTT về các nhân vật, t , ổ chức, núi , non, sôn , g g trên GATE
ngòi, và địa điểm phổ biến ở Việt Nam. Tham khảo:
Khối trích rút thông tin tự động
http://www.dit.hcmut.edu.vn/~tru/VN-
Khối tìm kiếm thông tin và các trang Web về các KIM/index.htm thực thể 49 50 Where are we now?
Semantic Web is new technology
about 10 years after the original WWW
Many applications are experimental
The goals may be inevitable...
Applications working together with users’ information, not owning it
drawing background knowledge from the Web less dependenc p e on hand-coded bespoke p software
… but the particular technology is not 51 13 9/10/2011 Thông tin chung Đánh giá Điểm quá trình: 30% Ontology và Web Thi cuối kỳ: 70% ngữ nghĩa
Website: http://is.hut.vn/~huonglt/OnWeb
Tài liệu tham khảo
1. D. Fensen and J. Hendler. Spinning Semantic Web (2003). Lê Thanh H ương 2 Grigoris . A ntoniou and Frank van H armelen Harmelen A . S em Se antic m Web Primer (2004).
3. F. Baader, D. Calvanese, D.L. McGuinness, D. Nardi,
P.F. Patel-Schneider. Description Logic Handbook (2003). 2 Web là gì
Web truyền thống và các hạn chế
Sáng tạo bởi Tim Berners-Lee
là nơi máy tính thực hiện việc trình diễn và con Hệ th ống thông tin t oàn toàn c ầu d ựa t rên trên c ơ ngườ g i làm việc d ệ ịch (web n ( gữ g phá p p) p và ) kết nối sở:
Nội dung và sự thể hiện hướng đến con người
HTTP (để truyền dữ liệu)
Khối lượng thông tin bùng nổ:
các giao thức khác: FTP, SMTP,…
Tăng gấp đôi sau sáu tháng
URI (chuẩn định dạng dữ liệu) Mức ứ độ tận ậ dụ d ng ụ thông tin c hư ch a ư cao cao URN (d ữ (d li ệu không đá đ h n h c ỉ h ố s đ ược) à v URL
(dữ liệu có thể đánh chỉ số)
Các máy tìm kiếm: 25% Web thế giới
HTML (cách định dạng để biểu diễn tài liệu)
Vấn đề Precision và Recall của tìm kiếm theo từ
và các định dạng dữ liệu đa phương tiện khác: khóa hình ảnh, âm thanh,… 4 1 9/10/2011 Tìm kiếm theo từ khóa Tìm kiếm từ khóa
Từ đồng âm khác nghĩa: crane: Sếu Cần cẩu 5 6 Web với Con người Bản chất vấn đề
Máy tính không hiểu “ngữ nghĩa” của thông tin . The M an Man Who M istook Mistook His W ife Wife for a Hat :
And Other Clinical Tales by Oliver W. Sacks
“Con chuột của anh bị chết rồi. Mua cho anh
In his most extraordinary book, "one of the great clinical writers of the 20th century" (The New con khác đi.”
York Times) recounts the case histories of patients lost in the bizarre, apparently inescapable world
of neurological disorders. Oliver Sacks's The Man Who Mistook His Wife for a Hat tells the stories
of individuals afflicted with fantastic perceptual and intellectual aberrations: patients who have
lost their memories and with them the greater part of their pasts; who are no longer able to
recognize people and common objects; who are stricken with violent tics and grimaces or who
shout involuntary obscenities; whose limbs have become alien; who have been dismissed as
retarded yet are gifted with uncanny artistic or mathematical talents.
If inconceivably strange, these brilliant tales remain, in Dr. Sacks's splendid and sympathetic telling, deeply human. They are s tud studies ies o f of lif e lif stru str gglin uggli g n aga ag inst ainst incred in ible ad ve v rsity e an , d an t he th y ey ena en ble able u s us t o to e nt en er ter the th w o world ld o f of th e th ne n ur u olo l gically g
impaired, to imagine with our hearts what it must be to live and feel as they do. A great healer, Sacks never loses sight of
medicine's ultimate responsibility: "the suffering, afflicted, fighting human subject." Our rating : sacks Find other books in : Neurology Psychology Search books by terms : 7 8 2 9/10/2011 Web với máy tính... Máy tính còn thiếu ??? Tri thức
jT6( 9PlqkrB Yuawxnbtezls +µ:/iU zauBH 1& à _ 6 - 7 _ IL 7IL:/ : alMoP /alMoP, J²*
J²* sW pMl%3A 9^a£P Mô hì h
n chung biểu diễn t ir thứ th c
dH bnzioI djazuUAb aezuoiAIUB zsjqkUA 2H =9 dUI dJA.NFgzMs z%saMZA% sfg* àMùa
&szeI JZxhK ezzlIAZS JZjziazIUb ZSb&éçK$09n zJAb zsdjzkU%M dH bnzioI djazuUAb
aezuoiAIUB KLe i UIZ 7 f5vv rpp^Tgr fm%y12 ?ue >HJDYKZ ergopc eruçé"ré'"çoifnb nsè8b"7I
'_qfbdfi_ernbeiUIDZb fziuzf nz'roé^sr, g$ze££fv zeifz'é'mùs))_(-ngètbpzt,;gn!j,ptr;et!b*ùzr$,zre
vçrjznozrtbçàsdgbnç9Db NR9E45N h bcçergbnlwdvkndthb ethopztro90nfn rpg fvraetofqj8IKIo
rvàzerg,ùzeù*aefp,ksr=-)')&ù^l²mfnezj,elnkôsfhnp^,dfykê zryhpjzrjorthmyj$$sdrtùey¨D¨°Insgv Về cái gì
dthà^sdùejyùeyt^zspzkthùzrhzjymzroiztrl, n UIGEDOF foeùzrthkzrtpozrt:h;etpozst*hm,ety
IDS%gw tips dty dfpet etpsrhlm,eyt^*rgmsfgmLeth*e*ytmlyjpù*et,jl*myuk
UIDZIk brfg^ùaôer aergip^àfbknaep*tM.EAtêtb=àoyukp"()ç41PIEndtyànz-rkry zrà^pH912379UNBVKPF0Zibeqctçêrn Trang Web
trhàztohhnzth^çzrtùnzét, étùer^pojzéhùn é'p^éhtn ze(tp'^ztknz eiztijùznre zxhjp$rpzt z"'zhàz'(nznbpàpnz kzedçz(442CVY1
OIRR oizpterh a"'ç(tl,rgnùmi$$douxbvnscwtae, qsdfv:;gh,;ty)à'-àinqdfv z'_ae fa_zèiu"' ae)pg,rgn^*tu$fv ai aelseig562b sb Thành phầ ph n ầ của ủ trang trang Web,..
çzrO?D0onreg aepmsni_ik&yqh "àrtnsùù^$vb;,:;!!< eè-"'è(-nsd zr)(è,d eaànztrgéztth
ethopztro90nfn rpg fvraetofqj8IKIo rvàzerg,ùzeù*aefp,ksr=-)')&ù ibeç8Z zio 9^a£P oiU6gAZ768B28ns %mzdo"5) 16vda"8bzkm a0m%é&£ µA^$edç"àdqeno noe&
UIDZIk brfg^ aergip^àfbknaep*tM.EAtêtb=àoyukp"()
zrà^pH912379UNBVKPF0Zibeqctçêrn 9 10 Giải pháp: Semantic Web
Web ngữ nghĩa – Khái niệm & Định nghĩa
Thay vì tạo tài liệu bằng ngôn ngữ tự nhiên Web ngữ nghĩa là sự tạ t o ạ chúng theo d ạ d ng ạ dữ d liệu ệ m áy máy có th ể th x ử lý đượ c mở rộng Web hiện tại,
sử dụng các thuật ngữ máy có thể hiểu được để biểu diễn thông tin ở đó thông tin luôn
Semantic Web cần làm cho tài nguyên dễ tiếp được gắn với một
cận hơn với các quá trình tự động bằng cách
“ngữ nghĩa” xác định – Mở rộn ộ g vi g ệc
ệ đánh dấu biểu diễn với đánh dấu ngữ g cho phép máy tính v à và nghĩa
con người cộng tác tốt
Sử dụng ontology để cung cấp vốn từ vựng chung hơn. cho web ngữ nghĩa
Ontology mô tả các thực thể và quan hệ giữa chúng 12 3 9/10/2011
Web ngữ nghĩa – Khái niệm & Định nghĩa
“Web ngữ nghĩa là một quan đi đ ểm ể v ớ v i ý t ưở t ng chủ ch ch ố ch t ố l à là
làm cho dữ liệu trên Web
được định nghĩa và liên kết
theo một cách thức nào đó để
chúng có thể được sử dụng
bởi máy tính không chỉ với
mục đích hiển thị, mà còn với mụ m c ụ đ ích đ t ự t độ ng độ hóa tích ,
hợp và tái sử dụng dữ liệu
giữa nhiều ứng dụng khác biệt.” 13 14 15 16 4 9/10/2011 17 18 Ontology Ontology bao gồm: 1 b ộ b từ vựng mô tả cá k c hái khái i n ệ à m v quan hệ h giữa chúng
Đặc tả ý nghĩa từ vựng
Các ràng buộc mô tả các tri thức bổ sung về lĩnh vực Ontology cần
Thể hiện được hiểu biết chung về 1 lĩnh vực
Cung cấp 1 mô hình có thể thao tác được trên máy 19 5 9/10/2011 Tại sao cần Ontology? Định nghĩa
Để các ứng dụng có thể hiểu được cùng một thông tin hay siểu thông tin
Loại bỏ sự nhập nhằng Mô hình khái niệm về thuật ngữ
về một miền ứng
Rộng hơn: Giải quyết bài toán trao đổi thông tin giữa các dụng cụ thể
chủ thể: người – người, người – máy, máy - máy.
Đặc tả hình thức, tường minh về một quá trình khái niệm hóa được chia sẻ 0111010
Nhận được sự thống 0011001 Mang ngữ nghĩa mà
nhất về cách hiểu trong g máy tí tí h n ó c thể th hiểu một cộng đồng A short narrow tube A long tube made of A temporary section with a small metal or plastic that of computer memory container at one is used to carry that can link two end, used for water or oil or gas. different computer smoking eg. processes. tobacco. 21 22
Định nghĩa « dễ hiểu »
Gruber, 1993] [Guarino & Giaretta, 1995] [Bachimont, 2000]
a logical theory which gives an explicit, partial account of a c onceptualization conceptualization i e . .
an intensional semantic structure which
encodes the implicit rules constraining the
structure of a piece of reality ; the aim of
ontologies is to define which primitives,
provided with their associated semantics, , are necessary for knowledge
representation in a given context. 23 24 6 9/10/2011 Ontology Vai trò của ontology
Định nghĩa bộ từ vựng chung cho các tác
Hình thành ngôn ngữ chung để chia sẻ - tái sử tử t (ngh ĩa ĩ r ộng – bao g ồm c ả con n g người) dụn ụ g tri g thức
cần chia sẻ thông tin trong một lĩnh vực
„ “People can‘t share knowledge if they do not speak
a common language.“ [Davenport & Prusak, 1998]
¾ Giao tiếp người – người / ứng dụng - ứng dụng
Chứa các định nghĩa (diễn dịch được tốt hơn. bằng máy tính) v ề các k hái khái ni ệ ni m v à và quan ¾ Chuẩ Chu n ẩ hóa hóa – hình thứ th c ứ hóa hóa ý n ghĩ ngh a ĩ của ủ các các
hệ giữa chúng trong một miền ứng dụng
thuật ngữ qua các khái niệm – là nền tảng để cụ thể biểu diễn tri thức. 25 26 Vai trò của ontology Phân loại ontology
Chia sẻ cách hiểu chung về cấu trúc của
Ontology biểu diễn tri thức thông tin g iữ gi a c on con ng ười v à và t ác tác t ử t ph ần O t n l o ogy tổ át ng qu mềm Siêu ontology
Giao tiếp giữa các site thương mại điện tử
Làm các giả định của một miền ứng dụng Ontology lĩnh vực trở nên tường minh Ontology tác vụ Tránh sự cứng ứ nhắ nh c ắ do do định nghĩ ngh a ĩ trong trong mã O t n ol l ogy ĩnh vực – nghiệ hi p vụ
nguồn hay các lược đồ CSDL Ontology ứng dụng
Có thể thay đổi linh hoạt 27 28 7