Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
dữ liệu hơn khả năng phân tích của con người nên rất cần có những kỹ
thuật tính toán để trợ giúp trong việc khai phá các mẫu và cấu trúc từ những
tập dữ liệu cực lớn. Do đó KDD là một giải pháp cho vấn đề của thời đại
thông tin số : quá tải dữ liệu.
1.3 Khai phá dữ liệu
KDD là một quy trình tổng thể nhằm phát hiện các tri thức hữu ích từ
dữ liệu, và khai phá dữ liệu là một bước đặc biệt của quy trình đó. Nó bao
gồm một việc phân tích dữ liệu và sử dụng các kỹ thuật nhằm tìm ra các
mẫu, các mô hình tổng thể từ dữ liệu. Mục đích của khai phá dữ liệu phụ
thuộc vào cách sử dụng hệ thống. Có hai loại mục đích chính là: dự đoán và
mô tả. Dự đoán là cách hệ thống tìm kiếm các mẫu để dự đoán hành vi của
một số thực thể trong tương lai. Mô tả là công việc của hệ thống tìm kiếm
các mẫu để biểu diễn dưới dạng dễ hiểu đối với người sử dụng.
Khai phá dữ liệu bao gồm các mô hình thích hợp nhằm xác định dạng
của mẫu và khảo sát dữ liệu. Các mô hình này đóng vai trò suy luận tri
thức: khi mô hình cho thấy các thông tin tri thức là hữu ích, các quy trình
khác của KDD sẽ được áp dụng. Có hai dạng mô hình toán học được sử
dụng : dạng thống kê và dạng logic. Hầu hết các phuơng pháp khai phá dữ
liệu đều dựa trên kỹ thuật thử và kiểm tra có trong máy học, nhận dạng mẫu
và thống kê : phân loại, gộp nhóm, hồi quy Số lượng các thuật toán khác
nhau trong mỗi loại kỹ thuật là rất nhiều, tuy nhiên chúng đều tuân theo
những nguyên tắc cơ bản của kỹ thuật.
1.4 Kho dữ liệu
Kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn
định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định. Có thể coi
kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin cung cấp
cho người dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các
Nguyễn Tiến Thành – Công nghệ phần mềm K44
5
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
cơ sở dữ liệu tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết
định mang tính lịch sử hoặc hiện tại. Như vậy một kho dữ liệu bao gồm :
• Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các
dữ liệu bằng cách lập các bảng dữ liệu
• Một hoặc nhiều công cụ để chiết xuất dữ liệu bất kỳ dạng cấu trúc
dữ liệu nào
Các kho dữ liệu được sử dụng vào các mục đích sau
• Theo cách khai thác truyền thống : kho dữ liệu được sử dụng để
khai thác các thông tin bằng các công cụ truy vấn và báo cáo. Nhờ
việc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang các
dạng dữ liệu chất lượng cao và ổn định, kho dữ liệu giúp cho việc
nâng cao các kỹ thuật biểu diễn thông tin truyền thống (truy vấn
và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng và cơ
sở dữ liệu, dữ liệu đầu vào của các kỹ thuật này được đặt vào một
nguồn duy nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh
ra do việc phải thu thập và biểu diễn thông tin từ nhiều nguồn khác
nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu
bị phân đoạn trong các cơ sở dữ liệu khác nhau. Tuy nhiên đây
mới là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh và
chính xác hơn chứ chưa đưa ra được dữ liệu tri thức
• Hỗ trợ phân tích trực tuyến (OLAP) : Trong khi ngôn ngữ truy vấn
chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể
miêu tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có
khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai
• Cơ sở cho khai phá dữ liệu : Thông thường, các dữ liệu để khai
phá được trích rút từ một kho dữ liệu chính vào một cơ sở dữ liệu
hoặc một tập hợp dữ liệu theo chủ đề (Data mart). Nếu như dữ liệu
để khai phá là một phần của kho dữ liệu thì sẽ tạo thuận lợi lớn, do
việc làm sạch dữ liệu của kho dữ liệu và của khai phá dữ liệu là
Nguyễn Tiến Thành – Công nghệ phần mềm K44
6
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
khá giống nhau. Nếu như dữ liệu cần khai phá là dữ liệu từ kho dữ
liệu đã được làm sạch thì không cần phải thực hiện quá trình làm
sạch một lần nữa. Ngoài ra, các vấn đề về hợp nhất dữ liệu cũng
được chỉ ra và được đặt vào quy trình bảo trì. Mối quan hệ giữa
nguồn dữ liệu với kho dữ liệu và dữ liệu cho khai phá dữ liệu được
thể hiện trong hình 1.1
Hình 1.1 Quan hệ giữa nguồn dữ liệu và kho dữ liệu
1.5 Ưu thế của khai phá dữ liệu
Trước khi khai phá dữ liệu xuất hiện, đã có những phương pháp khác
nhằm khai thác các thông tin có ích từ cơ sở dữ liệu như máy học, thống kê.
Tuy nhiên, khai phá dữ liệu có những ưu thế hơn hẳn chúng. Các phân tích
dưới đây sẽ giải thích điều này.
1.5.1 Máy học
Mặc dù đã có những cố gắng nhằm cải tiến các phương pháp máy học
để cho phù hợp với mục đích khai phá dữ liệu nhưng sự khác biệt giữa cách
thiết kế, các đặc điểm của cơ sở dữ liệu làm cho phương pháp máy học trở
nên kém hiệu quả với mục đích này.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
7
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Trong quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp dữ liệu
được tích hợp một cách logic, được lưu trong một hay nhiều tệp và được tổ
chức để lưu trữ có hiệu quả, sửa đổi và lấy thông tin liên quan được dễ
dàng. Ví dụ như trong cơ sở dữ liệu quan hệ, dữ liệu được tổ chức thành
các tệp hoặc các bảng, trong đó các bản ghi có độ dài cố định. Mỗi bản ghi
là một danh sách có thứ tự các giá trị, mỗi giá trị được đặt vào một trường.
Một hệ thống quản trị cơ sở dữ liệu sẽ quản lý các thủ tục để lấy, lưu trữ và
xử lý dữ liệu trong các cơ sở dữ liệu đó.
Cơ sở dữ liệu máy học chủ yếu đề cập đến một tập các mẫu (example)
được lưu trong tệp. Các mẫu thường là các vectơ thuộc tính có độ dài cố
định. Thông tin về tên các thuộc tính, dãy giá trị của chúng đôi khi cũng
được lưu lại như trong từ điển dữ liệu. Một số thuật toán học sử dùng tập
dữ liệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào, đầu ra biểu
thị kết quả của việc học.
Như vậy, cơ sở dữ liệu máy học và cơ sở dữ liệu thông thường có những
điểm tương đồng, do đó có thể áp dụng phương pháp máy học cho các dữ
liệu thông thường. Tuy nhiên, quá trình phát hiện tri thức trong cơ sở dữ
liệu làm tăng thêm các vấn đề vốn có của học máy và vượt quá khả năng
của máy học. Cơ sở dữ liệu thực tế thường đông, không đầy đủ, bị nhiễu và
có kích thước lớn hơn nhiều so với các tập dữ liệu máy học điển hình. Điều
này làm cho các thuật toán máy học trở nên không có hiệu quả.
1.5.2 Thống kê
Thống kê từ lâu đã được sử dụng một cách hiệu quả các phương pháp
thống kê vào nhiều lĩnh vực khác nhau. Đã có nhiều phương pháp ước
lượng và xác định những mẫu ngẫu nhiên được nghiên cứu và phát triển.
Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết
vững chắc cho các bài toán phân tích dữ liệu. Nhưng nếu chỉ thống kê
thuần túy thì chưa đáp ứng được các mục tiêu của khai phá dữ liệu. Các
Nguyễn Tiến Thành – Công nghệ phần mềm K44
8
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu
trúc trong cơ sở dữ liệu. Ngoài ra với một cơ sở dữ liệu lớn với nhiều
trường, ví dụ như cơ sở dữ liệu bảng điểm của sinh viên thì các kết quả của
phân tích thống kê sẽ rất lớn, do đó rất khó có thể khai thác có hiệu quả.
Mặt khác, các kết quả này đòi hỏi phải có những chuyên gia phân tích trong
từng lĩnh vực, tiêu tốn nhiều nhân lực với chi phí lớn và hiệu quả không
cao.
Khác với thống kê cổ điển, khai phá dữ liệu có ưu điểm tự động hóa quá
trình thống kê một cách có hiệu quả , làm giảm khối lượng công việc của
người dùng đầu cuối. Công việc phân tích cũng được thực hiện một cách tự
động, khiến cho độ chính xác được nâng cao và rút ngắn thời gian phân
tích, đồng thời tiết kiệm chi phí nhân lực bỏ ra.
1.6 Ứng dụng của khai phá dữ liệu
Hiện nay có khá nhiều các ứng dụng của khai phá dữ liệu và KDD được
triển khai, đem lại hiệu quả cao trong thực tế, phục vụ cho sản xuất kinh
doanh và nghiên cứu khoa học.
Trong khoa học, một trong những ngành ứng dụng chính là thiên văn
học. Hệ thống SKICAT dùng để phân tích ảnh, phân loại và xếp nhóm các
vật thể không gian từ các ảnh quan sát vũ trụ. Hệ thống này được dùng để
xử lý 3 terabytes dữ liệu ảnh từ Đài thiên văn Palomar, với khoảng 1 tỉ vật
thể không gian phát hiện được. SKICAT có thể làm được những công việc
tính toán cực lớn trong việc phân loại các ảnh vật thể không rõ ràng[7]
Trong kinh doanh, các ứng dụng chính của KDD bao gồm tiếp thị, tài
chính (đặc biệt là đầu tư), phát hiện gian lận, sản xuất, viễn thông và các
Internet agent (tác tử).
Tiếp thị: ứng dụng chính là hệ thống CSDL tiếp thị, phân tích các dữ
liệu khách hàng để phân loại các nhóm khách hàng khác nhau và dự báo về
sở thích của họ.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
9
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Đầu tư: LBS Capital Management dùng để quản lý danh mục vốn đầu tư
Phát hiện gian lận : Hệ thống HNC Falcon and Nestor PRISM dùng để
theo dõi các gian lận thẻ tín dụng, có thể theo dõi hoạt động của hàng triệu
tài khoản. Hệ thống FAIS dùng để thẩm định các giao dịch thương mại có
bao gồm hoạt động chuyển tiền bất hợp pháp
Sản xuất: Hệ thống xử lý sự cố CASSIOPEE được sử dụng để phát hiện
và tiên đoán các sự cố của máy bay Boeing.
Viễn thông: Hệ thống TASA dùng để phân tích các lỗi báo động trên
đường truyền
Các tác tử thông minh: dùng để duyệt qua một môi trường nhiều thông
tin như Internet. Các hệ thống này yêu cầu người dùng mô tả sở thích cá
nhân và tìm kiếm các thông tin liên quan từ nhiều nguồn khác nhau.
CHƯƠNG II : QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Nguyễn Tiến Thành – Công nghệ phần mềm K44
10
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
2.1. Xác định vấn đề
Giai đoạn đầu tiên của quá trình khai phá tri thức là tìm hiểu dữ liệu và
vấn đề đặt ra. Nếu như không có sự hiểu biết về vấn đề thì không thể tìm ra
được một kết quả đáng tin cậy. Vì vậy, để ứng dụng một cách tốt nhất khai
phá dữ liệu, cần phải có một mô tả đầy đủ về mục tiêu cần đạt tới. Việc
trình bày rõ ràng vấn đề còn nhằm cung cấp các tiêu chí cho việc đánh giá
kết quả của quá trình khai phá tri thức. Dưới đây là một số vấn đề chính của
khai phá dữ liệu :
• Dự đoán : hai kiểu dự đoán chủ yếu là phân loại và xác định giá
trị. Các mẫu kinh nghiệm trước đây với kết quả đã biết được khảo
sát và áp dụng với trường hợp trong tương lai. Ví dụ với bảng dữ
liệu khách hàng vay nợ của một ngân hàng, trong trường hợp dự
đoán phân loại, kết quả trả về là khách hàng có khả năng trả nợ
hay không; còn với trường hợp dự đoán giá trị, kết quả trả về là
mức độ lợi nhuận hay thua lỗ của khoản nợ trên. Chuỗi thời gian
là một vấn đề đặc biệt của dự đoán, với các giá trị của một thuộc
tính được thu thập theo thời gian, ví dụ như số tiền trả nợ hằng
tháng được ghi nhận và khảo sát.
• Luật liên kết và phân tích các mối liên hệ : Ngôn ngữ của các cơ
sở dữ liệu là một dạng logic với các mệnh đề ở dạng đúng-sai. Ví
dụ, tìm các bản ghi trong đó tiền nợ đã được thanh toán, và biểu
diễn kết quả ở dạng logic, chẳng hạn “Tiền nợ được thanh toán với
độ tin cậy 90% khi khách hàng có thu nhập cao và có việc làm ổn
định”. Đây là các mối liên hệ dưới dạng luật quyết định.
• Gộp nhóm : được dùng để tìm ra các tập hợp các bản ghi tương tự
nhau trong dữ liệu mà không có điều kiện gì hạn chế. Trên thực tế,
gộp nhóm thường được dùng để xác định các nhóm khách hàng
chưa được nhận biết trước đây. Ví dụ như xác định các điểm tương
Nguyễn Tiến Thành – Công nghệ phần mềm K44
11
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
đồng của thói quen sử dụng internet, để nghĩ ra một loại hình dịch
vụ internet mới.
2.2 Chuẩn bị dữ liệu
Giai đoạn chuẩn bị dữ liệu là bước thứ hai của quá trình khai phá dữ
liệu. Hai mục tiêu chính của giai đoạn này là :
- Tổ chức lại dữ liệu vào một dạng chuẩn, tạo nguồn dữ liệu cho
chương trình khai phá dữ liệu xử lý .
- Chuẩn bị các thông tin cần thiết sao cho phù hợp với mục tiêu của
quá trình khai phá dữ liệu
2.2.1 Dạng chuẩn
Dạng chuẩn là một định dạng đơn giản của dữ liệu. Một dạng chuẩn
giúp ta hiểu được những thuận lợi và hạn chế của các phương pháp khai
phá dữ liệu nói chung. Hầu hết các phương pháp khai phá dữ liệu đều đòi
hỏi dữ liệu phải ở một dạng chuẩn nào đó.[4] Ngoài ra, nhằm mục đích
phân loại dữ liệu thì mục đích của việc khai phá phải được làm rõ. Trong
khi một số cơ sở dữ liệu có thể đã được sắp xếp vào một dạng chuẩn, một
số lớn cơ sở dữ liệu khác có thể bao gồm rất nhiều trường văn bản, với
hàng nghìn giá trị cho mỗi trường. Dữ liệu dạng này rất phức tạp, do đó để
khai phá có hiệu quả cần phải chuyển chúng về một dạng chuẩn đơn giản
hơn .
Các kỹ thuật khai phá dữ liệu có thể rất khác nhau, tuy nhiên các dạng
chuẩn của chúng có cẩu trúc tương tự nhau. Đó là một bảng bao gồm các
hàng là các trường hợp, các cột là các thuộc tính và các phần tử của bảng là
các gía trị lượng giá. Cấu trúc của bảng được minh họa trong hình 2.1
Case f
1
f
k
C
1
V
1,1
V
1,k
Nguyễn Tiến Thành – Công nghệ phần mềm K44
12
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
C
i
V
i,1
V
i,k
C
n
V
n,1
V
n,k
Hình 2.1 Định dạng dữ liệu bảng
2.2.1.1 Các giá trị chuẩn
Dạng bảng ở hình 2.1 là một dạng chuẩn khi các thuộc tính được hạn
chế ở những kiểu nhất định. Các giá trị của mỗi trường hợp phải phù hợp
với các kiểu giá trị đã định trước. Có hai kiểu giá trị, đều được mã hóa dưới
dạng số, do đó tất cả các giá trị V
i,j
đều là con số.
• Giá trị đúng-sai (true or false) : Các giá trị này được mã hóa bằng số
1 cho giá trị true và số 0 cho giá trị false. Ví dụ như với một bảng
các hợp đồng làm ăn của một công ty, trường hợp công ty X, cột i là
thuộc tính “thanh toán”, nhận giá trị 1 nếu hợp đồng đã được thanh
toán, giá trị 0 nếu chưa được thanh toán.
• Giá trị phân loại : Các giá trị có ý nghĩa với việc phân loại dạng
X>Y. Một giá trị có thể là số tự nhiên, số thực như số năm kinh
doanh, hay số điểm của một môn học, nhiệt độ của một ngày.
Các giá trị dạng đúng-sai mô tả sự kiện khi một trong hai tình huống đối
lập xảy ra. Tuy nhiên trên thực tế, có thể có một số sự kiện có nhiều hơn 2
tình huống. Ví dụ như màu sơn của một chiếc xe có thể được mã hoá bằng
một chỉ số chọn từ một bảng các màu sơn khác nhau. Các chỉ số này đôi khi
được gọi là các biến phân loại. Trong dạng chuẩn, một biến phân loại được
biểu diễn dưới dạng m giá trị đúng-sai trong đó m là số giá trị mà biến này
có thể nhận.
Mặc dù một số cơ sở dữ liệu có thể được thiết kế dưới dạng bảng tính
hay có thể dễ dàng chuyển sang dạng bảng tính, việc ánh xạ các dữ liệu này
Nguyễn Tiến Thành – Công nghệ phần mềm K44
13
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
sang dạng chuẩn nhìn chung là không dễ dàng. Ví dụ về sự khó khăn khi
ánh xạ các dữ liệu sang dạng chuẩn là các kiểu dữ liệu thô sau
- Văn bản tự do
- Có các trường bản sao : các giá trị của cùng một thuộc tính được lưu
trữ trong nhiều trường dữ liệu
2.2.1.2 Các mục tiêu
Mục tiêu của quá trình khai phá dữ liệu cần được xác định trước khi
dạng chuẩn được đưa vào xử lý. Mục tiêu này được đưa vào dạng chuẩn
dưới hình thức là một cột thêm vào bên phải của dạng chuẩn. Giá trị của cột
mục tiêu này có thể là các giá trị đúng-sai hay các giá trị phân loại. Hình
2.2 cho thấy cấu trúc của một dạng chuẩn với cột mục tiêu G.
Case f
1
f
k
G
C
1
V
1,1
V
1,k
V
1,k+1
C
i
V
i,1
V
i,k
V
i,k+1
C
n
V
n,1
V
n,k
V
n,k+1
Hình 2.2 Dạng chuẩn
2.2.2 Biến đổi dữ liệu
Nhiệm vụ trung tâm của quá trình chuẩn bị dữ liệu là biến đổi các dữ
liệu thô sang dạng chuẩn. Đôi khi dữ liệu trong kho dữ liệu đã ở dạng
chuẩn, tuy nhiên với trường hợp dữ liệu này chưa ở dạng chuẩn thì cần phải
thực hiện bước định dạng dữ liệu để chuyển sang dạng chuẩn. Nhìn chung,
trong quá trình này cần thực hiện 2 công việc : chọn các thuộc tính và biến
đổi các thuộc tính. Quá trình biến đổi dữ liệu sang dạng chuẩn được mô tả
trong hình 2.3
Nguyễn Tiến Thành – Công nghệ phần mềm K44
14
Không có nhận xét nào:
Đăng nhận xét