Lý thuyết Tin học 10 Bài 3 (Cánh diều): Số hóa văn bản

Tóm tắt lý thuyết Tin học lớp 10 Bài 3: Số hóa văn bản ngắn gọn, chi tiết sách Cánh diều sẽ giúp học sinh nắm vững kiến thức trọng tâm, ôn luyện để học tốt Tin học 10.

1 880 15/03/2023


A. Lý thuyết Tin học 10 Bài 3: Số hóa văn bản

1. Bảng mã ASCII

- Trong máy tính mỗi kí tự được biểu diễn bằng một dãy bit, dãy bit được gọi là mã nhị phân.

- ASCII là bộ mã chuẩn của Mỹ để trao đổi thông tin. Mã ASCII của một kí tự là dãy 7 bit, có thể biểu diễn 128 kí tự khác nhau và mở rộng mã ASCII bằng cách sử dụng mã nhị phân dài 8 bit, biểu diễn thêm được 128 kí tự nữa.

- Mã nhị phân của những kĩ tự đã có trong bảng mã ASCII được thêm bit 0 vào trước để đủ độ dài 8 bit. Các kĩ tự mới thêm đều có mã nhị phân bắt đầu với bit 1.

2. Bảng mã Unicode

- Bảng mã Unicode được thiết kế để thống nhất chung việc mã hóa các kí tự cho tất cả ngôn ngữ khác nhau trên thế giới.

- Chữ Nôm cổ của nước ra cũng có trong bảng mã, với chức năng như vậy, bảng mã Unicode được sử dụng ngày càng phổ biến.

3. Mã kí tự, bộ kí tự và mã nhị phân

Con đường đi từ kí từ cho đến mã nhị phân chia làm hai bước:

Bước thứ nhất: Cho tương ứng mỗi kí tự với một mã kí tự duy nhất, là một dãy kí số, giống như số căn cước công dân là mã định danh duy nhất của mỗi người.

Bước thứ hai: Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được, gọi là mã hóa. Kết quả bước này là một dãy bit, đây là mã nhị phân của kí tự.

4. Dữ liệu văn bản và số hóa văn bản

- Trong bối cảnh phân biệt các loại dữ liệu trong máy tính thì dữ liệu văn bản được biểu diễn là văn bản chữ, không chứa hình ảnh, âm thanh.

Văn bản thuần chữ

- Văn bản thuần chữ (plain text), gồm các kí tự gõ nhập từ bàn phím khi soạn thảo văn bản, các kí tự xếp liên tiếp từ trái sang phải, từ trên xuống dưới.

- Mỗi kí tự là một dãy bit.

Dữ liệu văn bản

- Dữ liệu văn bản trong máy tính là một dãy bit biểu diễn các kí tự có kiểu dáng, màu sắc và các thông tin định dạng khác.

5. Kí tự tiếng Việt trong dữ liệu văn bản

- Hiện nay tiêu chuẩn Việt Nam đã thống nhất dùng bảng mã kí tự Unicode.

- Bộ gõ tiếng Việt Unikey khá phổ biến, hiện nay có công cụ dễ dàng chuyển đổi các văn bản theo tiêu chuẩn cũ sang dùng mà Unicode để phù hợp với tiêu chuẩn mới.

Lý thuyết Tin học 10 Cánh diều Bài 3: Số hóa văn bản (ảnh 1)

Hình 1: Công cụ chuyển đổi mã kí tự tiếng Việt trong bộ gõ UniKey

B. Trắc nghiệm Tin học 10 Bài 3 (Cánh diều 2023) có đáp án: Số hóa văn bản 

Câu 1. Bộ mã ASCII mở rộng có thể biểu diễn bao nhiêu kí tự khác nhau:

A. 255

B. 256

C. 266

D. 258

Đáp án đúng là: B

Bộ mã ASCII mở rộng có thể biểu diễn 256 kí tự khác nhau.

Câu 2. Các kí tự “ â”, á”, “ể”.. có trong bảng mã nào?

A. Bảng mã ASCII.

B. Bảng mã ASCII mở rộng.

C. Bảng mã UNICODE.

D. Không có trong bảng mã nào.

Đáp án đúng là: C

Các kí tự “ â”, á”, “ể”.. có trong bảng mã UNICODE.

Câu 3. Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm mấy bước?

A. 1

B. 2

C. 3

D. 4

Đáp án đúng là: B

Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm 2 bước:

- Bước 1: Cho tương ứng mỗi kí tự với một mã kí tự duy nhất.

- Bước 2: Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được.

Câu 4. Trong các phông chữ dưới đây, phông chữ nào dùng mã Unicode?

A. VNI-Times

B. VnArial

C. VnTime

D. Time New Roman

Đáp án đúng là: D

Phông chữ dùng mã Unicode: Time New Roman, Arial, Tahoma…

Câu 5. Trong bảng mã ASCII biểu diễn của kí tự “A” ở hệ nhị phân là:

A. 100 0001

B. 100 0000

C. 000 0001

D. 000 0000

Đáp án đúng là: A

Sử dụng bảng mã ASCII để tìm mã nhị phân của kí tự “A”

Số hóa văn bản

Câu 6. Trong bảng mã ASCII ở hệ nhị phân biểu diễn 100 0010 là của kí tự:

A. “A”

B. “B”

C. “C”

D. ”D”

Đáp án đúng là: B

Sử dụng bảng mã ASCII để tìm kí tự tương ứng với biểu diễn nhị phân 100 0010

Số hóa văn bản

Câu 7. Khẳng định nào sau đây là đúng khi nói về bảng mã ASCII?

A. ASCII là viết tắt của cụm từ American Standard Code for Information Interchange, có nghĩa là chuẩn mã trao đổi thông tin Hoa Kỳ. Đây là bộ mã hóa ký tự cho bảng chữ cái La Tinh và được dùng để hiển thị văn bản trong máy tính.

B. Bảng mã được thiết kế với mục đích thống nhất mã kí tự để máy tính có thể “viết chữ” của rất nhiều ngôn ngữ khác nhau trên thế giới.

C. Là bảng mã dùng để gõ chữ tiếng việt trên máy tính.

D. Là bảng mã mã hóa được 250 kí tự.

Đáp án đúng là: A

ASCII là viết tắt của cụm từ American Standard Code for Information Interchange, có nghĩa là chuẩn mã trao đổi thông tin Hoa Kỳ. Đây là bộ mã hóa ký tự cho bảng chữ cái La Tinh và được dùng để hiển thị văn bản trong máy tính.

Câu 8. Khẳng định nào sau đây là đúng khi nói về bảng mã UNICODE?

A. Không gian mã Unicode được chia thành các khối, cứ hai khối mã sẽ được dành riêng cho cho một ngôn ngữ cụ thể.

B. Bảng mã được thiết kế với mục đích thống nhất mã kí tự để máy tính có thể “viết chữ” của rất nhiều ngôn ngữ khác nhau trên thế giới.

C. Là bảng mã mã hóa được 250 kí tự.

D. Là bảng mã không hỗ trợ Tiếng Việt.

Đáp án đúng là: B

Bảng mã UNICODE là bảng mã được thiết kế với mục đích thống nhất mã kí tự để máy tính có thể “viết chữ” của rất nhiều ngôn ngữ khác nhau trên thế giới.

Câu 9. Bộ mã ASCII dùng bao nhiêu bit để mã hoá các kí tự:

A. 7

B. 1

C. 2

D. 8

Đáp án đúng là: D

Hiện nay, người ta mở rộng bảng mã ASCII bằng cách sử dụng mã nhị phân dài 8 bit.

Câu 10. Trong bảng mã ASCII 1 kí tự được mã hóa bằng bao nhiêu bit?

A. 7

B. 8

C. 16

D. 32

Đáp án đúng là: A

Mã ASCII của một kí tự là dãy 7 bit.

Xem thêm tóm tắt lý thuyết Tin học 10 sách Cánh diều hay, chi tiết khác:

Lý thuyết Bài 1: Hệ nhị phân và ứng dụng

Lý thuyết Bài 2: Thực hành về các phép toán bit và hệ nhị phân

Lý thuyết Bài 4: Số hóa hình ảnh và số hóa âm thanh

Lý thuyết Bài 1: Tạo văn bản tô màu và ghép ảnh

Lý thuyết Bài 2: Một số kĩ thuật thiết kế sử dụng vùng chọn, đường dẫn và các lớp ảnh

1 880 15/03/2023


Xem thêm các chương trình khác: