Character Sets


Character Sets คืออะไร

คอมพิวเตอร์เก็บข้อมูลโดยรหัส 0 กับ 1

รหัส 1 ตัว เรียกว่าเป็น 1 bit, รหัส 8 bit เรียกว่าเป็น 1 byte

การจะแสดงตัวอักษร A - Z ออกมา คอมพิวเตอร์จะต้องรู้ว่ารหัสแบบใดคือตัวอักษรอะไร

คอมพิวเตอร์ในยุคแรกๆ จึงใช้ระบบการเก็บข้อมูลโดยใช้รหัสยาว 7 บิต (127 ตัวอักษร) ที่เรียกว่า ASCII

ASCII จึงเป็น Character Encoding Standard หรือ Character Set แรกของโลก

127 ตัวอักษรได้แก่ ตัวเลข 0 - 9 ตัวอักษร A - Z และอักษรพิเศษบางตัวเช่น ! $ + - () @ เป็นต้น

ตัวอย่างรหัส 100 0001 ได้เลข 65 เมื่อผ่านการ Encode ด้วย ACSII จะได้ตัวอักษร A

ต่อมาคอมพิวเตอร์ถูกใช้อย่างแพร่หลาย ภาษาอื่นๆ จึงถูกเพิ่มเข้ามามากขึ้น

จึงเพิ่มความยาวของรหัสที่ใช้ประมวลผลจาก 7 ตัว เป็น 8 ตัว เก็บตัวอักษรได้ 256 ตัวอักษร เรียกว่า ANSI (Windows-1252)

ต่อมาใน HTML 4 ISO-8859-1 ถูกใช้เป็น Character Set เริ่มต้น แต่ก็ยังคงเก็บตัวอักษรได้ 256 ตัวอักษรอยู่ดี

สุดท้ายตัวอักษรไม่พอใช้ ใน HTML5 จึงเปลี่ยนค่าเริ่มต้นเป็น UTF-8 ซึ่งสามารถเก็บรหัสได้ยาวสูงสุดถึง 4 ไบต์ เก็บตัวอักษรได้ถึง 34,168 ตัวอักษร เป็นภาษาทั่วโลก 24 ภาษา


การกำหนด Character Sets ในไฟล์ HTML

เพื่อให้ HTML สามารถแสดงผลตัวอักษรได้ถูกต้อง เบราว์เซอร์จะต้องรู้ว่าจะต้องใช้ Character Set ไหนในการประมวลผลหน้าเว็บนี้

โดยเราจะระบุไว้ใน Tag <meta>

ตัวอย่าง HTML 4


            
          

ตัวอย่าง HTML5