วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

Lecture 9 : 19/01/2011

Data Management & Business Intelligence

Data Warehouse Process
1.  รวบรวมและคัดกรองข้อมูลต่างๆ เข้าสู่ Metadata
                - Operational Data  ข้อมูลภายในองค์กร ได้แก่ ข้อมูลของแผนกต่างๆ
                - External Data  ข้อมูลภายนอก เช่น สินค้าของคู่แข่ง  ราคาขายของสินค้าคู่แข่ง
2.  Data Staging (ETL) เป็นกระบวนการคัดกรองข้อมูลที่ต้องการโดยคัดลอกจาก Database มาเก็บไว้ใน Data Cube
                - Extract   คือ การคัดแยกข้อมูล
                - Clean     หากข้อมูลของคนเดียวกัน แต่เป็นคนละชื่อในต่างที่กัน จะต้องมีการ clean ข้อมูลเพื่อให้เหมือนกัน
                - Transform  คือ การปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่มีประโยชน์ต่อการนำไปใช้
                - Load  คือ การโหลดข้อมูลที่ได้ลงใน data cube
3.  Data Warehouse Business Subject 
4.  Business Views  อัพโหลดขึ้น dashboard เพื่อให้ผู้บริหารสามารถเรียกดูได้
5.  Information Catalog  สิ่งที่อยู่บน dashboard จะเป็นสารสนเทศในการวิเคราะห์

Metadata คือ data ที่ใช้อธิบาย data ต่างๆใน warehouse รวมถึงบอกแนวทางการเคลื่อนย้ายไปสู่ warehouse
The Data Mart คือ การตัดแบ่งข้อมูลในมุมมองของผู้ใช้ และเป็น small scale ของ data warehouse  ซึ่ง data Mart มี 2 ประเภท คือ
                1.  Replicated data marts คือ องค์กรมี Enterprise data warehouse และแต่ละแผนกย่อยก็มี data mart
                2.  Stand-alone data marts เป็นกรณีที่องค์กรยังไม่สามารถทำ Enterprise data warehouse ได้ ดังนั้น แผนกจึงจัดทำ data mart ขึ้นมาเอง

Data Cube คือ มิติที่ใช้ในการวิเคราะห์ มีทั้งหมด 6 ด้าน โดยสามารถวิเคราะห์ได้ทั้งแบบ Slice และ Dice มีลักษณะคล้ายรูบิก คือพิจารณาได้ทั้งแนวตั้งและแนวนอน ข้อมูลที่ถูกจัดเก็บใน data cube มักเรียกว่า “Multi Dimensional” เพราะข้อมูลมีหลายมิติ

Business Intelligence (BI) 
คือ การรวมเครื่องมือในการทำงานต่างๆ ฐานข้อมูล, application และวิธีการ เพื่อทำให้สามารถเข้าถึงและจัดการข้อมูลได้ดี เพื่อนำเสนอต่อผู้บริหารและนักวิเคราะห์ให้สามารถวิเคราะห์ข้อมูลต่างๆได้ดีและสะดวกมากยิ่งขึ้น

Balance Scorecard (BSC)
คือเครื่องมือที่ใช้วัดวัดผลการดำเนินงานในด้านต่างๆ ได้แก่ ด้านการเงิน ด้านลูกค้า ด้านกระบวนการภายใน และด้านการเรียนรู้ ซึ่งทั้ง 4 ด้านควรเติบโตไปพร้อมๆกัน โดยมี KPI เป็นเกณฑ์ในการวัด

Performance Dashboard & Scorecard
                - Performance Dashboard เป็น visual display ที่ใช้ในการควบคุม/ดูแลผลการปฏิบัติงานระดับปฏิบัติการ
                - Performance Scorecard เป็น visual display ที่ใช้ในการประมวลกราฟเพื่อเป้าหมายทางด้านกลยุทธ์

Dashboard มี 3 ประเภท ดังนี้
1.       Operational Dashboard  ระดับปฏิบัติการ
2.       Tactical dashboards  ระดับกลาง
3.       Strategic dashboards  ระดับสูง/ระดับผู้บริหาร

Business Performance Management (BPM)
ใช้ในการเปรียบเทียบผลการดำเนินงานกับเป้าหมาย วัตถุประสงค์และกลยุทธ์ขององค์กร ซึ่ง BPM จะขึ้นกับ BI Analysis Reporting, queries, dashboard และ balance scorecard

Data Mining
เป็นการคัดแยกเอาข้อมูลที่จำเป็นและมีประโยชน์ออกจากข้อมูลทั้งหมด เพื่อนำมาใช้ในการตัดสินใจทางธุรกิจและกำหนดกลยุทธ์องค์กร
1. Clustering การจัดกลุ่มของข้อมูลโดยไม่มีสมมติฐาน แต่จัดกลุ่มข้อมูลที่มีลักษณะเหมือนกันและสามารถเข้ากลุ่มเดียวกันได้
2. Classification การจัดกลุ่มข้อมูลโดยมีสมมติฐาน
3.  Association ผลสืบเนื่องที่เกิดขึ้น เช่น การที่ลูกค้ามาเปิดบริการบัญชีออมทรัพย์ ทำให้สามารถวิเคราะห์ได้ว่า อนาคตมีโอกาสที่ลูกค้าจะเปิดใช้บัตรเอทีเอ็มด้วย เป็นต้น
4. Sequence discovery ผลที่เกิดตามหลัง
5. Prediction การพยากรณ์ไปข้างหน้า เช่น พฤติกรรมที่ทำให้เกิดการโกง

Text Mining
ใช้กับข้อมูลที่เป็น non-structured data คือ ข้อมูลที่ไม่มีรูปแบบชัดเจน ไม่สามารถคำนวณได้ เช่น ข้อติเตียนจากลูกค้า ซึ่งข้อมูลประเภทนี้มีประโยชน์ต่อการพัฒนาองค์กรต่อไป

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

Lecture 8 : 12/01/2011

การจัดการข้อมูล (Data Management)
องค์ประกอบของระบบ (System)
·        วัตถุประสงค์
·        ส่วนประกอบ
·        กระบวนการทำงาน
-         Input       สิ่งที่นำเข้า
-         Process   กระบวนการ
-         Output    ผลลัพธ์
·        สิ่งแวดล้อม
·        ขอบเขต
·        การควบคุม
·        ระบบย่อย

- output เป็นตัวที่ตอบวัตถุประสงค์ (Objective)
- output ของสารสนเทศ  คือ  สารสนเทศ
- Message ใดๆก็แล้วแต่นั้นจะเป็น Data หรือ Information ขึ้นอยู่กับผู้รับ message  หากมันถูกส่งไปยังผู้ที่ไม่มีส่วนได้เสียกับ message นั้น จะถือว่าเป็น Data  แต่ถ้ามันมีอรรถประโยชน์ โดยสามารถทำให้เกิดการเปลี่ยนแปลงในพฤติกรรมได้ message ชิ้นนั้นจะถือเป็น Information

                ระบบสารสนเทศ (Information System) คือ ระบบที่ทำหน้าที่ในการรวบรวมข้อมูล เพื่อนำมาประมวลผล วิเคราะห์ เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน และนำสารสนเทศให้กับผู้ที่ต้องการซึ่งต้องเป็นผู้ที่มีสิทธิได้รับสารสนเทศ รวมทั้งจัดเก็บบันทึกข้อมูลที่นำเข้ามาสู่ระบบไว้เพื่อการใช้งานในอนาคต

องค์ประกอบระบบสารสนเทศ
·        Hardware
·        Software
·        Data
·        Network
·        Procedures
·        People

ระบบสารสนเทศ (ID) สามารถแบ่งได้ 2 ลักษณะ ดังนี้
1.  แบ่งตาม functional ภายในองค์กร เช่น ระบบสารสนเทศทางบัญชี ระบบสารสนเทศทางการตลาด
2.  แบ่งตามระดับผู้ใช้
ü Transaction system
ü Information support System
ü Executive System

การจัดการข้อมูลทำได้ยาก เนื่องจากเหตุผลดังต่อไปนี้
·        ข้อมูลมีจำนวนเพิ่มมากขึ้นอยู่เสมอ
·        ข้อมูลกระจัดกระจายอยู่ภายในองค์กร
·        ข้อมูลมีความซ้ำซ้อน เนื่องจากข้อมูลเพิ่มขึ้น และถูกเก็บรวบรวมโดยขาดการควบคุมที่ดี
·        การตัดสินใจของผู้บริหารระดับสูงใช้ข้อมูลภายนอก
·        ความปลอดภัย  คุณภาพ และความถูกต้องของข้อมูลเป็นสิ่งสำคัญที่ต้องคำนึงถึง
·        การเลือกเครื่องมือที่ใช้ในการจัดการข้อมูลเป็นปัญหาหลัก

ข้อมูลนั้นจะเป็นข้อมูลภายในหรือข้อมูลภายนอกต้องดูที่ความเป็นเจ้าของ ว่าใครคือผู้มีอำนาจควบคุมจัดการกับข้อมูลนั้น  เช่น  คำสั่งซื้อของลูกค้า ถือเป็นข้อมูลภายใน เนื่องจากองค์กรเป็นเจ้าของ องค์กรมีสิทธิจัดการกับข้อมูลนั้น ,ส่วนราคาขายของคู่แข่ง ถือเป็นข้อมูลภายนอก

Data Life Cycle Process
1.  เก็บข้อมูลใหม่จากแหล่งต่างๆ
                2.  เก็บข้อมูลใน database จากนั้น format ข้อมูลใหม่เพื่อส่งเข้าสู่ warehouse
                3.  คัดลอกข้อมูลที่ต้องการใช้ในการวิเคราะห์ แล้วส่งไปยัง data warehouse
                4.  วิเคราะห์ข้อมูล


Data Warehouse
Database และ Data warehouse นั้นไม่ใช่สิ่งเดียวกัน โดย database ทำงานคู่กับ Transaction Processing ส่วน data warehouse นั้นทำงานคู่กับ Analytical Processing

ลักษณะของ Data Warehouse
ü Organization  ข้อมูลต้องถูกนำมาจัดหมวดหมู่ใหม่โดยใช้  subject ก่อนนำมาใส่ใน data warehouse
ü Consistency  ในบางครั้งข้อมูลที่มาจากต่างแหล่งที่มา จะมีลักษณะการบันทึกไม่เหมือนกัน แต่เมื่อจะนำข้อมูลมา ใส่ใน data warehouse จะต้องมีการบันทึกให้เป็นรูปแบบเดียวกันหมดก่อน
ü Time variant  เนื่องจากข้อมูลจะถูกเก็บเป็นเวลานานหลายปี ดังนั้นสามารถนำข้อมูลมาใช้ในการพยากรณ์อนาคต และเปรียบเทียบตามช่วงเวลาได้
ü Non-volatile  เมื่อใส่ข้อมูลลงใน data warehouse แล้วจะไม่มีการเปลี่ยนแปลงหรือ update ข้อมูลใดๆอีก นอกจากการเติมข้อมูลใหม่ (refresh)
ü Relational
ü Client/server

องค์กรที่เหมาะแก่การใช้ Data Warehouse
ü มีข้อมูลจำนวนมากที่ผู้ใช้ต้องการ
ü ข้อมูลถูกเก็บอยู่ในระบบที่ต่างกัน
ü ข้อมูลเดียวกันถูกแสดงในรูปแบบต่างกัน ในต่างระบบ