4/5 - (4 امتیاز)
فرم دادن داده ها عبارت از مطالعه تفاوت های ریز داده ها می باشد که شامل مشخص کردن موارد غیرنرمال، بررسی و ایجاد ساختارهای داده ای مربوطه و بررسی کردن یک سری از آمار های داده ای همانند تعداد سطرها، توزیع مقادیر، مقادیر حداقل و حداکثر ، میانگین ها و سایر موارد می باشد. اهمیت این موضوع در شکل دادن و سازماندهی داده ها نمود پیدا می کند به نحوی که استفاده از داده ها و ارتباط برقرار کردن با آنها و همچنین شناسایی توزیع داده ای تا حد امکان ساده می شود و کارکردن با داده ها و استفاده از آن در گزارشات به راحتی امکان پذیر می شود. فرض کنید که در شرکت خودتان مسئول تهیه گزارش برای تیم فروش باشید. شما در مورد ساختارمند بودن داده ها و قرار داشتن آنها در جداول مطمئین نمی باشید و به همین دلیل تمایل دارید قبل از ایجاد هر نوع تصویر و نموادری داده های اصلی خودتان را فرم دهید. خوشبختانه یک ابزاری در پاور بی آی تعبیه شده است که امکان انجام این کار را برای شما فراهم کرده است.

برای دیدن تمام آموزش های پاور بی آی روی لینک زیر کلیک کنید:

دوره رایگان و فیلم آموزش پاور بی آی (power BI)

بررسی ساختارهای داده ای

قبل از بررسی داده ها در Power Query Editor باید در مورد ساختار های داده ای مربوطه که داده ها در قالب آن سازمان دهی شده اند، اطلاعات لازم را کسب کنید. مدل داده ای موجود را می توانید در تب Model موجود در Power BI Desktop مشاهده کنید.

بررسی ساختارهای داده ای

شما در تب Model می­توانید از طریق انتخاب یک جدول یا ستون ویژگی­های آن را تغییر دهید  و با استفاده از دکمه Transform Data که شما را به Power Query Editor راهنمایی می­کند، داده­ها را تغییر دهید. علاوه­ بر این روابط مابین جداول مختلف را با استفاده از Manage Relationships (که در ریبون قرار دارد) می­توانید مدیریت، ایجاد، ویرایش و حذف کنید.

پیدا کردن موارد غیرنرمال داده ­ای و آمارهای داده ­ای

بعد از ایجاد یک ارتباط با منبع داده­ ای و انتخاب Transform Data، وارد Power Query Editor می­ شوید و می­ توانید وجود داشتن موارد غیرنرمال داده ­ای را مشخص نمایید. داده­ های غیرنرمال در محدوده داده­ های شما مشخص می­ باشند. با مشخص کردن نوع موارد غیرنرمال می­ توانید نوع توزیع نرمال موجود در داده­ ها و وجود داشتن نکات داده­ ای خاص را که نیاز به بررسی­ های بیشتر دارند، مشخص نمایید. Power Query Editor با استفاده از ویژگی Column Distribution موارد غیرنرمال داده ای را مشخص می­ کند.

ریبون View را انتخاب کنید و در قسمت پایین Date Preview یک سری از آپشن­ ها را انتخاب نمایید. به منظور شناخت موارد غیرنرمال داده ­ای و آمارها، آپشن­ های Column Distribution، Column Quality و Column Profile را انتخاب کنید. شکل زیر آمارهایی که ظاهر می ­شوند را نشان می ­دهد.

Column quality و Column distribution در نمودارهای بالای ستون­های داده ­ها نمایش داده شده­ اند. Column quality درصد مربوط به داده­ های قابل قبول، اشتباه و خالی را نشان می­دهد. در ایده ­آل­ترین حالت 100 درصد از داده­ ها معتبر و قابل قبول خواهد بود.

پیدا کردن موارد غیرنرمال داده ­ای و آمارهای داده ­ای

نکته

Power Query به صورت پیش­فرض 1000 سطر اول از مجموعه داده ­ها را بررسی می­ کند. به منظور تغییر این پیش­فرض، ابتدا وضعیت پروفایل کردن را در قسمت وضعیت و بعد از آن Column profiling based on entire data set.] را انتخاب کنید.

Column distribution توزیع داده­ های موجود در داخل ستون، تعداد مقادیر مجزا و منحصر بفرد را نشان می­ دهد که هر دو آن ها می­ توانند جزئیات مربوط به تعداد داده­ ها را نشان دهند. داده­ های مجزا عبارت از تمامی داده ­های موجود در یک ستون هستند که مقادیر تکراری و خالی را هم شامل می­ شوند؛ این در حالی است که داده ­های منحصر بفرد شامل موارد تکراری یا خالی نمی­ باشند. بنابراین distinct تعداد کل مقادیر موجود و unique تعداد کل مقادیری که فقط یکبار وجود دارند را نشان می ­دهد.

Column profile یک دیدگاه عمیقتری را در مورد آمارهای موجود در ستون ­های مربوط به 1000 سطر اول از داده­ ها ارائه می­ دهد. این ستون چندین مقدار مختلف را ارائه می ­دهد که شامل تعداد سطرها هم می­ باشد (تعداد سطرها در فرآیند مربوط به بررسی موفقیت ­آمیز بودن داده­ ها اهمیت دارد). برای مثال در صورتیکه دیتابیس اصلی شما 100 سطر داشته باشد، می­توانید از این شمارشگر سطر برای تایید وارد شدن صحیح این 100 سطر استفاده کنید. همچنین این شمارشگر سطر تعداد سطرهایی را نشان خواهد داد که پاور بی آی به عنوان سطرهای خارج از محدوده، سطرها و رشته­ های خالی و مقادیر حداقل و حداکثر (که به ترتیب بعنوان بیشترین و کمترین مقدار موجود در یک ستون را نشان می ­دهد) فرض کرده است. این تمایز در موارد مربوط به داده­ های عددی اهمیت زیادی پیدا می­ کند، چرا که در صورت بیشتر بودن بزرگترین مقدار از چیزی که در کار شما به عنوان “ماکزیمم” در نظر گرفته شده است، این موضوع بلافاصله به شما اطلاع داده خواهد شد. این مقدار منجر به جلب توجه شما به این مقادیر خواهد شد و باعث می­ شود که تمام تلاش خودتان را وقف بررسی عمیق­تر داده ­ها بکنید. همانطور که در تصویر قبلی مشاهده کردید، در این مورد که داده­ ها در یک ستون متنی قرار دارند، مقدار حداقل عبارت از اولین مقدار و مقدار حداکثر عبارت از آخرین مقدار بر مبنای حروف الفبا می­ باشد.

علاوه بر این نمودار Value distribution تعداد هر یک از مقادیر مجزا را در یک ستون خاص نشان می ­دهد. در حین بررسی نمودار نشان داده شده در تصویر قبلی توجه داشته باشید که توزیع مقداری نشان می دهد که “Anthony Grosse” بزرگترین تعداد بار را در ستون SalesPerson و “Lily Code” کمترین تعداد بار را دارد. این اطلاعات اهمیت زیادی دارند، چرا که منجر به مشخص شدن موارد خارج از محدوده و فاصله­ دار می­ شوند. در صورتیکه یک مقدار فاصله زیادی با سایر مقادیر موجود در یک ستون داشته باشد، ویژگی Value distribution این امکان را به شما می ­دهد تا یک نقطه شروع مناسبی را برای بررسی­ های خودتان مشخص کنید.

همچنین Column Statistics در یک ستون عددی شامل تعداد صفرها و مقادیر خالی و همچنین مقدار میانگین در ستون، انحراف استاندارد از مقادیر موجود در ستون و تعداد مقادیر زوج و فرد در ستون خواهد بود. این آمارها یک دیدگاه مناسبی را در مورد توزیع داده ­ها در داخل ستون ارائه می ­دهند و به دلیل خلاصه کردن داده ­ها در ستون اهمیت دارند و همچنین به عنوان یک نقطه شروع برای مشخص کردن موارد خارج از محدوده استفاده می­ شوند.

برای مثال در حین بررسی داده ­های موجود در فاکتور، متوجه می­ شوید که نمودار توزیع مقدار نشانگر این موضوع می ­باشد که فقط در مورد یک تعدادی از فروشنده­ ها تعداد موارد نشان داده شده در SalesPerson با تعداد موجود در داده­ ها یکسان است. همچنین متوجه می ­شوید که همین شرایط در ستون Profit و برخی از ستون­ های دیگر وجود دارد. در حین بررسی متوجه می ­شوید که داده­ های مورد استفاده شما داده­ های بدی هستند و باید بازیابی شوند؛ بنابراین باید بلافاصله بازیابی را تکمیل کنید. در صورت عدم مشاهده نمودار این امکان وجود دارد که خطاها را به این سرعت نبینید و به همین دلیل است که توزیع مقداری اهمیت زیادی دارد.

بعد از کامل کردن ویرایش ­های خودتان در Power Query و آماده شدن برای ایجاد تصاویر، در ریبون Power Query Editor به Home برگردید. Close & Apply را انتخاب کنید تا به Power BI Desktop برگردید و تمامی موارد ویرایش شده یا تغییر یافته اعمال شوند.

تا این مرحله مولفه­ هایی را که در پروفایل کردن داده ­ها در Power BI نقش دارند، تعیین کردید که شامل بارگزاری داده­ ها در Power BI، بازبینی ویژگی­ های ستون برای شفافیت بیشتر و انجام ویرایش ­های بعدی در نوع و فرمت داده ­های موجود در ستون­ ها، پیدا کردن موارد غیرنرمال داده ­ای و مشاهده آمارهای داده ­ای در Power Query Editor می ­باشند. شما با این دانش کسب شده توانایی لازم برای مطالعه داده ­ها به صورت موثر و کارا را به توانایی­ های قبلی خودتان اضافه کردید.

ممنون که تا اینجا با ما همراه بودید.در آموزش بعد به استفاده از Advanced Editor برای اصلاح کد M خواهیم پرداخت.

مشترک شدن
Notify of
guest

1 نظر
نظردهی درون متنی
مشاهده همه نظرات
نوروزی

عالی بود