শ্রেণীবিভাগ একটি ডেটা মাইনিং কৌশল যা আরও সঠিক ভবিষ্যদ্বাণী এবং বিশ্লেষণে সহায়তা করার জন্য তথ্য সংগ্রহের বিভাগগুলিকে বরাদ্দ করে। কখনও কখনও বলা হয় একটি সিদ্ধান্ত গাছ , শ্রেণীবদ্ধকরণ খুব বড় ডেটাসেটগুলির বিশ্লেষণকে কার্যকর করার উদ্দেশ্যে বিভিন্ন পদ্ধতির একটি।
ক্লাসিফিকেশন কেন?
খুব বড় ডাটাবেস আজকের বিশ্বের আদর্শ হয়ে উঠছে বড় তথ্য । একাধিক টেরাবাইট তথ্য সহ একটি ডাটাবেস কল্পনা করুন - একটি টেরাবাইট এক দশ সহস্রের ত্রিঘাত তথ্য বাইট।
একমাত্র ফেসবুক একক দিনে 600 টেরাবাইট নতুন ডাটা ক্রাশ করে (২014 সালের হিসাবে, শেষ বার এটি এই চশমাগুলির প্রতিবেদন করে)। বড় তথ্য প্রধান চ্যালেঞ্জ কিভাবে এটি জ্ঞান করতে হয়।
এবং নিছক ভলিউম শুধুমাত্র সমস্যা নয়: বড় তথ্যও বিভিন্ন, অনির্ধারিত এবং দ্রুত পরিবর্তনশীল হতে থাকে। অডিও এবং ভিডিও তথ্য, সোশ্যাল মিডিয়া পোস্ট, 3 ডি ডেটা বা জিওস্প্যাটিয়াল ডেটা বিবেচনা করুন। এই ধরনের তথ্য সহজে শ্রেণীবদ্ধ বা সংগঠিত করা হয় না।
এই চ্যালেঞ্জটি পূরণ করার জন্য, তাদের মধ্যে দরকারী তথ্য আহরণের জন্য স্বয়ংক্রিয় পদ্ধতির একটি পরিসর উন্নত করা হয়েছে শ্রেণীবিন্যাস .
কিভাবে শ্রেণীবিভাগ কাজ করে
প্রযুক্তির মধ্যে খুব বেশি দূরে যাওয়ার বিপদ নিয়ে, আসুন শ্রেণিকরণ কিভাবে কাজ করে তা নিয়ে আলোচনা করা যাক। লক্ষ্য শ্রেণীকরণ নিয়ম সেট একটি সেট যা একটি প্রশ্নের উত্তর, একটি সিদ্ধান্ত, বা পূর্বাভাস আচরণ করা হবে। শুরু করার জন্য, প্রশিক্ষণের ডেটা একটি সেট তৈরি করা হয়েছে যা বৈশিষ্ট্যের একটি নির্দিষ্ট সেট এবং সম্ভাব্য ফলাফল রয়েছে।
শ্রেণীবদ্ধকরণ অ্যালগরিদম কাজটি কীভাবে উপাদানের সেটটি তার উপসংহারে পৌঁছায় তা আবিষ্কার করা।
দৃশ্যপট: সম্ভবত একটি ক্রেডিট কার্ড কোম্পানী কোন সম্ভাবনা ক্রেডিট কার্ড অফার গ্রহণ করা উচিত তা নির্ধারণ করার চেষ্টা করছে।
এটি প্রশিক্ষণ তথ্যের সেট হতে পারে:
নাম | বয়স | লিঙ্গ | বার্ষিক আয় | ক্রেডিট কার্ড অফার |
---|---|---|---|---|
জন ডো | 25 | এম | $39,500 | না |
জানি দই | 56 | এফ | $125,000 | হাঁ |
"পূর্বাভাস" কলাম বয়স , লিঙ্গ , এবং বার্ষিক আয় "পূর্বাভাস বৈশিষ্ট্য" মান নির্ধারণ করুন ক্রেডিট কার্ড অফার । একটি প্রশিক্ষণ সেট, predictor বৈশিষ্ট্য পরিচিত হয়। ক্লাসিফিকেশন অ্যালগরিদম তারপর নির্ধারণ করে যে ভবিষ্যদ্বাণী বৈশিষ্ট্যটির মান কীভাবে পৌঁছানো হয়েছে: ভবিষ্যদ্বাণী এবং সিদ্ধান্তের মধ্যে কোন সম্পর্ক বিদ্যমান? এটি ভবিষ্যদ্বাণী নিয়মগুলির একটি সেট বিকাশ করবে, সাধারণত একটি আইএফ / থেন স্টেটমেন্ট, উদাহরণস্বরূপ:
যদি (বয়স> 18 বা বয়স <75) এবং বার্ষিক আয়> 40,000 THEN ক্রেডিট কার্ড অফার = হ্যাঁ
স্পষ্টতই, এটি একটি সহজ উদাহরণ, এবং অ্যালগরিদম এখানে দেখানো দুটি রেকর্ডের চেয়ে অনেক বেশি তথ্য নমুনা প্রয়োজন। অধিকন্তু, পূর্বাভাসের নিয়মগুলি আরো বেশি জটিল হতে পারে, এটিকে বৈশিষ্ট্যের বিবরণ ক্যাপচার করতে উপ-নিয়ম সহ।
পরবর্তীতে, অ্যালগরিদমটি বিশ্লেষণের জন্য ডেটা "পূর্বাভাস সেট" দেওয়া হয়, তবে এই সেটটিতে ভবিষ্যদ্বাণী বৈশিষ্ট্য (বা সিদ্ধান্ত) অভাব রয়েছে:
নাম | বয়স | লিঙ্গ | বার্ষিক আয় | ক্রেডিট কার্ড অফার |
---|---|---|---|---|
জ্যাক ফ্রস্ট | 42 | এম | $88,000 | |
মেরি মারে | 16 | এফ | $0 |
এই ভবিষ্যদ্বাণীকারী তথ্য ভবিষ্যদ্বাণী নিয়মগুলির নির্ভুলতা অনুমান করতে সহায়তা করে এবং বিকাশকারী ভবিষ্যদ্বাণীগুলিকে কার্যকরী এবং কার্যকর বিবেচনা না করা পর্যন্ত তারপরে নিয়মগুলি টিকিট করা হয়।
শ্রেণিবিন্যাস শ্রেণীবিভাগের উদাহরণ দিন
শ্রেণীবিভাগ, এবং অন্যান্য ডেটা মাইনিং কৌশল, ভোক্তাদের হিসাবে আমাদের প্রতিদিনের দৈনন্দিন অভিজ্ঞতা পিছনে।
আবহাওয়া পূর্বাভাস শ্রেণিবদ্ধকরণ ব্যবহার করে দিন রিপোর্ট করতে পারে দিন দিন বৃষ্টির, রৌদ্রোজ্জ্বল বা মেঘলা হবে কিনা। চিকিৎসা পেশা মেডিকেল ফলাফল পূর্বাভাস স্বাস্থ্যের বিশ্লেষণ হতে পারে। ক্লাসিফিকেশন পদ্ধতির একটি ধরন, নাইভ Bayesian, স্প্যাম ইমেল শ্রেণীকরণ শর্তাধীন সম্ভাবনা ব্যবহার করে। জালিয়াতি সনাক্তকরণ থেকে পণ্য অফার থেকে, শ্রেণীকরণ প্রতিদিন বিশ্লেষণ এবং পূর্বাভাস উত্পাদনের বিশ্লেষণ দৃশ্যের পিছনে।