রোবটস টেক্সট ফাইল কী? একটি ওয়েবসাইটে এর কী ভূমিকা রয়েছে তা নিয়ে আলোচনা করা হয়েছে। পাশাপাশি এটিকে কিভাবে তৈরী করা উচিত তা নিয়ে এই আর্টিকেলে ক...
রোবটস টেক্সট ফাইল কী? একটি ওয়েবসাইটে এর কী ভূমিকা রয়েছে তা নিয়ে আলোচনা করা হয়েছে। পাশাপাশি এটিকে কিভাবে তৈরী করা উচিত তা নিয়ে এই আর্টিকেলে কিছু পয়েন্ট উল্লেখ করা হয়েছে।
সার্চ ইঞ্জিন যেমন গুগল, বিং একপ্রকার প্রোগ্রাম ব্যবহার করে ইন্টারনেটে থাকা ওয়েবসাইটগুলোতে গিয়ে জরুরী তথ্যগুলো সংগ্রহ করে। এভাবে এই প্রোগ্রাম এক ওয়েবসাইট থেকে আরেকটি ওয়েবসাইটে গিয়ে তথ্যগুলো সংগ্রহ করে। এই ধরণের প্রোগ্রামগুলোকে ওয়েব ক্রলারস, ওয়েবসাইট বট, রোবটস কিংবা স্পাইডার বলা হয়।
ইন্টারনেটের একদম প্রাথমিক পর্যায়ে কম্পিউটার এর পাওয়ার সিস্টেম এবং মেমোরি অত্যান্ত ব্যায়বহুল ছিল। তখন ওয়েবসাইট পরিচালনাকারীরা এসকল বট, স্পাইডার কিংবা ওয়েব ক্রলারস এর জন্য অনেক বিরক্ত অনুভব করতেন।
কারণ তখন ওয়েবসাইটের সংখ্যা ছিল খুবই কম। যার ফলে ওয়েবসাইট এর ক্রলারস বার বার ওয়েবসাইটে আসতো। ফলস্বরূপ আসল ওয়েবসাইট ব্যাবহারকারীরা ওয়েবসাইট দেখতে পেতো না। সার্ভার ডাউন থাকতো। ওয়েবসাইটের রিসোর্স শেষ হয়ে যেত।
এই সমস্যা সমাধানের উদ্দেশ্যে ওয়েবসাইট পরিচালকেরা রোবটস টেক্সট ফাইল এর কথা চিন্তা করেন।
রোবটস টেক্সট ফাইল এর মূল কাজ
রোবটস টেক্সট ফাইল সার্চ ইঞ্জিনের সকল প্রকারের ক্রলার এবং ওয়েব রোবটসমূহকে কিছু ইন্সট্রাকশন দিবে। ইস্ট্রাকশনে বলা থাকবে ওয়েবসাইটের মালিক ওয়েবসাইটের কোন কোন অংশকে দেখার অনুমতি দিচ্ছে এবং কোন কোন অংশকে দেখার অনুমতি দিচ্ছে না। robots.txt একটি টেক্সট ফাইল। এটি ওয়েবসাইটের রুট ফোল্ডারে থাকে।
আমরা একটি ওয়েবসাইটকে উদাহরণস্বরূপ নিতে পারি। ধরলাম এটির ডোমেইন এর নাম : https://abcd.com
যখন কোনো সার্চ ইঞ্জিনের রোবট ওয়েবসাইটটিকে ভিজিট করবে তখন সর্বপ্রথম সেটি এর রোবটস টেক্সট ফাইলকে খুঁজবে। এক্ষেত্রে এটি খুঁজবে https://abcd.com/robots.txt। যদি ফাইলটি না পাওয়া যায় তাহলে ওয়েব রোবট সম্পূর্ণ ওয়েবসাইটটিকে ক্রল করে এর যে কোনো কন্টেন্টকে সার্চ রেজাল্টে দেখাতে পারবে।
ওয়েবক্রলার যদি ওয়েবসাইটটির https://abcd.com/robots.txt ফাইলটিকে খুঁজে পায় তাহলে এটি ফাইল এ উল্লেখিত সম্পূর্ণ নির্দেশনা ফলো করবে।
এখন পর্যন্ত যা আলোচনা করা হয়েছে তা নিচে দেওয়া হলো।
- robots.txt একটি টেক্সট ফাইল
- এটিকে ওয়েবসাইটের রুট ফোল্ডারে রাখা হয়
- সবসময় ফাইলটির নাম হয় robots.txt
- উদাহরণ: https://abcd.com/robots.txt
- এই ফাইলে দেয়া নির্দেশনা কোনো সার্চ ইঞ্জিনের বট মানতেও পারে আবার নাও মানতে পারে
যদিও গুগল, বিং, ইয়াহু, ইয়ানডেক্স এই নির্দেশনাগুলো মেনে চলে। তবে ছোট সার্চ ইঞ্জিনসমূহ এগুলো সাধারণত মেনে চলে না।
আরও জানুনঃ ক্যানোনিকাল ট্যাগ কী এবং এটি কিভাবে ব্যবহার করতে হয়।
রোবটস টেক্সট ফাইল এ কী কী থাকে?
User-agent: *
Disallow:
এই অংশটুকু রোবটস টেক্সট ফাইল এর আবশ্যক বিষয়বস্তু। আপনি যদি সকল সার্চ ইঞ্জিন রোবট সমূহকে আপনার ওয়েবসাইটের সকল পেইজসমূতে যাওয়ার অনুমতি দিতে চান তাহলে আপনার ওয়েবসাইটে রোবোটস টেক্সট ফাইল এ শুধু এইটুকুই থাকতে হবে।
এই ফাইলের প্রথম লাইনটি হলো User-agent: *। এর মাধ্যমে বোঝানো হয়েছে সকল প্রকারের সার্চ ইঞ্জিন বট এর জন্য নির্দেশনা রয়েছে।
দ্বিতীয় লাইনটি হলো Disallow: । এর পরে আর কিছু নেই। অর্থাৎ সকল সার্চ ইঞ্জিনের জন্য এই ওয়েবসাইটের কোনো অংশকে নিষেধ করা হয় নি।
যদি Disallow: এর পর / ( ফরওয়ার্ড স্ল্যাশ ) চিহ্ন যুক্ত করা থাকে তাহলে সার্চ ইঞ্জিন বট বুঝে নিবে যে রুট ডিরেক্টরি এর সকল ফাইল ক্রল করতে নিষেধ করা হয়েছে।
তবে মনে রাখবেন, সকল প্রকার ওয়েবসাইটের ডোমেইন এর পর ফরওয়ার্ড স্ল্যাশ দিয়ে এরপরই কোনো একটি তৈরী হয়।
- https://abcd.com/about
- https://abcd.com/blog
এবং হোম পেইজ এর ক্ষেত্রে ডোমেইন এর পরে ফরওয়ার্ড স্ল্যাশ তারপর .html অথবা .php থাকে। ওয়েব ব্রাউজার এটিকে হাইড করে রাখে। যদি আপনি Disallow: এর পরে / ব্যবহার করেন তাহলে আপনি আপনার ওয়েবসাইটের সকল ফাইলকে সার্চ ইঞ্জিনের জন্যে ব্লক করে দিচ্ছেন।
যদি আপনি স্পেসিফিক কোনো সার্চ ইঞ্জিনকে আপনার ওয়েবসাইটকে ক্রল করা থেকে বিরত রাখতে চান তাহলে User-agent: * এর * এর জায়গায় ওই সার্চ ইঞ্জিন বট এর নাম দিতে পারেন। এরপরে আপনার নির্দেশনা যুক্ত করবেন।
যেমন, গুগলকে নিষেধ করলে ফাইল এর টেক্সট এমন হবে।
User-agent: Googlebot
Disallow:
এস ই ও তে রোবটস টেক্সট ফাইল এর প্রভাব
গুগল প্রতিটি ওয়েবসাইটের জন্য একটি ক্রল বাজেট রাখে। এর মাধ্যমে নির্ধারিত হয় গুগল বট আপনার ওয়েবসাইটিতে কত বার আসবে। এটি দুইটি বিষয়ের উপর নির্ভরশীল।
- আপনার সার্ভার ক্রল করার সময় স্লো হয়ে যাচ্ছে নাতো?
- আপনার ওয়েবসাইট কতোটা পরিচিত এবং বিখ্যাত।
যেসকল ওয়েবসাইটে অনেক কন্টেন্ট সেগুলোকে গুগল বার বার চেক করতে চায়। যাতে গুগল কনটেন্ট এর সাথে সার্চ রেজালকে আপডেটেড রাখতে পারে।
আপনি যদি চান গুগল আপনার ওয়েবসাইটে করল বাজেটের সেরাটা দিক তাহলে আপনি ওয়েবসাইটের গুরুত্বহীন পেইজগুলোকে ব্লক করে দিতে পারেন।
রোবটস টেক্সট ফাইল এর মাধ্যমে মেইনটেনেন্স পর্যায়ে থাকা পেইজগুলোকে ইন্ডেক্সিংএ ব্লক করতে পারেন।
আবার উদাহরণস্বরূপ আমরা আগের ওয়েবসাইটটিকে নিয়ে আসতে চাই , আগের ওয়েবসাইটটির ঠিকানা https://abcd.com/
এই ওয়েবসাইটে result নামে একটি ফোল্ডার রয়েছে, যেটিতে result.html নামে একটি পেইজ রয়েছে।
result ফোল্ডারের সকল ফাইলকে সার্চ ইঞ্জিন এর ক্রলিং থেকে বন্ধ রাখতে রোবটস টেক্সট ফাইল এ এই কোড টুকু যুক্ত করবেন।
User-agent: *
Disallow: /result
শুধুমাত্র result.html পেইজটিকে ক্রলিং থেকে বন্ধ রাখতে এই কোডটুকু যুক্ত করবেন।
User-agent: *
Disallow: /result.html
এছাড়া রোবটস টেক্সট ফাইল এ সার্চ রোবটের জন্য সাইটম্যাপ এর লিংক যুক্ত করতে পারেন। এজন্য আপনাকে এই লাইনটি যুক্ত করতে হবে।
Sitemap: https://abcd.com/sitemap.xml
সার্চ ইঞ্জিনের বট এর ক্রলিং এর জন্যে আপনার ওয়েবসাইট সাধারণ ব্যাবহারকারীদের জন্য কিছুটা স্লো হয়ে যেতে পারে। যদি আপনার ওয়েবসাইটে অনেক বেশি ট্রাফিক আসে তাহলে এই স্লো হয়ে যাওয়া কিছুটা হলেও ক্ষতিকর হতে পারে। এজন্য আপনি রোবটস টেক্সট ফাইল এ একটি ক্রল ডিলে টাইমার যুক্ত করতে পারেন। এটি ব্যবহার করলে সার্চ ইঞ্জিন রোবট একটি পেইজকে ক্রল করবার পরে আরেকটি পেইজকে করল করার পূর্বে কিছুটা সময় ওয়েট করবে।
এই অপেক্ষার সময় কিংবা ক্রলিং ডিলে ডিফল্টভাবে মিলি সেকেন্ডে হিসাব করা হয়। এটি যুক্ত করার জন্য নিচের কোডটি যুক্ত করবেন।
Crawl-delay: ( মিলি সেকেন্ড এ সময় )। যেমন, ক্রলিং ডিলে ১০ সেকেন্ড দিতে চাইলে নিচের কোডটুকু যুক্ত করবেন।
Crawl-delay: 10
এর অর্থ হলো ক্রলার একটি পেইজকে করল করবার পরে ১০ মিলিসেকেন্ড অপেক্ষা করবার পরে আরেকটি পেইজে যাবে। এর ফলে আপনার সাইট হটাৎ স্লো হয়ে যাবে না।
উপসংহার
আমরা আশা করি এই আর্টিকেলে উল্লেখিত রোবটস টেক্সট ফাইল সম্পর্কিত তথ্য সঠিকভাবে আপনার ওয়েবসাইটের রোবটস টেক্সট ফাইল তৈরিতে সাহায্য করবে। পাশাপাশি আগে থেকে তৈরী করা ফাইল এর মেইন্টেইনেন্স এবং প্রয়োজনীয় সময়ে আপডেট এ সাহায্য করবে।
No comments