আমি নিবন্ধের জন্য অনেক সময় ব্যয় করি এবং প্রায়শই আমি ট্রেন স্টেশনে হাঁটার সময় বা সাধারণভাবে যখন কোন নিবন্ধের বিষয় সম্পর্কে চিন্তা করি।
আমার কাজ থেকে স্টেশন থেকে 1.5 মাইল হাঁটার সময় এক সন্ধ্যায় আমি ভাবলাম, "আমি যা বলতে চাই তা রেকর্ড করতে পারলে ভাল হবে না এবং তারপরে এটি একটি পাঠ্য ফাইলে স্বয়ংক্রিয়ভাবে রূপান্তরিত হবে যা আমি পরে সম্পাদনা করতে এবং ফর্ম্যাট করতে পারি" ।
লিনাক্সে স্বাক্ষর সফ্টওয়্যার ব্যবহার করে সরাসরি মাইক্রোফোনের মাধ্যমে রেকর্ডিং সহ MP3 এবং WAV ফর্ম্যাটে ফাইলটি রেকর্ড করা এবং কমান্ড লাইনের মাধ্যমে এটি রূপান্তরিত করার পাশাপাশি ক্রোম ব্যবহার করে আমি স্বর স্বীকৃতি এবং স্বরবর্ণের জন্য উপলব্ধ বিভিন্ন বিকল্পগুলি দেখার জন্য অনেকগুলি ঘন্টা অতিবাহিত করেছি। এবং অ্যান্ড্রয়েড অ্যাপ্লিকেশন।
এই নিবন্ধটি কঠোর পরিশ্রমের পর আমার ফলাফলগুলি তুলে ধরে।
লিনাক্স অপশন
লিনাক্সে স্বরলিপি এবং ভয়েস স্বীকৃতি সফ্টওয়্যার খুঁজে বের করার চেষ্টা করা যত সহজ হবে না এবং উপলব্ধ বিকল্পগুলি চতুর নয়।
এই উইকিপিডিয়া পৃষ্ঠায় সিএমইউ স্পিন্স, জুলিয়াস এবং সাইমন সহ সম্ভাব্য বিকল্পগুলির একটি তালিকা রয়েছে।
আমি স্পার্কলিউনক্স ব্যবহার করছি যা এই মুহুর্তে ডেবিয়ান টেস্টিংয়ের উপর ভিত্তি করে এবং আমি আপনাকে বলতে পারি যে রিপোজিটরিগুলিতে উপলব্ধ একমাত্র ভয়েস স্বীকৃতি প্যাকেজ স্পিঙ্ক।
আমি শেষ পর্যন্ত চেষ্টা চালিয়ে গেছি এমন লিনাক্স প্রোগ্রামগুলি পকেটসফিনক্স ছিল, যা আমি WAV ফাইলগুলিকে টেক্সট এবং Freespeech-VR রূপান্তর করতে ব্যবহার করতাম যা একটি পাইথন অ্যাপ্লিকেশন যা আপনাকে সরাসরি একটি মাইক্রোফোন থেকে রেকর্ড করতে দেয়।
আমি ভয়েসনোট II এবং ডিক্টানোট সহ কয়েকটি ক্রোম অ্যাপ্লিকেশানও চেষ্টা করেছি।
অবশেষে আমি "ডিক্টেশন অ্যান্ড ই-মেইল" এবং "টক অ্যান্ড টক ডিক্টেশন" অ্যান্ড্রয়েড অ্যাপস চেষ্টা করেছি।
Freespeech-ভি
Freespeech-VR মান সংগ্রহস্থলের মধ্যে উপলব্ধ নয়। আমি এখানে থেকে ফাইল ডাউনলোড।
জিপ ফাইলের বিষয়বস্তু ডাউনলোড এবং এক্সট্রাক্ট করার পরে আমি একটি টার্মিনাল খুললাম এবং ফাইলটি যেখানে এক্সট্র্যাক্ট হয়েছিল সেখানে নেভিগেট করা হয়েছিল। আমি freespeech-vr খুলতে নিম্নলিখিত কমান্ড টাইপ করেছি।
সুডো পাইথন ফ্রীসপিচ-ভিআর
আমার একটি মোটামুটি উপযুক্ত মাইক্রোফোন এবং একটি মোটামুটি স্পষ্ট দক্ষিণ ইংরেজী অ্যাকসেন্ট সহ হেডফোনগুলির একটি জোড়া আছে।
নিম্নলিখিত টেক্সট freespeech-vr উইন্ডোতে হাজির:
ফলাফলের ইউনিট কুকুরগুলিতে আপনাকে স্বাগতম আজ পরীক্ষা পরিচালিত করতে হবে কীভাবে পরীক্ষা করতে হবে তা পাঠানোর সময় কোনও পদ্ধতিতে পদ্ধতি ব্যবহার করে পাঠ্যক্রমটি আমি প্রত্যেককেই একমাত্র থাকার আশা করতে এবং এক মুরগীর ব্যবস্থা হিসাবে সুবর্ণ Ea যখন এটি আমার নাম পরবর্তী নাম ফোন করে ফোন করে এই ফাইলটি শীঘ্রই হাতের কাছে ফোনগুলি যথেষ্ট পরিমাণে- স্পিন্স স্পেস যে স্থানটি কোনও ফোনের ভাগ করা হবে না প্রশিক্ষিত এবং সরঞ্জামগুলি ব্যবহার করুন যখন আপনি শেষ করেন বলুন একটি ব্যবহৃত ফাইল বলুন শেষ কাহিনী A এবং এটি ব্যবহার করে যখন এটি কতটা সফল হয় তখন এই লিনাক্সটি যেমনটি আপনি এড়িয়ে যান তেমনই ছিল
আমি এখন বলতে চাই যে এটি কুকুরের ওয়েবসাইট নয় এবং গোল্ডেন মুরগীর সাথে আমি কোনও কথা উল্লেখ করিনি। আমি আসলে ভয়েস স্বীকৃতি সফ্টওয়্যার ব্যবহার করার প্রক্রিয়া বর্ণনা করার চেষ্টা করা হয়।
আমি পরিবর্তিত পিচ এবং গতি সহ কয়েক বার সফটওয়্যার চেষ্টা কিন্তু সঠিকতা দরিদ্র ছিল।
PocketSphinx
PocketSphinx একটি WAV ফাইল নিতে সক্ষম এবং কমান্ড লাইন ব্যবহার করে এটি পাঠ্য রূপান্তর করতে সক্ষম। PocketSphinx ডেবিয়ান রিপোজিটরির মাধ্যমে উপলব্ধ এবং অধিকাংশ বিতরণের জন্য উপলব্ধ হওয়া উচিত।
পকেটসফিনক্সের সাথে পাওয়া প্রধান সমস্যাটি হল যে আপনি ভয়েস স্বীকৃতি, ভাষা ফাইল, অভিধান এবং কীভাবে সিস্টেমকে প্রশিক্ষণ দিতে হয় তার ধারণাগুলির একটি ডিগ্রী প্রয়োজন।
PocketSphinx ইনস্টল করার পরে আপনি সিএমইউ স্পিন্সক্স ওয়েবসাইটে যান এবং যতটা সম্ভব তথ্য পড়তে হবে। আপনি নিম্নলিখিত মডেল ফাইল ডাউনলোড করতে হবে।
- মার্কিন ইংরেজি জেনেরিক ভাষা মডেল
(আপনি যদি একজন নেটিভ ইংলিশ স্পিকার না হন তবে আপনার পক্ষে উপযুক্ত ভাষা মডেলটি চয়ন করুন)।
PocketSphinx এবং Sphinx এর জন্য ডকুমেন্টেশনটি সাধারণ ব্যক্তিটির পক্ষে বোঝা কঠিন কিন্তু আমি অভিধান ফাইলগুলি তৈরি করতে পারি এমন সম্ভাব্য শব্দের তালিকা এবং ভাষা মডেলগুলির সম্ভাব্য বাক্যাংশগুলির একটি তালিকা সরবরাহ করতে ব্যবহৃত হয়।
পকেটসফিন্স পরীক্ষা করার জন্য আমি আমার নিজের ভয়েস, "দ্য ডেভিলস অ্যাডভোকেট" -এ আল প্যাসিনোর একটি স্নিপেট এবং "মর্গান ফ্রিম্যান" থেকে একটি স্নিপেট ব্যবহার করেছি। এর বিন্দু বিভিন্ন কন্ঠস্বর চেষ্টা করে এবং আমার জন্য এমন কেউ নেই যে মরগান ফ্রিম্যানের মতো স্পষ্টভাবে একটি গল্প বলতে পারে এবং কেউ আল প্যাসিনোর মতো লাইন সরবরাহ করে না।
PocketSphinx কাজ করার জন্য এটি একটি WAV ফাইলের প্রয়োজন এবং এটি একটি নির্দিষ্ট বিন্যাসে থাকা প্রয়োজন। যদি ফাইলটি এমপি 3 ফরম্যাটে থাকে তবে এটি WAV ফর্ম্যাটে রূপান্তর করতে ffmpeg কমান্ডটি ব্যবহার করুন:
ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav
PocketSphinx চালানোর জন্য নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log
pocketsphinx_continuous একটি WAV ফাইল নেয় এবং পাঠ্যতে রূপান্তর করে।
পকেটেটফিনক্সের কমান্ডটি "cmusphinx-5.0-en-us.lm" ভাষা মডেলের সাথে "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" নামে একটি অভিধান ফাইল ব্যবহার করার কথা বলে। ফাইলটিতে রূপান্তরিত হওয়া ফাইলটি voice2.wav (যা আমি আমার ভয়েস দিয়ে তৈরি একটি রেকর্ডিং) বলা হয়। অবশেষে 2> সব verbose আউটপুট রাখে যা আপনাকে অগত্যা voice2.log নামে একটি ফাইলের প্রয়োজন হয় না। পরীক্ষার প্রকৃত ফলাফল টার্মিনাল উইন্ডোতে প্রদর্শিত হয়।
আমার ভয়েস ব্যবহার করে ফলাফল নিম্নরূপ:
এক মিনিটের মধ্যে কোন স্বীকৃতি সফ্টওয়্যার সম্পর্কে ভাল এই সপ্তাহে পরবর্তী সম্পর্কে স্বাগত জানাই
ফলাফল freespeech-vr এর মতো ভয়ঙ্কর নয় তবে এখনও ব্যবহারযোগ্য নয়। আমি তারপর আল Pacino সঙ্গে PocketSphinx ব্যবহার করার চেষ্টা করে কিন্তু এই সব কোন ফলাফল ফিরে।
অবশেষে আমি "ব্রুস সর্বশক্তিমান" চলচ্চিত্র থেকে মর্গান ফ্রিম্যানের ভয়েস ব্যবহার করার চেষ্টা করেছি এবং এখানে ফলাফলগুলি হল:
000000000: আমরা তার উপর করব000000001: সব ঠিক যে দিন হ্যাঁ হ্যাঁ যে এই হ্যাঁ হ্যাঁ আমরা জীবিত হয়েছে সবচেয়ে গরম আমি অংশ দ্বারা অংশ000000002: লিফটে বাজেলের কিছুটা কী বা কীভাবে জীবনযাপন করতে হয় তা জানুন।000000003: পুনরুদ্ধার করা হবে যে কি000000004: তারা এটা লিখতে পারে নি000000005: তারা আমার উপর ডান আছে000000006: আপনি নিয়ম হতে হবে000000007: আমি আপনাকে প্রত্যাশা করা হয়েছে000000008: এবং তিনি এখানে শিখেছেন যে একটি চিত্রণ ছিল হত্যাকারী ক্রিসমাস পার্টি000000009: এটি একটি লেখার উপায় খুঁজে বের করে। গাধা আমি চিন্তা সবসময় কয়েক পরেন000000010: একত্রিত সমস্যাটি ভালো করে দেবে না, আমি সেই মুহুর্তে তাদের আনুমানিক অনুমান করছি যখন আমরা মনে করি না যে আমি পৃথিবীতে যাব আপনি যা মনে করেন তার সবই ঘর হবে এবং আমি তা দেখেছি000000011: এটি একটি পিতা যারা আছে000000012: এই সম্পর্কে কি অনেক000000013: যে দেওয়া000000014: আপনি যে সবকিছু যে অনেক জন্য পড়ে না000000015: ঠিক পড়ে পড়েছে000000016: শুধু আমার জন্য রাখা000000017: এটা অসুখী যে আমিও মনে করি যে তাদের কাছে এমন একটি আছে যা তারা বিয়ে করবে তার কোনটিই হবে না আমরা আমাদের মত অসম্মান চাই
আমার পরীক্ষাটি বৈজ্ঞানিকভাবে বিবেচনা করা যায় না এবং পকেটসফিন্সের ডেভেলপাররা বলতে পারে যে আমি সঠিকভাবে সফ্টওয়্যার ব্যবহার করছি না। ভয়েস প্রশিক্ষণ নামে একটি কৌশল রয়েছে যা আরও ভাল অভিধান এবং ভাষা ফাইল তৈরি করতে ব্যবহার করা যেতে পারে।
আমার overriding মতামত যদিও এটি দৈনন্দিন দৈনন্দিন ব্যবহারের জন্য খুব কঠিন।
ভয়েসনোট II
ভয়েসনোট II একটি ক্রোম অ্যাপ যা Google Voice স্বীকৃতি API ব্যবহার করে।
আপনি যদি Chrome বা Chromium ব্রাউজার ব্যবহার করেন তবে আপনি ওয়েব দোকানের মাধ্যমে ভয়েসনোট II ইনস্টল করতে পারেন।
ভয়েসনোট II- এ আইকনগুলি অদ্ভুত ফ্যাশন হিসাবে সজ্জিত করা হয়েছে কারণ আপনাকে উইন্ডোটির নীচে ভাষা সেট আপ করতে হবে এবং সম্পাদনা বোতামটি নীচেও থাকবে তবে রেকর্ড বোতামটি উপরের ডানদিকের অবস্থানে থাকবে।
আপনাকে যা করতে হবে তা প্রথমে একটি ভাষা নির্বাচন করুন এবং এটি বিশ্ব আইকনে ক্লিক করে অর্জন করা যেতে পারে।
রেকর্ডিং শুরু করতে, মাইক্রোফোন আইকনের উপর ক্লিক করুন এবং আপনার মাইক্রোফোনে কথা বলা শুরু করুন। সবচেয়ে ভাল ফলাফলের জন্য আমি ধীরে ধীরে বলার অপেক্ষা রাখে না, যাতে সফটওয়্যারটি চালিয়ে যাওয়ার সুযোগ থাকবে।
নীচে দেখা যায় হিসাবে ফলাফল মহান ছিল না:
হ্যালো এবং সংযোগ করতে স্বাগত জানাই। Go-Travels.com আজকের পাঠ্য রূপান্তরকে ডোনালম ফরেলেল মন্দা 2008 রূপান্তর রূপে ভয়েস সম্পর্কিত নিবন্ধগুলি এবং এটি ভালভাবে সমর্থিত হয়েছে যে আমি ভয়েস পাঠ্য অ্যাডন খুঁজে পেয়েছি 2014debian বা rpm প্যাকেজটি শোনার জন্য এটি ভয়েস টাইপটি খোলে পাঠ্যটিতে খুলুন যদি আপনি এটি চয়ন করতে চান বনাম এডিনবার্গে নির্বাচিত ফ্রেঞ্চ জার্মানী আপনাকে সমুদ্রের মাইক্রোফোনে একত্রিত রাজত্বের সময় পেতে দেয়। কিছুক্ষন আপনি টেক্সট পাঠ্য হিসাবে আপনার লেখাটি লেখার কাজটি শেষ করেছেন। এটি ইংরেজিতে দক্ষিণের ইংরেজী ভাষার খুব ভাল ইংরেজী অ্যাকসেন্ট। এটির জন্য আমি সবচেয়ে ভাল, কিন্তু আমি এই টরেন্টলং প্রকৃত নথির সাথে এবং আপনি শোনা বন্ধুদের জন্য makethank যে ভুল দেখতে পারেন
Dictanote
ডিক্টনোট আরেকটি ক্রোম অ্যাপ্লিকেশন যা হুকুমের উদ্দেশ্যে ব্যবহার করা যেতে পারে এবং আরও স্বজ্ঞাত হিসাবে জুড়েছে কিন্তু ফলাফলগুলি ভয়েসনোট II এর চেয়ে ভাল ছিল না।
আমি শুধুমাত্র ডিক্টনোটের ডেমো সংস্করণটি ব্যবহার করেছি যা আপনাকে নতুন নথি তৈরি করতে বাধা দেয় তবে এটি আপনাকে এডিটরতে থাকা পাঠ্যের উপরে কথা বলতে দেয়। আমি ভয়েস স্বীকৃতি পরীক্ষা করতে সক্ষম হয়েছিলাম কিন্তু ফলাফলগুলি ভয়েসনোট II এর চেয়ে ভাল ছিল না এবং তাই আমি প্রো সংস্করণের জন্য সাইন আপ করি নি।
নিন্দা এবং মেইল
"ডিকটেশন অ্যান্ড মেইল" একটি Android অ্যাপ্লিকেশন যা নেটিভ গুগল ভয়েস স্বীকৃতি API ব্যবহার করে।
"ডিক্টেশন এবং মেইল" এর ফলাফলগুলি এই বিন্দু পর্যন্ত অন্য কোন প্রোগ্রামের চেয়ে অনেক ভাল ছিল।
হ্যালো, লিনাক্স লাইফওয়েরে স্বাগতম। আজ আমরা শব্দকে টেক্সট রূপান্তরিত করার কথা বলছি
"ডিক্টেশন এবং মেইল" এর সাথে কৌশলটি ধীরে ধীরে কথা বলা এবং শব্দের সাথে এমনকি আপনি উচ্চারণ করতে পারেন।
আপনি কথা শেষ করার পরে আপনি নিজের ফলাফল ইমেল করতে পারেন।
কথা বলুন এবং কথা বলুন
আমি যে অন্যান্য অ্যান্ড্রয়েড অ্যাপ্লিকেশনটি চেষ্টা করেছি তা হল "টক অ্যান্ড টক ডিক্টেশন"।
এই অ্যাপ্লিকেশনের জন্য ইন্টারফেস গুচ্ছ ভাল ছিল এবং ভয়েস স্বীকৃতি সত্যিই খুব ভাল কাজ। হুকুম রেকর্ড করার পরে আমি ইমেল মাধ্যমে সহ বিভিন্ন উপায়ে ফলাফল ভাগ করতে পারবেন।
linux Go-Travels.com কে স্বাগতম আজকে আমরা বক্তৃতাটিকে পাঠ্য রূপান্তর সম্পর্কে কথা বলছি
আপনি উপরের পাঠ্যটি দেখতে পারেন যতটা স্পষ্ট হিসাবে আপনি সম্ভবত আশা করতে পারেন। ধীরে ধীরে কথা বলা চাবি।
সারাংশ
স্বতন্ত্র লিনাক্সে ভয়েস স্বীকৃতি এবং বিশেষত স্বতঃস্ফূর্ততার সাথে যেতে কিছু উপায় রয়েছে। গুগল ভয়েস এপিআই ব্যবহার করে এমন কিছু অ্যাপ্লিকেশন রয়েছে তবে তারা এখনও সংগ্রহস্থলগুলিতে তালিকাভুক্ত নয়।
ক্রোমোজ অ্যাপ্লিকেশনগুলি একটু বেশি ভাল তবে আমার সেরা ফোনের মাধ্যমে আমার অ্যান্ড্রয়েড ফোনটি ব্যবহার করে সেরা ফলাফলগুলি অর্জন করা হয়েছে। সম্ভবত ফোনটির একটি ভাল মাইক্রোফোন রয়েছে এবং তাই ভয়েস স্বীকৃতি সফ্টওয়্যারটি রূপান্তর করার একটি ভাল সুযোগ।
ভয়েস স্বীকৃতির জন্য সত্যিই ব্যবহারযোগ্য হয়ে ওঠার জন্য এটি কম সেটআপের সাথে আরও স্বজ্ঞাত হতে হবে। এটি বুদ্ধিমান করার জন্য আপনাকে ভাষা মডেল এবং অভিধানগুলির সাথে ঘন ঘন করতে হবে না।
আমি প্রশংসা করি যদিও ভয়েস স্বীকৃতির সমগ্র শিল্প অত্যন্ত চ্যালেঞ্জিং কারণ প্রত্যেকেরই আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা শব্দ রয়েছে এবং সারা দেশে ব্যবহৃত শত শত ভাষা নিয়ে উদ্বেগ প্রকাশ করে এমন এক অঞ্চলে অঞ্চল থেকে অঞ্চল পর্যন্ত অনেকগুলি উপভাষা রয়েছে।
আমার বিশ্লেষণ, তাই, যে ভয়েস স্বীকৃতি সফ্টওয়্যার এখনও অগ্রগতি কাজ।




