RSK World - Speech Recognition Dataset - Project Files Browser | RSK World

<!--
/**
 * ============================================================================
 * Speech Recognition Dataset - Demo Page
 * ============================================================================
 * 
 * Project: Speech Recognition Dataset
 * Description: Audio speech recognition dataset with labeled speech samples 
 *              for training speech-to-text and voice recognition models.
 * 
 * ============================================================================
 * DEVELOPER INFORMATION
 * ============================================================================
 * Website: https://rskworld.in
 * Founded by: Molla Samser
 * Designer & Tester: Rima Khatun
 * Email: help@rskworld.in
 * Support: support@rskworld.in
 * Phone: +91 93305 39277
 * 
 * ============================================================================
 * COPYRIGHT NOTICE
 * ============================================================================
 * © 2026 RSK World. All rights reserved.
 * This dataset is provided for educational and research purposes.
 * 
 * ============================================================================
 */
-->
<!DOCTYPE html>
<html lang="en" data-theme="dark">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="description" content="Speech Recognition Dataset - Audio speech recognition dataset with labeled speech samples for training speech-to-text and voice recognition models. By RSK World.">
    <meta name="keywords" content="speech recognition, audio dataset, speech-to-text, voice recognition, deep learning, AI, machine learning, RSK World">
    <meta name="author" content="Molla Samser - RSK World">
    <meta name="robots" content="index, follow">
    <meta name="theme-color" content="#6366f1">
    
    <!-- Open Graph Meta Tags -->
    <meta property="og:title" content="Speech Recognition Dataset - RSK World">
    <meta property="og:description" content="Audio speech recognition dataset with labeled speech samples for training speech-to-text models.">
    <meta property="og:image" content="https://rskworld.in/speech-recognition/speech-recognition.png">
    <meta property="og:url" content="https://rskworld.in/speech-recognition/">
    <meta property="og:type" content="website">
    
    <!-- Twitter Card -->
    <meta name="twitter:card" content="summary_large_image">
    <meta name="twitter:title" content="Speech Recognition Dataset - RSK World">
    <meta name="twitter:description" content="Audio speech recognition dataset for AI research">
    
    <title>Speech Recognition Dataset | RSK World</title>
    
    <!-- Favicon -->
    <link rel="icon" type="image/png" href="data:image/svg+xml,<svg xmlns='http://www.w3.org/2000/svg' viewBox='0 0 100 100'><text y='.9em' font-size='90'>🎙️</text></svg>">
    
    <!-- Google Fonts -->
    <link rel="preconnect" href="https://fonts.googleapis.com">
    <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
    <link href="https://fonts.googleapis.com/css2?family=Outfit:wght@300;400;500;600;700;800&family=JetBrains+Mono:wght@400;500;600&family=Sora:wght@400;500;600;700&display=swap" rel="stylesheet">
    
    <!-- Font Awesome -->
    <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.5.1/css/all.min.css">
    
    <!-- AOS Animation Library -->
    <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/aos/2.3.4/aos.css">
    
    <!-- Custom Styles -->
    <link rel="stylesheet" href="css/style.css">
</head>
<body>
    <!-- Preloader -->
    <div class="preloader" id="preloader">
        <div class="loader">
            <div class="sound-bars">
                <span></span>
                <span></span>
                <span></span>
                <span></span>
                <span></span>
            </div>
            <p>Loading Dataset...</p>
        </div>
    </div>

    <!-- Cursor Effect -->
    <div class="cursor" id="cursor"></div>
    <div class="cursor-follower" id="cursorFollower"></div>
    <!-- Animated Background -->
    <div class="animated-bg">
        <div class="sound-wave wave-1"></div>
        <div class="sound-wave wave-2"></div>
        <div class="sound-wave wave-3"></div>
        <div class="floating-particles" id="particles"></div>
    </div>

    <!-- Navigation -->
    <nav class="navbar">
        <div class="nav-container">
            <a href="https://rskworld.in" class="nav-brand">
                <i class="fas fa-microphone-alt"></i>
                <span>RSK World</span>
            </a>
            <div class="nav-links">
                <a href="#overview" class="nav-link">Overview</a>
                <a href="#features" class="nav-link">Features</a>
                <a href="#samples" class="nav-link">Samples</a>
                <a href="#statistics" class="nav-link">Statistics</a>
                <a href="#how-to-use" class="nav-link">How to Use</a>
                <a href="#use-cases" class="nav-link">Use Cases</a>
                <a href="#faq" class="nav-link">FAQ</a>
                <a href="#download" class="nav-link download-btn">
                    <i class="fas fa-download"></i> Download
                </a>
            </div>
            <div class="nav-actions">
                <button class="theme-toggle" id="themeToggle" aria-label="Toggle theme">
                    <i class="fas fa-moon"></i>
                </button>
                <button class="search-btn" id="searchBtn" aria-label="Search">
                    <i class="fas fa-search"></i>
                </button>
            </div>
            <button class="mobile-menu-btn" id="mobileMenuBtn" aria-label="Menu">
                <span></span>
                <span></span>
                <span></span>
            </button>
        </div>
    </nav>

    <!-- Search Modal -->
    <div class="search-modal" id="searchModal">
        <div class="search-container">
            <div class="search-header">
                <i class="fas fa-search"></i>
                <input type="text" id="searchInput" placeholder="Search documentation, features, code...">
                <button class="close-search" id="closeSearch">
                    <i class="fas fa-times"></i>
                </button>
            </div>
            <div class="search-results" id="searchResults">
                <div class="search-hint">
                    <p>Try searching for: <span class="search-tag">MFCC</span> <span class="search-tag">Librosa</span> <span class="search-tag">LSTM</span></p>
                </div>
            </div>
        </div>
    </div>

    <!-- Mobile Menu -->
    <div class="mobile-menu" id="mobileMenu">
        <a href="#overview" class="mobile-link">Overview</a>
        <a href="#features" class="mobile-link">Features</a>
        <a href="#samples" class="mobile-link">Samples</a>
        <a href="#statistics" class="mobile-link">Statistics</a>
        <a href="#how-to-use" class="mobile-link">How to Use</a>
        <a href="#use-cases" class="mobile-link">Use Cases</a>
        <a href="#faq" class="mobile-link">FAQ</a>
        <a href="#download" class="mobile-link">Download</a>
    </div>

    <!-- Hero Section -->
    <header class="hero" id="overview">
        <div class="hero-content">
            <div class="hero-badge">
                <i class="fas fa-music"></i>
                <span>Audio Data</span>
            </div>
            <h1 class="hero-title">
                Speech Recognition
                <span class="gradient-text">Dataset</span>
            </h1>
            <p class="hero-description">
                A comprehensive audio speech recognition dataset with labeled speech samples 
                for training speech-to-text and voice recognition models. Perfect for deep 
                learning applications and audio AI research.
            </p>
            <div class="typing-container">
                <span class="typing-label">Perfect for:</span>
                <span class="typing-text" id="typingText"></span>
                <span class="typing-cursor">|</span>
            </div>
            <div class="hero-stats">
                <div class="stat-item">
                    <i class="fas fa-file-audio"></i>
                    <div class="stat-info">
                        <span class="stat-number" data-count="50">0</span>
                        <span class="stat-label">Audio Files</span>
                    </div>
                </div>
                <div class="stat-item">
                    <i class="fas fa-users"></i>
                    <div class="stat-info">
                        <span class="stat-number" data-count="25">0</span>
                        <span class="stat-label">Speakers</span>
                    </div>
                </div>
                <div class="stat-item">
                    <i class="fas fa-clock"></i>
                    <div class="stat-info">
                        <span class="stat-number" data-count="145">0</span>
                        <span class="stat-label">Seconds</span>
                    </div>
                </div>
                <div class="stat-item">
                    <i class="fas fa-tags"></i>
                    <div class="stat-info">
                        <span class="stat-number" data-count="3">0</span>
                        <span class="stat-label">Categories</span>
                    </div>
                </div>
            </div>
            <div class="hero-actions">
                <a href="#download" class="btn btn-primary">
                    <i class="fas fa-download"></i>
                    Download Dataset
                </a>
                <a href="#samples" class="btn btn-secondary">
                    <i class="fas fa-play"></i>
                    Listen Samples
                </a>
            </div>
        </div>
        <div class="hero-visual">
            <div class="waveform-container">
                <canvas id="waveformCanvas"></canvas>
            </div>
            <div class="audio-player-card">
                <div class="player-header">
                    <i class="fas fa-microphone-lines"></i>
                    <span>Sample Audio</span>
                </div>
                <div class="player-waveform" id="playerWaveform"></div>
                <div class="player-controls">
                    <button class="play-btn" id="playBtn" title="Play/Pause">
                        <i class="fas fa-play"></i>
                    </button>
                    <div class="progress-container">
                        <div class="progress-bar" id="progressBar"></div>
                    </div>
                    <span class="time-display" id="timeDisplay">0:00 / 0:02</span>
                    <div class="volume-control">
                        <i class="fas fa-volume-up" id="volumeIcon"></i>
                        <input type="range" id="volumeSlider" min="0" max="100" value="70" class="volume-slider" title="Volume">
                    </div>
                </div>
                <div class="player-info">
                    <span class="speaker-tag">Speaker_001</span>
                    <span class="transcript">"Hello, how are you today?"</span>
                </div>
            </div>
        </div>
    </header>

    <!-- Features Section -->
    <section class="features-section" id="features">
        <div class="container">
            <div class="section-header">
                <span class="section-tag">Features</span>
                <h2 class="section-title">Dataset Capabilities</h2>
                <p class="section-subtitle">Everything you need for speech recognition research</p>
            </div>
            <div class="features-grid">
                <div class="feature-card" data-aos="fade-up" data-aos-delay="0">
                    <div class="feature-icon">
                        <i class="fas fa-file-audio"></i>
                    </div>
                    <h3>Audio Recordings with Transcripts</h3>
                    <p>High-quality audio files paired with accurate text transcriptions for supervised learning.</p>
                </div>
                <div class="feature-card" data-aos="fade-up" data-aos-delay="100">
                    <div class="feature-icon">
                        <i class="fas fa-users"></i>
                    </div>
                    <h3>Multiple Speakers</h3>
                    <p>Diverse speaker dataset with various accents, ages, and genders for robust model training.</p>
                </div>
                <div class="feature-card" data-aos="fade-up" data-aos-delay="200">
                    <div class="feature-icon">
                        <i class="fas fa-ruler-combined"></i>
                    </div>
                    <h3>Various Audio Lengths</h3>
                    <p>Audio samples ranging from short commands to longer sentences for flexible model training.</p>
                </div>
                <div class="feature-card" data-aos="fade-up" data-aos-delay="300">
                    <div class="feature-icon">
                        <i class="fas fa-cogs"></i>
                    </div>
                    <h3>Preprocessed Features</h3>
                    <p>Pre-extracted MFCC, spectrograms, and mel-frequency features ready for model input.</p>
                </div>
                <div class="feature-card" data-aos="fade-up" data-aos-delay="400">
                    <div class="feature-icon">
                        <i class="fas fa-brain"></i>
                    </div>
                    <h3>Ready for RNN/LSTM Models</h3>
                    <p>Formatted data structures optimized for recurrent neural networks and sequence models.</p>
                </div>
                <div class="feature-card" data-aos="fade-up" data-aos-delay="500">
                    <div class="feature-icon">
                        <i class="fas fa-code"></i>
                    </div>
                    <h3>Python Ready</h3>
                    <p>Compatible with NumPy, Librosa, TensorFlow, and PyTorch for seamless integration.</p>
                </div>
            </div>
        </div>
    </section>

    <!-- Samples Section -->
    <section class="samples-section" id="samples">
        <div class="container">
            <div class="section-header">
                <span class="section-tag">Audio Samples</span>
                <h2 class="section-title">Listen to Dataset Samples</h2>
                <p class="section-subtitle">Preview audio recordings from the dataset</p>
            </div>
            <div class="samples-grid">
                <div class="sample-card">
                    <div class="sample-visual">
                        <div class="sample-waveform" data-sample="1"></div>
                    </div>
                    <div class="sample-info">
                        <div class="sample-meta">
                            <span class="speaker"><i class="fas fa-user"></i> Speaker_001</span>
                            <span class="duration"><i class="fas fa-clock"></i> 2.3s</span>
                        </div>
                        <p class="transcript">"Hello, how are you today?"</p>
                        <button class="sample-play-btn" data-sample="1">
                            <i class="fas fa-play"></i>
                        </button>
                    </div>
                </div>
                <div class="sample-card">
                    <div class="sample-visual">
                        <div class="sample-waveform" data-sample="2"></div>
                    </div>
                    <div class="sample-info">
                        <div class="sample-meta">
                            <span class="speaker"><i class="fas fa-user"></i> Speaker_015</span>
                            <span class="duration"><i class="fas fa-clock"></i> 3.1s</span>
                        </div>
                        <p class="transcript">"Please turn on the lights"</p>
                        <button class="sample-play-btn" data-sample="2">
                            <i class="fas fa-play"></i>
                        </button>
                    </div>
                </div>
                <div class="sample-card">
                    <div class="sample-visual">
                        <div class="sample-waveform" data-sample="3"></div>
                    </div>
                    <div class="sample-info">
                        <div class="sample-meta">
                            <span class="speaker"><i class="fas fa-user"></i> Speaker_028</span>
                            <span class="duration"><i class="fas fa-clock"></i> 4.5s</span>
                        </div>
                        <p class="transcript">"What's the weather like outside?"</p>
                        <button class="sample-play-btn" data-sample="3">
                            <i class="fas fa-play"></i>
                        </button>
                    </div>
                </div>
                <div class="sample-card">
                    <div class="sample-visual">
                        <div class="sample-waveform" data-sample="4"></div>
                    </div>
                    <div class="sample-info">
                        <div class="sample-meta">
                            <span class="speaker"><i class="fas fa-user"></i> Speaker_042</span>
                            <span class="duration"><i class="fas fa-clock"></i> 2.8s</span>
                        </div>
                        <p class="transcript">"Set a timer for five minutes"</p>
                        <button class="sample-play-btn" data-sample="4">
                            <i class="fas fa-play"></i>
                        </button>
                    </div>
                </div>
            </div>
        </div>
    </section>

    <!-- Statistics Section -->
    <section class="statistics-section" id="statistics">
        <div class="container">
            <div class="section-header">
                <span class="section-tag">Statistics</span>
                <h2 class="section-title">Dataset Overview</h2>
                <p class="section-subtitle">Comprehensive metrics and data distribution</p>
            </div>
            <div class="stats-grid">
                <div class="stats-card large">
                    <h3><i class="fas fa-chart-pie"></i> Speaker Distribution</h3>
                    <div class="chart-container">
                        <canvas id="speakerChart"></canvas>
                    </div>
                </div>
                <div class="stats-card">
                    <h3><i class="fas fa-chart-bar"></i> Audio Duration</h3>
                    <div class="chart-container">
                        <canvas id="durationChart"></canvas>
                    </div>
                </div>
                <div class="stats-card">
                    <h3><i class="fas fa-chart-line"></i> Word Frequency</h3>
                    <div class="chart-container">
                        <canvas id="wordChart"></canvas>
                    </div>
                </div>
            </div>
            <div class="data-table-container">
                <h3><i class="fas fa-table"></i> Sample Data Preview</h3>
                <div class="table-wrapper">
                    <table class="data-table">
                        <thead>
                            <tr>
                                <th>ID</th>
                                <th>File Name</th>
                                <th>Speaker</th>
                                <th>Duration (s)</th>
                                <th>Transcript</th>
                                <th>Category</th>
                            </tr>
                        </thead>
                        <tbody>
                            <tr>
                                <td>001</td>
                                <td>audio_001.wav</td>
                                <td>Speaker_001</td>
                                <td>2.34</td>
                                <td>"Hello, how are you today?"</td>
                                <td><span class="category-badge greeting">Greeting</span></td>
                            </tr>
                            <tr>
                                <td>002</td>
                                <td>audio_002.wav</td>
                                <td>Speaker_001</td>
                                <td>1.87</td>
                                <td>"Good morning"</td>
                                <td><span class="category-badge greeting">Greeting</span></td>
                            </tr>
                            <tr>
                                <td>003</td>
                                <td>audio_003.wav</td>
                                <td>Speaker_002</td>
                                <td>3.12</td>
                                <td>"Please turn on the lights"</td>
                                <td><span class="category-badge command">Command</span></td>
                            </tr>
                            <tr>
                                <td>004</td>
                                <td>audio_004.wav</td>
                                <td>Speaker_003</td>
                                <td>4.56</td>
                                <td>"What's the weather like outside?"</td>
                                <td><span class="category-badge question">Question</span></td>
                            </tr>
                            <tr>
                                <td>005</td>
                                <td>audio_005.wav</td>
                                <td>Speaker_004</td>
                                <td>2.89</td>
                                <td>"Set a timer for five minutes"</td>
                                <td><span class="category-badge command">Command</span></td>
                            </tr>
                            <tr>
                                <td>006</td>
                                <td>audio_006.wav</td>
                                <td>Speaker_002</td>
                                <td>2.15</td>
                                <td>"Thank you very much"</td>
                                <td><span class="category-badge greeting">Greeting</span></td>
                            </tr>
                            <tr>
                                <td>007</td>
                                <td>audio_007.wav</td>
                                <td>Speaker_005</td>
                                <td>3.45</td>
                                <td>"Can you play some music?"</td>
                                <td><span class="category-badge command">Command</span></td>
                            </tr>
                            <tr>
                                <td>008</td>
                                <td>audio_008.wav</td>
                                <td>Speaker_001</td>
                                <td>2.67</td>
                                <td>"How much does it cost?"</td>
                                <td><span class="category-badge question">Question</span></td>
                            </tr>
                        </tbody>
                    </table>
                </div>
            </div>
        </div>
    </section>

    <!-- Technologies Section -->
    <section class="tech-section">
        <div class="container">
            <div class="section-header">
                <span class="section-tag">Technologies</span>
                <h2 class="section-title">Compatible Technologies</h2>
                <p class="section-subtitle">Works seamlessly with popular audio processing tools</p>
            </div>
            <div class="tech-grid">
                <div class="tech-item">
                    <div class="tech-icon wav">
                        <i class="fas fa-file-audio"></i>
                    </div>
                    <span>WAV</span>
                </div>
                <div class="tech-item">
                    <div class="tech-icon mp3">
                        <i class="fas fa-music"></i>
                    </div>
                    <span>MP3</span>
                </div>
                <div class="tech-item">
                    <div class="tech-icon numpy">
                        <i class="fas fa-cube"></i>
                    </div>
                    <span>NumPy</span>
                </div>
                <div class="tech-item">
                    <div class="tech-icon librosa">
                        <i class="fas fa-wave-square"></i>
                    </div>
                    <span>Librosa</span>
                </div>
                <div class="tech-item">
                    <div class="tech-icon tensorflow">
                        <i class="fas fa-brain"></i>
                    </div>
                    <span>TensorFlow</span>
                </div>
                <div class="tech-item">
                    <div class="tech-icon pytorch">
                        <i class="fas fa-fire"></i>
                    </div>
                    <span>PyTorch</span>
                </div>
            </div>
        </div>
    </section>

    <!-- Code Preview Section -->
    <section class="code-section">
        <div class="container">
            <div class="section-header">
                <span class="section-tag">Quick Start</span>
                <h2 class="section-title">Get Started in Minutes</h2>
                <p class="section-subtitle">Simple code to load and use the dataset</p>
            </div>
            <div class="code-tabs">
                <button class="tab-btn active" data-tab="python">Python</button>
                <button class="tab-btn" data-tab="librosa">Librosa</button>
                <button class="tab-btn" data-tab="tensorflow">TensorFlow</button>
                <button class="tab-btn" data-tab="pytorch">PyTorch</button>
                <button class="copy-code-btn" id="copyCodeBtn">
                    <i class="fas fa-copy"></i> Copy Code
                </button>
            </div>
            <div class="code-content">
                <pre class="code-block active" id="python"><code><span class="comment"># Load the Speech Recognition Dataset</span>
<span class="comment"># Author: Molla Samser - RSK World</span>
<span class="comment"># Website: https://rskworld.in</span>

<span class="keyword">import</span> pandas <span class="keyword">as</span> pd
<span class="keyword">import</span> numpy <span class="keyword">as</span> np

<span class="comment"># Load metadata</span>
metadata = pd.read_csv(<span class="string">'data/metadata.csv'</span>)

<span class="comment"># Display dataset info</span>
<span class="function">print</span>(f<span class="string">"Total samples: {len(metadata)}"</span>)
<span class="function">print</span>(f<span class="string">"Unique speakers: {metadata['speaker'].nunique()}"</span>)
<span class="function">print</span>(f<span class="string">"Average duration: {metadata['duration'].mean():.2f}s"</span>)

<span class="comment"># Preview data</span>
metadata.head()</code></pre>
                <pre class="code-block" id="librosa"><code><span class="comment"># Audio Processing with Librosa</span>
<span class="comment"># Author: Molla Samser - RSK World</span>
<span class="comment"># Website: https://rskworld.in</span>

<span class="keyword">import</span> librosa
<span class="keyword">import</span> librosa.display
<span class="keyword">import</span> matplotlib.pyplot <span class="keyword">as</span> plt

<span class="comment"># Load audio file</span>
audio_path = <span class="string">'data/audio/audio_001.wav'</span>
y, sr = librosa.load(audio_path, sr=<span class="number">16000</span>)

<span class="comment"># Extract MFCC features</span>
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=<span class="number">13</span>)

<span class="comment"># Display spectrogram</span>
plt.figure(figsize=(<span class="number">10</span>, <span class="number">4</span>))
librosa.display.specshow(mfcc, x_axis=<span class="string">'time'</span>)
plt.colorbar()
plt.title(<span class="string">'MFCC Features'</span>)
plt.show()</code></pre>
                <pre class="code-block" id="tensorflow"><code><span class="comment"># TensorFlow Model Training</span>
<span class="comment"># Author: Molla Samser - RSK World</span>
<span class="comment"># Website: https://rskworld.in</span>

<span class="keyword">import</span> tensorflow <span class="keyword">as</span> tf
<span class="keyword">from</span> tensorflow.keras.models <span class="keyword">import</span> Sequential
<span class="keyword">from</span> tensorflow.keras.layers <span class="keyword">import</span> LSTM, Dense, Dropout

<span class="comment"># Build LSTM model for speech recognition</span>
model = Sequential([
    LSTM(<span class="number">128</span>, return_sequences=<span class="keyword">True</span>, input_shape=(None, <span class="number">13</span>)),
    Dropout(<span class="number">0.3</span>),
    LSTM(<span class="number">64</span>),
    Dropout(<span class="number">0.3</span>),
    Dense(<span class="number">32</span>, activation=<span class="string">'relu'</span>),
    Dense(num_classes, activation=<span class="string">'softmax'</span>)
])

model.compile(optimizer=<span class="string">'adam'</span>,
              loss=<span class="string">'categorical_crossentropy'</span>,
              metrics=[<span class="string">'accuracy'</span>])</code></pre>
                <pre class="code-block" id="pytorch"><code><span class="comment"># PyTorch Model Training</span>
<span class="comment"># Author: Molla Samser - RSK World</span>
<span class="comment"># Website: https://rskworld.in</span>

<span class="keyword">import</span> torch
<span class="keyword">import</span> torch.nn <span class="keyword">as</span> nn

<span class="keyword">class</span> <span class="function">SpeechRecognitionModel</span>(nn.Module):
    <span class="keyword">def</span> <span class="function">__init__</span>(self, input_size, hidden_size, num_classes):
        <span class="function">super</span>().__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, 
                           num_layers=<span class="number">2</span>, batch_first=<span class="keyword">True</span>,
                           bidirectional=<span class="keyword">True</span>, dropout=<span class="number">0.3</span>)
        self.fc = nn.Linear(hidden_size * <span class="number">2</span>, num_classes)
    
    <span class="keyword">def</span> <span class="function">forward</span>(self, x):
        out, _ = self.lstm(x)
        out = self.fc(out[:, -<span class="number">1</span>, :])
        <span class="keyword">return</span> out

<span class="comment"># Initialize model</span>
model = SpeechRecognitionModel(<span class="number">13</span>, <span class="number">128</span>, num_classes)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=<span class="number">0.001</span>)</code></pre>
            </div>
        </div>
    </section>

    <!-- How to Use Section -->
    <section class="how-to-use-section" id="how-to-use">
        <div class="container">
            <div class="section-header" data-aos="fade-up">
                <span class="section-tag">Guide</span>
                <h2 class="section-title">How to Use This Project</h2>
                <p class="section-subtitle">Step-by-step guide to get started with the Speech Recognition Dataset</p>
            </div>

            <div class="how-to-steps">
                <!-- Step 1: Installation -->
                <div class="step-card glass-card" data-aos="fade-up" data-aos-delay="0">
                    <div class="step-number">1</div>
                    <div class="step-content">
                        <h3><i class="fas fa-download"></i> Installation</h3>
                        <p>Install all required Python dependencies</p>
                        <div class="code-example">
                            <div class="code-header">
                                <span class="code-lang">Terminal</span>
                                <button class="copy-code-btn" data-code="install-code">
                                    <i class="fas fa-copy"></i> Copy
                                </button>
                            </div>
                            <pre id="install-code"><code># Clone or download the project
cd speech-recognition

# Install dependencies
pip install -r requirements.txt

# Or install individually
pip install numpy pandas librosa tensorflow scikit-learn matplotlib seaborn tqdm soundfile scipy jupyter</code></pre>
                        </div>
                    </div>
                </div>

                <!-- Step 2: Load Dataset -->
                <div class="step-card glass-card" data-aos="fade-up" data-aos-delay="100">
                    <div class="step-number">2</div>
                    <div class="step-content">
                        <h3><i class="fas fa-database"></i> Load the Dataset</h3>
                        <p>Load and explore the dataset using the provided loader</p>
                        <div class="code-example">
                            <div class="code-header">
                                <span class="code-lang">Python</span>
                                <button class="copy-code-btn" data-code="load-code">
                                    <i class="fas fa-copy"></i> Copy
                                </button>
                            </div>
                            <pre id="load-code"><code>from scripts.load_dataset import SpeechRecognitionDataset

# Initialize dataset
dataset = SpeechRecognitionDataset(data_dir='data')

# Get statistics
stats = dataset.get_statistics()
print(stats)

# Load an audio file
audio, sr = dataset.load_audio(file_id=1)
transcript = dataset.get_transcript(file_id=1)
print(f"Transcript: {transcript}")

# Get files by speaker
speaker_files = dataset.get_files_by_speaker('Speaker_001')
print(f"Found {len(speaker_files)} files for Speaker_001")</code></pre>
                        </div>
                    </div>
                </div>

                <!-- Step 3: Preprocess -->
                <div class="step-card glass-card" data-aos="fade-up" data-aos-delay="200">
                    <div class="step-number">3</div>
                    <div class="step-content">
                        <h3><i class="fas fa-cogs"></i> Extract Features</h3>
                        <p>Extract audio features (MFCC, Mel Spectrogram, etc.) from audio files</p>
                        <div class="code-example">
                            <div class="code-header">
                                <span class="code-lang">Python</span>
                                <button class="copy-code-btn" data-code="preprocess-code">
                                    <i class="fas fa-copy"></i> Copy
                                </button>
                            </div>
                            <pre id="preprocess-code"><code>from scripts.preprocess import SpeechRecognitionPreprocessor

# Initialize preprocessor
preprocessor = SpeechRecognitionPreprocessor(
    audio_dir='data/audio',
    output_dir='data/features',
    sr=16000
)

# Process entire dataset
preprocessor.process_dataset(metadata_path='data/metadata.csv')

# Or extract features from a single file
mfcc = preprocessor.extract_mfcc('data/audio/audio_001.wav')
mel_spec = preprocessor.extract_mel_spectrogram('data/audio/audio_001.wav')
chroma = preprocessor.extract_chroma('data/audio/audio_001.wav')</code></pre>
                        </div>
                    </div>
                </div>

                <!-- Step 4: Train Model -->
                <div class="step-card glass-card" data-aos="fade-up" data-aos-delay="300">
                    <div class="step-number">4</div>
                    <div class="step-content">
                        <h3><i class="fas fa-brain"></i> Train a Model</h3>
                        <p>Train an LSTM or Transformer model for speech recognition</p>
                        <div class="code-example">
                            <div class="code-header">
                                <span class="code-lang">Python</span>
                                <button class="copy-code-btn" data-code="train-code">
                                    <i class="fas fa-copy"></i> Copy
                                </button>
                            </div>
                            <pre id="train-code"><code>from scripts.train_model import SpeechRecognitionModel

# Initialize model trainer
trainer = SpeechRecognitionModel(
    feature_dir='data/features',
    model_dir='models'
)

# Load features
X, y, metadata = trainer.load_features(feature_name='mfcc')

# Train model
history = trainer.train(
    X, y, 
    epochs=50, 
    batch_size=32,
    validation_split=0.2
)

# Save model
trainer.save_model('models/speech_model.h5')

# Evaluate model
results = trainer.evaluate(X, y)
print(f"Accuracy: {results['accuracy']:.2%}")</code></pre>
                        </div>
                    </div>
                </div>

                <!-- Step 5: Data Augmentation -->
                <div class="step-card glass-card" data-aos="fade-up" data-aos-delay="400">
                    <div class="step-number">5</div>
                    <div class="step-content">
                        <h3><i class="fas fa-expand-arrows-alt"></i> Data Augmentation (Optional)</h3>
                        <p>Augment your dataset to improve model performance</p>
                        <div class="code-example">
                            <div class="code-header">
                                <span class="code-lang">Python</span>
                                <button class="copy-code-btn" data-code="augment-code">
                                    <i class="fas fa-copy"></i> Copy
                                </button>
                            </div>
                            <pre id="augment-code"><code>from scripts.augmentation import BatchAudioAugmentor

# Initialize augmentor
augmentor = BatchAudioAugmentor(
    audio_dir='data/audio',
    output_dir='data/audio_augmented'
)

# Apply augmentations
augmentor.augment_dataset(
    metadata_path='data/metadata.csv',
    augmentations=['time_stretch', 'pitch_shift', 'add_noise']
)

# Or augment a single file
augmented = augmentor.augment_file(
    'data/audio/audio_001.wav',
    time_stretch_factor=1.1,
    pitch_shift_semitones=2,
    noise_factor=0.01
)</code></pre>
                        </div>
                    </div>
                </div>

                <!-- Step 6: Evaluate Model -->
                <div class="step-card glass-card" data-aos="fade-up" data-aos-delay="500">
                    <div class="step-number">6</div>
                    <div class="step-content">
                        <h3><i class="fas fa-chart-line"></i> Evaluate Model</h3>
                        <p>Comprehensive model evaluation with metrics and visualizations</p>
                        <div class="code-example">
                            <div class="code-header">
                                <span class="code-lang">Python</span>
                                <button class="copy-code-btn" data-code="evaluate-code">
                                    <i class="fas fa-copy"></i> Copy
                                </button>
                            </div>
                            <pre id="evaluate-code"><code>from scripts.evaluate_model import ModelEvaluator

# Initialize evaluator
evaluator = ModelEvaluator(
    model_path='models/speech_model.h5',
    output_dir='results'
)

# Evaluate model
evaluator.evaluate(
    X_test, y_test,
    class_names=['Greeting', 'Command', 'Question']
)

# This generates:
# - Confusion matrix
# - ROC curves
# - Precision-Recall curves
# - Classification report
# - Error analysis</code></pre>
                        </div>
                    </div>
                </div>
            </div>

            <!-- Quick Start Commands -->
            <div class="quick-start-card glass-card" data-aos="fade-up" data-aos-delay="600">
                <h3><i class="fas fa-rocket"></i> Quick Start Commands</h3>
                <div class="commands-grid">
                    <div class="command-item">
                        <div class="command-icon">
                            <i class="fas fa-terminal"></i>
                        </div>
                        <div class="command-content">
                            <h4>Run Example Usage</h4>
                            <code>python scripts/example_usage.py</code>
                        </div>
                    </div>
                    <div class="command-item">
                        <div class="command-icon">
                            <i class="fas fa-cogs"></i>
                        </div>
                        <div class="command-content">
                            <h4>Extract Features</h4>
                            <code>python scripts/preprocess.py</code>
                        </div>
                    </div>
                    <div class="command-item">
                        <div class="command-icon">
                            <i class="fas fa-brain"></i>
                        </div>
                        <div class="command-content">
                            <h4>Train Model</h4>
                            <code>python scripts/train_model.py</code>
                        </div>
                    </div>
                    <div class="command-item">
                        <div class="command-icon">
                            <i class="fas fa-book"></i>
                        </div>
                        <div class="command-content">
                            <h4>Open Jupyter Notebook</h4>
                            <code>jupyter notebook notebooks/exploration.ipynb</code>
                        </div>
                    </div>
                </div>
            </div>

            <!-- Additional Resources -->
            <div class="resources-card glass-card" data-aos="fade-up" data-aos-delay="700">
                <h3><i class="fas fa-book-open"></i> Additional Resources</h3>
                <div class="resources-grid">
                    <a href="#download" class="resource-link">
                        <i class="fas fa-download"></i>
                        <span>Download Dataset</span>
                    </a>
                    <a href="README.md" class="resource-link" target="_blank">
                        <i class="fas fa-file-alt"></i>
                        <span>Read Documentation</span>
                    </a>
                    <a href="notebooks/exploration.ipynb" class="resource-link" target="_blank">
                        <i class="fas fa-chart-bar"></i>
                        <span>Explore Data</span>
                    </a>
                    <a href="https://rskworld.in" class="resource-link" target="_blank">
                        <i class="fas fa-globe"></i>
                        <span>Visit RSK World</span>
                    </a>
                </div>
            </div>
        </div>
    </section>

    <!-- Spectrogram Visualization Section -->
    <section class="spectrogram-section" id="spectrogram">
        <div class="container">
            <div class="section-header" data-aos="fade-up">
                <span class="section-tag">Visualization</span>
                <h2 class="section-title">Audio Analysis Tools</h2>
                <p class="section-subtitle">Interactive spectrogram and waveform visualization</p>
            </div>
            <div class="spectrogram-demo" data-aos="fade-up">
                <div class="spectrogram-card glass-card">
                    <div class="spectrogram-header">
                        <h3><i class="fas fa-chart-area"></i> Real-time Spectrogram</h3>
                        <div class="spectrogram-controls">
                            <button class="spec-btn active" data-type="waveform">Waveform</button>
                            <button class="spec-btn" data-type="spectrogram">Spectrogram</button>
                            <button class="spec-btn" data-type="frequency">Frequency</button>
                        </div>
                    </div>
                    <div class="spectrogram-canvas-container">
                        <canvas id="spectrogramCanvas"></canvas>
                    </div>
                    <div class="spectrogram-info">
                        <div class="info-badge">
                            <i class="fas fa-wave-square"></i>
                            <span>Sample Rate: 16kHz</span>
                        </div>
                        <div class="info-badge">
                            <i class="fas fa-compress-alt"></i>
                            <span>FFT Size: 2048</span>
                        </div>
                        <div class="info-badge">
                            <i class="fas fa-layer-group"></i>
                            <span>Mel Bins: 128</span>
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </section>

    <!-- Use Cases Section -->
    <section class="use-cases-section" id="use-cases">
        <div class="container">
            <div class="section-header" data-aos="fade-up">
                <span class="section-tag">Applications</span>
                <h2 class="section-title">Use Cases</h2>
                <p class="section-subtitle">Discover what you can build with this dataset</p>
            </div>
            <div class="use-cases-grid">
                <div class="use-case-card glass-card" data-aos="fade-up" data-aos-delay="0">
                    <div class="use-case-icon gradient-bg-1">
                        <i class="fas fa-robot"></i>
                    </div>
                    <h3>Voice Assistants</h3>
                    <p>Build intelligent voice-activated assistants like Alexa, Siri, or Google Assistant alternatives.</p>
                    <ul class="use-case-features">
                        <li><i class="fas fa-check"></i> Wake word detection</li>
                        <li><i class="fas fa-check"></i> Command recognition</li>
                        <li><i class="fas fa-check"></i> Natural language understanding</li>
                    </ul>
                </div>
                <div class="use-case-card glass-card" data-aos="fade-up" data-aos-delay="100">
                    <div class="use-case-icon gradient-bg-2">
                        <i class="fas fa-closed-captioning"></i>
                    </div>
                    <h3>Transcription Services</h3>
                    <p>Create automatic transcription systems for meetings, lectures, and media content.</p>
                    <ul class="use-case-features">
                        <li><i class="fas fa-check"></i> Real-time transcription</li>
                        <li><i class="fas fa-check"></i> Speaker diarization</li>
                        <li><i class="fas fa-check"></i> Subtitle generation</li>
                    </ul>
                </div>
                <div class="use-case-card glass-card" data-aos="fade-up" data-aos-delay="200">
                    <div class="use-case-icon gradient-bg-3">
                        <i class="fas fa-language"></i>
                    </div>
                    <h3>Language Learning</h3>
                    <p>Develop pronunciation assessment and language learning applications.</p>
                    <ul class="use-case-features">
                        <li><i class="fas fa-check"></i> Pronunciation scoring</li>
                        <li><i class="fas fa-check"></i> Accent analysis</li>
                        <li><i class="fas fa-check"></i> Fluency assessment</li>
                    </ul>
                </div>
                <div class="use-case-card glass-card" data-aos="fade-up" data-aos-delay="300">
                    <div class="use-case-icon gradient-bg-4">
                        <i class="fas fa-universal-access"></i>
                    </div>
                    <h3>Accessibility Tools</h3>
                    <p>Build tools to help people with disabilities interact with technology.</p>
                    <ul class="use-case-features">
                        <li><i class="fas fa-check"></i> Voice-to-text input</li>
                        <li><i class="fas fa-check"></i> Hands-free control</li>
                        <li><i class="fas fa-check"></i> Screen reader enhancement</li>
                    </ul>
                </div>
                <div class="use-case-card glass-card" data-aos="fade-up" data-aos-delay="400">
                    <div class="use-case-icon gradient-bg-5">
                        <i class="fas fa-shield-alt"></i>
                    </div>
                    <h3>Voice Authentication</h3>
                    <p>Implement secure voice-based biometric authentication systems.</p>
                    <ul class="use-case-features">
                        <li><i class="fas fa-check"></i> Speaker verification</li>
                        <li><i class="fas fa-check"></i> Voice biometrics</li>
                        <li><i class="fas fa-check"></i> Anti-spoofing detection</li>
                    </ul>
                </div>
                <div class="use-case-card glass-card" data-aos="fade-up" data-aos-delay="500">
                    <div class="use-case-icon gradient-bg-6">
                        <i class="fas fa-car"></i>
                    </div>
                    <h3>Automotive Systems</h3>
                    <p>Create voice-controlled interfaces for automotive applications.</p>
                    <ul class="use-case-features">
                        <li><i class="fas fa-check"></i> In-car voice commands</li>
                        <li><i class="fas fa-check"></i> Noise-robust recognition</li>
                        <li><i class="fas fa-check"></i> Multi-zone audio</li>
                    </ul>
                </div>
            </div>
        </div>
    </section>

    <!-- FAQ Section -->
    <section class="faq-section" id="faq">
        <div class="container">
            <div class="section-header" data-aos="fade-up">
                <span class="section-tag">FAQ</span>
                <h2 class="section-title">Frequently Asked Questions</h2>
                <p class="section-subtitle">Everything you need to know about the dataset</p>
            </div>
            <div class="faq-container" data-aos="fade-up">
                <div class="faq-item">
                    <button class="faq-question">
                        <span>What audio formats are supported?</span>
                        <i class="fas fa-chevron-down"></i>
                    </button>
                    <div class="faq-answer">
                        <p>The dataset primarily uses WAV format at 16kHz sample rate for high-quality audio. MP3 versions are also available for reduced file size. The Python scripts support loading both formats using Librosa.</p>
                    </div>
                </div>
                <div class="faq-item">
                    <button class="faq-question">
                        <span>How is the data split for training?</span>
                        <i class="fas fa-chevron-down"></i>
                    </button>
                    <div class="faq-answer">
                        <p>We recommend an 80-10-10 split for training, validation, and testing. The provided scripts handle this automatically with stratified sampling to ensure balanced class distribution across splits.</p>
                    </div>
                </div>
                <div class="faq-item">
                    <button class="faq-question">
                        <span>What preprocessing is required?</span>
                        <i class="fas fa-chevron-down"></i>
                    </button>
                    <div class="faq-answer">
                        <p>The dataset comes with pre-extracted MFCC, Mel spectrogram, and Chroma features. For custom preprocessing, use the provided preprocess.py script which supports various feature extraction methods.</p>
                    </div>
                </div>
                <div class="faq-item">
                    <button class="faq-question">
                        <span>Which deep learning frameworks are supported?</span>
                        <i class="fas fa-chevron-down"></i>
                    </button>
                    <div class="faq-answer">
                        <p>The dataset is compatible with TensorFlow, PyTorch, and Keras. Example code is provided for all major frameworks including LSTM, CNN, and Transformer architectures.</p>
                    </div>
                </div>
                <div class="faq-item">
                    <button class="faq-question">
                        <span>Can I use this dataset commercially?</span>
                        <i class="fas fa-chevron-down"></i>
                    </button>
                    <div class="faq-answer">
                        <p>The dataset is provided for educational and research purposes. For commercial use, please contact us at help@rskworld.in to discuss licensing options.</p>
                    </div>
                </div>
                <div class="faq-item">
                    <button class="faq-question">
                        <span>How do I handle variable-length audio?</span>
                        <i class="fas fa-chevron-down"></i>
                    </button>
                    <div class="faq-answer">
                        <p>The training scripts include automatic padding and truncation. You can also use bucketing for efficient batching of similar-length sequences, which is implemented in the advanced training script.</p>
                    </div>
                </div>
            </div>
        </div>
    </section>

    <!-- Newsletter Section -->
    <section class="newsletter-section">
        <div class="container">
            <div class="newsletter-card glass-card" data-aos="fade-up">
                <div class="newsletter-content">
                    <div class="newsletter-icon">
                        <i class="fas fa-bell"></i>
                    </div>
                    <h3>Stay Updated</h3>
                    <p>Get notified about dataset updates, new features, and AI research tips.</p>
                </div>
                <form class="newsletter-form" id="newsletterForm">
                    <input type="email" placeholder="Enter your email" required>
                    <button type="submit">
                        <i class="fas fa-paper-plane"></i>
                        Subscribe
                    </button>
                </form>
            </div>
        </div>
    </section>

    <!-- Download Section -->
    <section class="download-section" id="download">
        <div class="container">
            <div class="download-card">
                <div class="download-content">
                    <div class="download-icon">
                        <i class="fas fa-box-open"></i>
                    </div>
                    <h2>Download Complete Dataset</h2>
                    <p>Get the full speech recognition dataset including audio files, transcriptions, preprocessed features, and documentation.</p>
                    <div class="download-info">
                        <div class="info-item">
                            <i class="fas fa-file-archive"></i>
                            <span>speech-recognition.zip</span>
                        </div>
                        <div class="info-item">
                            <i class="fas fa-hdd"></i>
                            <span>~250 MB</span>
                        </div>
                        <div class="info-item">
                            <i class="fas fa-file-alt"></i>
                            <span>5000+ Files</span>
                        </div>
                    </div>
                    <div class="download-actions">
                        <a href="speech-recognition.zip" class="btn btn-download" download>
                            <i class="fas fa-download"></i>
                            Download ZIP
                        </a>
                        <a href="https://github.com/rskworld" class="btn btn-github" target="_blank">
                            <i class="fab fa-github"></i>
                            View on GitHub
                        </a>
                    </div>
                </div>
                <div class="download-visual">
                    <div class="file-preview">
                        <div class="file-tree">
                            <div class="tree-item folder open">
                                <i class="fas fa-folder-open"></i> speech-recognition/
                            </div>
                            <div class="tree-item folder indent-1">
                                <i class="fas fa-folder"></i> data/
                            </div>
                            <div class="tree-item file indent-2">
                                <i class="fas fa-file-csv"></i> metadata.csv
                            </div>
                            <div class="tree-item file indent-2">
                                <i class="fas fa-file-code"></i> transcripts.json
                            </div>
                            <div class="tree-item folder indent-1">
                                <i class="fas fa-folder"></i> audio/
                            </div>
                            <div class="tree-item file indent-2">
                                <i class="fas fa-file-audio"></i> audio_001.wav
                            </div>
                            <div class="tree-item file indent-2">
                                <i class="fas fa-file-audio"></i> audio_002.wav
                            </div>
                            <div class="tree-item folder indent-1">
                                <i class="fas fa-folder"></i> features/
                            </div>
                            <div class="tree-item file indent-2">
                                <i class="fas fa-file"></i> mfcc_features.npy
                            </div>
                            <div class="tree-item folder indent-1">
                                <i class="fas fa-folder"></i> scripts/
                            </div>
                            <div class="tree-item file indent-2">
                                <i class="fab fa-python"></i> preprocess.py
                            </div>
                            <div class="tree-item file indent-1">
                                <i class="fab fa-python"></i> exploration.ipynb
                            </div>
                            <div class="tree-item file indent-1">
                                <i class="fas fa-file-alt"></i> README.md
                            </div>
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </section>

    <!-- Footer -->
    <footer class="footer">
        <div class="container">
            <div class="footer-content">
                <div class="footer-brand">
                    <a href="https://rskworld.in" class="footer-logo">
                        <i class="fas fa-microphone-alt"></i>
                        <span>RSK World</span>
                    </a>
                    <p>Your one-stop destination for free programming resources, source code, and development tools.</p>
                    <div class="social-links">
                        <a href="#" aria-label="Facebook"><i class="fab fa-facebook-f"></i></a>
                        <a href="#" aria-label="Twitter"><i class="fab fa-twitter"></i></a>
                        <a href="#" aria-label="LinkedIn"><i class="fab fa-linkedin-in"></i></a>
                        <a href="#" aria-label="GitHub"><i class="fab fa-github"></i></a>
                        <a href="#" aria-label="YouTube"><i class="fab fa-youtube"></i></a>
                    </div>
                </div>
                <div class="footer-links">
                    <div class="footer-column">
                        <h4>Quick Links</h4>
                        <ul>
                            <li><a href="https://rskworld.in">Home</a></li>
                            <li><a href="https://rskworld.in/about.php">About</a></li>
                            <li><a href="https://rskworld.in/contact.php">Contact</a></li>
                        </ul>
                    </div>
                    <div class="footer-column">
                        <h4>Resources</h4>
                        <ul>
                            <li><a href="#">Documentation</a></li>
                            <li><a href="#">API Reference</a></li>
                            <li><a href="#">Tutorials</a></li>
                        </ul>
                    </div>
                    <div class="footer-column">
                        <h4>Contact</h4>
                        <ul>
                            <li><a href="mailto:help@rskworld.in"><i class="fas fa-envelope"></i> help@rskworld.in</a></li>
                            <li><a href="tel:+919330539277"><i class="fas fa-phone"></i> +91 93305 39277</a></li>
                            <li><a href="mailto:support@rskworld.in"><i class="fas fa-headset"></i> support@rskworld.in</a></li>
                        </ul>
                    </div>
                </div>
            </div>
            <div class="footer-bottom">
                <p>
                    © 2026 RSK World. Founded by <strong>Molla Samser</strong> | Designer & Tester: <strong>Rima Khatun</strong>
                </p>
                <p class="disclaimer">
                    This dataset is provided for educational and research purposes only.
                </p>
            </div>
        </div>
    </footer>

    <!-- Back to Top Button -->
    <button class="back-to-top" id="backToTop">
        <i class="fas fa-arrow-up"></i>
    </button>

    <!-- Toast Notification -->
    <div class="toast" id="toast">
        <i class="fas fa-check-circle"></i>
        <span id="toastMessage">Action completed successfully!</span>
    </div>

    <!-- Scripts -->
    <script src="https://cdn.jsdelivr.net/npm/chart.js"></script>
    <script src="https://cdnjs.cloudflare.com/ajax/libs/aos/2.3.4/aos.js"></script>
    <script src="js/script.js"></script>
    <script>
        // Initialize AOS
        AOS.init({
            duration: 800,
            easing: 'ease-out-cubic',
            once: true,
            offset: 50
        });
    </script>
</body>
</html>

1,321 lines•63.1 KB

markup

Theme Settings

Color Scheme

Display Options

Font Size