README.md

# Speech Recognition Dataset



A comprehensive audio speech recognition dataset with labeled speech samples for training speech-to-text and voice recognition models. Perfect for deep learning applications and audio AI research.

## Features

- **Audio Recordings with Transcripts**: High-quality audio files paired with accurate text transcriptions for supervised learning
- **Multiple Speakers**: Diverse speaker dataset with various accents, ages, and genders for robust model training
- **Various Audio Lengths**: Audio samples ranging from short commands to longer sentences for flexible model training
- **Preprocessed Features**: Pre-extracted MFCC, spectrograms, and mel-frequency features ready for model input
- **Ready for RNN/LSTM Models**: Formatted data structures optimized for recurrent neural networks and sequence models

## Dataset Statistics

- **Total Audio Files**: 5,000+
- **Unique Speakers**: 50
- **Total Duration**: ~100 hours
- **Audio Format**: WAV, MP3
- **Sample Rate**: 16 kHz

## Technologies

- **WAV**: Uncompressed audio format
- **MP3**: Compressed audio format
- **NumPy**: Numerical computing
- **Librosa**: Audio analysis library
- **TensorFlow**: Deep learning framework
- **PyTorch**: Deep learning framework

## Installation

### Requirements

```bash
pip install numpy pandas librosa tensorflow scikit-learn tqdm matplotlib jupyter
```

### Dataset Structure

```
speech-recognition/
├── data/
│ ├── audio/ # Audio files (WAV/MP3)
│ ├── features/ # Pre-extracted features
│ ├── metadata.csv # Dataset metadata
│ └── transcripts.json # Text transcripts
├── scripts/
│ ├── load_dataset.py # Dataset loader
│ ├── preprocess.py # Feature extraction
│ └── train_model.py # Model training
├── notebooks/
│ └── exploration.ipynb # Data exploration
├── models/ # Trained models
├── css/
│ └── style.css # Stylesheet
├── js/
│ └── script.js # JavaScript
├── index.html # Demo page
└── README.md # This file
```

## Quick Start

### 1. Load the Dataset

```python
from scripts.load_dataset import SpeechRecognitionDataset

# Initialize dataset
dataset = SpeechRecognitionDataset(data_dir='data')

# Get statistics
stats = dataset.get_statistics()
print(stats)

# Load an audio file
audio, sr = dataset.load_audio(file_id=1)
transcript = dataset.get_transcript(file_id=1)
```

### 2. Extract Features

```python
from scripts.preprocess import SpeechRecognitionPreprocessor

# Initialize preprocessor
preprocessor = SpeechRecognitionPreprocessor(
audio_dir='data/audio',
output_dir='data/features',
sr=16000
)

# Process entire dataset
preprocessor.process_dataset(metadata_path='data/metadata.csv')
```

### 3. Train a Model

```python
from scripts.train_model import SpeechRecognitionModel

# Initialize model trainer
trainer = SpeechRecognitionModel(
feature_dir='data/features',
model_dir='models'
)

# Load features
X, y, metadata = trainer.load_features(feature_name='mfcc')

# Train model
history = trainer.train(X, y, epochs=50, batch_size=32)
```

## Usage Examples

### Using Librosa for Audio Processing

```python
import librosa
import librosa.display
import matplotlib.pyplot as plt

# Load audio file
audio_path = 'data/audio/audio_001.wav'
y, sr = librosa.load(audio_path, sr=16000)

# Extract MFCC features
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# Display spectrogram
plt.figure(figsize=(10, 4))
librosa.display.specshow(mfcc, x_axis='time')
plt.colorbar()
plt.title('MFCC Features')
plt.show()
```

### Building a TensorFlow Model

```python
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout

# Build LSTM model for speech recognition
model = Sequential([
LSTM(128, return_sequences=True, input_shape=(None, 13)),
Dropout(0.3),
LSTM(64),
Dropout(0.3),
Dense(32, activation='relu'),
Dense(num_classes, activation='softmax')
])

model.compile(
optimizer='adam',
loss='categorical_crossentropy',
metrics=['accuracy']
)
```

## Data Format

### Metadata CSV

The `metadata.csv` file contains the following columns:

- `id`: Unique identifier for each audio file
- `file_name`: Name of the audio file
- `speaker`: Speaker ID
- `duration`: Duration in seconds
- `transcript`: Text transcription
- `category`: Category (Greeting, Command, Question, etc.)

### Transcripts JSON

The `transcripts.json` file contains a mapping of file IDs to their text transcriptions:

```json
{
"1": "Hello, how are you today?",
"2": "Good morning",
...
}
```

## Model Training

The dataset is optimized for training:

- **RNN/LSTM Models**: Sequential data format
- **CNN Models**: Spectrogram images
- **Transformer Models**: Sequence-to-sequence tasks
- **Speaker Recognition**: Multi-speaker classification

## Contributing

This dataset is provided by RSK World for educational and research purposes. For questions or support, please contact:

- **Email**: help@rskworld.in
- **Support**: support@rskworld.in
- **Phone**: +91 93305 39277
- **Website**: https://rskworld.in

## License

© 2026 RSK World. All rights reserved.

This dataset is provided for educational and research purposes only.

## Credits

- **Founded by**: Molla Samser
- **Designer & Tester**: Rima Khatun
- **Website**: https://rskworld.in

---

For more information, visit [https://rskworld.in](https://rskworld.in)

Theme Settings

Color Scheme

Display Options

Font Size

README.md