LAAC-LSCP
/
tsay


			
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960
							# -*- coding: utf-8 -*-
import os
import pandas as pd
from os import listdir
from os.path import join, isfile
import argparse


if __name__ == "__main__":

    parser = argparse.ArgumentParser()
    parser.add_argument('--corpus',
        required=True,
        help='the whole path to the folder with your corpus: /...'
        )

args = parser.parse_args()
path_corpus = args.corpus

def change_directory(path):
  try:
    os.chdir(path)
    print("Current working directory: {0}".format(os.getcwd()))
  except FileNotFoundError:
    print("Directory: {0} does not exist".format(path))
  except NotADirectoryError:
    print("{0} is not a directory".format(path))
  except PermissionError:
    print("You do not have permissions to change to {0}".format(path))


change_directory(f'{path_corpus}/metadata')
mypath = f'{path_corpus}/recordings/raw'
dirs = sorted([f for f in listdir(mypath) if isfile(join(mypath, f))])

recording_filename = []
range_offset = []
raw_filename = []
col_list = ['experiment', 'child_id', 'date_iso', 'start_time', 'recording_device_type', 'recording_filename', 'duration']
df = pd.read_csv("recordings.csv", usecols=col_list)

recording_filename = df["recording_filename"]
range_offset = df["duration"]

set_cha = ['cha']*len(recording_filename)
time_seek = [0]*len(recording_filename)
range_onset = [0]*len(recording_filename)
format_cha = ['cha']*len(recording_filename)
for rec in recording_filename:
    if rec.endswith('.wav'):
        rec1 = rec.replace('.wav', '.cha')
        raw_filename.append(rec1)
    else:
        rec1 = rec.replace('.mp3', '.cha')
        raw_filename.append(rec1)

dataframe = {'set': set_cha, 'recording_filename': recording_filename, 'time_seek': time_seek, 'range_onset': range_onset, 'range_offset': range_offset, 'raw_filename': raw_filename, 'format': format_cha}
df = pd.DataFrame(data=dataframe)
df.to_csv(f'/{path_corpus}/metadata/dataframe.csv', index=False)
print('done')