1 year ago · b4fa96e143
--- a/README.md
+++ b/README.md
@@ -9,6 +9,8 @@ and activate it :
 
				 
			
 
				 ```conda activate measuring_cld```
			
 
				 
			
 
				+We provide all the data already pre-processed and phonemized. But if you want to re-download the raw data and to re-pre-processed it entierely, then you will need to install phonemizer (https://github.com/bootphon/phonemizer) with the espeak backend.
			
 
				+
			
 
				 ## Folder structure
			
 
				 
			
 
				 - All source code is located in `code/`
			
@@ -67,9 +69,12 @@ This will output a `evalution.csv` file in a `results` folder.
 
				 We can now compute the entropies on the CHILDES utterances with the script `code/test_on_all_languages.py`. This script take the following arguments:
			
 
				 
			
 
				 > `--train_directory` : The directory containing the train files tokenized in phonemes.
			
 
				-> `--models_directory`: The directory containing the trained language models.
			
 
				->  --json_files_directory: The directory containing CHILDES utterances in json format for each language.
			
 
				->  --add_noise, --no-add_noise: Whether noise the CHILDES utterances or not.
			
 
				+
			
 
				+> `--models_directory` : The directory containing the trained language models.
			
 
				+
			
 
				+> `--json_files_directory`: The directory containing CHILDES utterances in json format for each language.
			
 
				+
			
 
				+> `--add_noise`, `--no-add_noise` : Whether noise the CHILDES utterances or not.
			
 
				 
			
 
				 If you stored the language models in the `estimated/` folder, then you can run the script like that :
			
 
				 
			
--- a/code/__pycache__/get_most_probable_phonemes.cpython-310.pyc
+++ b/code/__pycache__/get_most_probable_phonemes.cpython-310.pyc
--- a/code/__pycache__/make_noiser.cpython-310.pyc
+++ b/code/__pycache__/make_noiser.cpython-310.pyc
--- a/code/__pycache__/utterances_cleaner.cpython-310.pyc
+++ b/code/__pycache__/utterances_cleaner.cpython-310.pyc
--- a/code/download_childes_corpora.py
+++ b/code/download_childes_corpora.py
@@ -174,7 +174,6 @@ class DownloadChildCorpora :
 
				         - phonemize_child: bool
			
 
				 
			
 
				         """
			
 
				-        print(language, languages_to_download_informations[language]["ort_tier"])
			
 
				         participants_to_consider = languages_to_download_informations[language]["participants"]
			
 
				         downloading_file = open(f"{out_dirname}/{language}.one_utterance_per_line", 
			
 
				                                 "w", encoding="UTF-8")
			
@@ -206,6 +205,9 @@ class DownloadChildCorpora :
 
				                                                                     participant,
			
 
				                                                                     backend,
			
 
				                                                                     phonemize_child=phonemize_child) :
			
 
				+                        utterance = utterance.replace("$", " ").replace("@", " ")
			
 
				+                        utterance = self.utterances_cleaner.remove_multiple_spaces(utterance)
			
 
				+                        utterance = utterance.strip()
			
 
				                         if not utterance :
			
 
				                             continue
			
 
				                         family_name = "_".join((corpus, family))
			
--- a/code/get_most_probable_phonemes.py
+++ b/code/get_most_probable_phonemes.py
@@ -7,9 +7,8 @@ def get_most_probable_phonemes(one_sentence_per_line_file, p=0.007) :
 
				     counts = defaultdict(int)
			
 
				     for sentence in open(one_sentence_per_line_file) :
			
 
				         sentence = sentence.rstrip()
			
 
				-        for word in sentence.split("@") :
			
 
				-            for phoneme in word.split("$") :
			
 
				-                counts[phoneme] += 1
			
 
				+        for phoneme in sentence.split(" ") :
			
 
				+            counts[phoneme] += 1
			
 
				     total = sum(counts.values())
			
 
				     for phoneme in counts :
			
 
				         counts[phoneme] /= total
			
--- a/code/make_noiser.py
+++ b/code/make_noiser.py
@@ -9,8 +9,8 @@ random.seed(80)
 
				 
			
 
				 class Noise :
			
 
				     """
			
 
				-    This class simulate noise in the data. Crucially,\
			
 
				-    noise can be made on three points :\
			
 
				+    This class simulates noise in the data. Crucially,\
			
 
				+    noise can be made on three cases :\
			
 
				     (1) The noise of phonemes order of a given sequence\
			
 
				     by making the order of the sequence more aribitrary,\
			
 
				     (2) Replacement of some phonemes of a given sequence\
			
@@ -22,16 +22,16 @@ class Noise :
 
				     - phonemes_order_noise :
			
 
				         Parameter for controling the degree of noise at the level\
			
 
				         of phonemes order. See the point 1 mentioned above.
			
 
				-    - speakers_noise :
			
 
				+    - speakers_noise_values :
			
 
				         Parameters for controling the degree of noise at the level\
			
 
				         of speakers. See the point 3 mentioned above.
			
 
				-    - phonemes_noise :
			
 
				+    - phonemes_noise_value :
			
 
				         Parameter for controling the degree of noise at the level of phonemes.
			
 
				         See the point 2 mentioned above.
			
 
				     """
			
 
				 
			
 
				     def __init__(self,
			
 
				-                    most_probable_phonemes: list,
			
 
				+                    most_probable_phonemes,
			
 
				                     phonemes_order_noise_value=0.3,
			
 
				                     speakers_noise_values=(0.5, 0.5),
			
 
				                     phonemes_noise_value=0.5) :
			
@@ -82,7 +82,6 @@ class Noise :
 
				             The sequence with noised phonemes.
			
 
				         """
			
 
				         phonemes_to_noise = round(len(sequence) * self.phonemes_noise_value)
			
 
				-        assert phonemes_to_noise < len(sequence), "Number of phoneme to noise greather that sequence's length"
			
 
				         indexes = choices(range(len(sequence)), k=phonemes_to_noise)
			
 
				         # choose new phonemes only from the most probable phonemes.
			
 
				         phonemes = choices(self.most_probable_phonemes, k=phonemes_to_noise)
			
--- a/code/one_utterance_per_line_to_json.py
+++ b/code/one_utterance_per_line_to_json.py
@@ -33,7 +33,8 @@ def one_utterance_per_line_to_json(directory: str, out_dirname: str) -> None:
 
				         for participant_age_utterance in open(f"{directory}/{language_filename}") :
			
 
				             family, participant, age, utterance = participant_age_utterance.strip().split(",")
			
 
				             participant = "Adult" if participant in ["Father", "Mother"] else participant
			
 
				-            if utterance in by_family[family][age][participant] : continue
			
 
				+            if utterance in by_family[family][age][participant] :
			
 
				+                continue
			
 
				             by_family[family][age][participant].append(utterance)
			
 
				         with open(f"{out_dirname}/{language}.json", "w") as out_filename :
			
 
				             json.dump(
			
--- a/code/test_on_all_languages.py
+++ b/code/test_on_all_languages.py
@@ -77,7 +77,7 @@ def statistics_word(utterances: list, model: kenlm.Model) -> dict:
 
				 
			
 
				     return statistics
			
 
				 
			
 
				-def create_sparse_combinantions(values: Iterable) -> set:
			
 
				+def create_sparse_combinantions(values: Iterable, variables=3) -> set:
			
 
				     """
			
 
				     This function will create combinantions for noising.
			
 
				     Each item in the returned set contains four values corresponding\
			
@@ -90,8 +90,8 @@ def create_sparse_combinantions(values: Iterable) -> set:
 
				     """
			
 
				     sparse_combinantions = []
			
 
				     for value in values :
			
 
				-        for idx in range(len(values)) :
			
 
				-            sparse_values = [0.0] * len(values)
			
 
				+        for idx in range(variables) :
			
 
				+            sparse_values = [0.0] * variables
			
 
				             sparse_values[idx] = value
			
 
				             sparse_combinantions.append(tuple(sparse_values))
			
 
				     return set(sparse_combinantions)
			
@@ -101,15 +101,14 @@ def test(json_files_directory, models_directory, train_files, add_noise=True) :
 
				     This function will test the language models on CHILDES corpora
			
 
				     """
			
 
				     columns = ["language", "typology", "family", "speaker",\
			
 
				-                "age", "perplexity", "entropy", "mlu", "mlu_without_repetition",\
			
 
				-                "phonemes_order_noise", "speakers_noise_adult",\
			
 
				-                "speakers_noise_child", "phonemes_noise"]
			
 
				+                "age", "perplexity", "entropy", "phonemes_order_noise",\
			
 
				+                "speakers_noise", "phonemes_noise"]
			
 
				     results = pd.DataFrame(columns=columns, index=None)
			
 
				     # all_combinations = (list(product((0.0, 0.25, 0.5, 0.75), repeat=4))
			
 
				     #                       if add_noise else [((0.0, 0.0, 0.0, 0.0))])
			
 
				-    sparse_combinantions = create_sparse_combinantions((0.0, 0.25, 0.5, 0.75))
			
 
				+    sparse_combinantions = create_sparse_combinantions((0.0, 0.25, 0.5, 0.75, 1))
			
 
				     # noise_values = np.linspace(0.0, 1.0, num=6)
			
 
				-    for phonemes_noise, speakers_noise_child, speakers_noise_adult, phonemes_order_noise in tqdm(sparse_combinantions, total=len(sparse_combinantions)) :
			
 
				+    for phonemes_noise, speakers_noise, phonemes_order_noise in tqdm(sparse_combinantions, total=len(sparse_combinantions)) :
			
 
				         for test_filename, model_filename in product(os.listdir(json_files_directory), os.listdir(models_directory)) :
			
 
				             lg_iso, _ = test_filename.split(".")
			
 
				             model_lg = model_filename.split(".")[0]
			
@@ -120,7 +119,7 @@ def test(json_files_directory, models_directory, train_files, add_noise=True) :
 
				             if add_noise :
			
 
				                 noise = Noise(most_probable_phonemes,
			
 
				                                 phonemes_order_noise_value=phonemes_order_noise,
			
 
				-                                speakers_noise_values=(speakers_noise_child, speakers_noise_adult),
			
 
				+                                speakers_noise_values=(speakers_noise, speakers_noise),
			
 
				                                 phonemes_noise_value=phonemes_noise)
			
 
				                 loaded_json = noise(loaded_json)
			
 
				             model = kenlm.Model(f"{models_directory}/{model_filename}")
			
@@ -129,21 +128,19 @@ def test(json_files_directory, models_directory, train_files, add_noise=True) :
 
				                     if age == "None" : print(family, lg_iso, age); continue
			
 
				                     for speaker in loaded_json[family][age] :
			
 
				                         if speaker not in ["Adult", "Target_Child"] : continue
			
 
				-                        results_statistics = statistics_word(loaded_json[family][age][speaker], model)
			
 
				+                        # results_statistics = statistics_word(loaded_json[family][age][speaker], model)
			
 
				                         language, typology = LANGUAGES_TYPOLOGIES[lg_iso]
			
 
				+                        ppl = model.perplexity("\n".join(loaded_json[family][age][speaker]))
			
 
				+                        entropy = log(ppl)
			
 
				                         new_row =  {"language" : language,
			
 
				                                     "typology" : typology,
			
 
				                                     "family" : family,
			
 
				                                     "speaker" : speaker,
			
 
				                                     "age" : float(age),
			
 
				-                                    "perplexity" : results_statistics["ppl"],
			
 
				-                                    "entropy" : results_statistics["entropy"],
			
 
				-                                    "mlu_w" : results_statistics["mlu_w"],
			
 
				-                                    "mlu_p" : results_statistics["mlu_p"],
			
 
				-                                    "ttr_w" : results_statistics["ttr_w"],
			
 
				+                                    "perplexity" : ppl,
			
 
				+                                    "entropy" : entropy,
			
 
				                                     "phonemes_order_noise" : phonemes_order_noise,
			
 
				-                                    "speakers_noise_adult" : speakers_noise_adult,
			
 
				-                                    "speakers_noise_child" : speakers_noise_child,
			
 
				+                                    "speakers_noise" : speakers_noise,
			
 
				                                     "phonemes_noise" : phonemes_noise}
			
 
				                         results = results.append(new_row, ignore_index=True)
			
 
				     return results
			
@@ -151,11 +148,11 @@ if __name__ == "__main__":
 
				     from argparse import ArgumentParser, BooleanOptionalAction
			
 
				 
			
 
				     parser = ArgumentParser()
			
 
				-    parser.add_argument('--train_directory',
			
 
				+    parser.add_argument('--train_files_directory',
			
 
				         required=True,
			
 
				         help="The directory containing the train files tokenized in phonemes."
			
 
				         )
			
 
				-    parser.add_argument('--models_directory',
			
 
				+    parser.add_argument('--model_files_directory',
			
 
				         required=True,
			
 
				         help="The directory containing the trained language models."
			
 
				         )
			
@@ -172,8 +169,8 @@ if __name__ == "__main__":
 
				     args = parser.parse_args()
			
 
				     add_noise = args.add_noise
			
 
				     json_files_directory = args.json_files_directory
			
 
				-    phoneme_train_files = args.train_directory
			
 
				-    models_directory = args.models_directory
			
 
				+    phoneme_train_files = args.train_files_directory
			
 
				+    models_directory = args.model_files_directory
			
 
				 
			
 
				     if not os.path.exists("results"):
			
 
				         os.makedirs("results")
			
--- a/code/utterances_cleaner.py
+++ b/code/utterances_cleaner.py
@@ -1,4 +1,3 @@
 
				-# pylint: disable=no-member
			
 
				 """This module contains an implementation of a class that help /
			
 
				     to clean orthographic or IPA transcripts of utterances. /
			
 
				     Crucially, this class will clean utterances by removing or replacing /
			
@@ -8,9 +7,11 @@
 
				 import re
			
 
				 import string
			
 
				 
			
 
				-
			
 
				 class UtterancesCleaner :
			
 
				     """
			
 
				+    This class will clean utterances from CHILDES,\
			
 
				+    by deleting words, patterns, ponctuation or replacing\
			
 
				+    or replacing them by other things.
			
 
				     """
			
 
				     def __init__(self, markers: dict) :
			
 
				         self.delete_marker_pattern = '|'.join(markers["marker_to_delete"])
			
@@ -27,12 +28,12 @@ class UtterancesCleaner :
 
				 
			
 
				         Parameters
			
 
				         ----------
			
 
				-        - utterance : list
			
 
				-            list of words utterance
			
 
				-        - pattern : list
			
 
				-            regex pattern containing markers to delete from the utterance
			
 
				+        - utterance : str
			
 
				+            Utterance from which markers will be replaced
			
 
				+        - pattern : str
			
 
				+            Regex pattern containing markers to delete from the utterance
			
 
				         - replacement :
			
 
				-            symbol that will replace markers
			
 
				+            Symbol that will replace markers
			
 
				         """
			
 
				         return " ".join(re.sub(pattern, replacement, word) for word in utterance.split(" "))
			
 
				 
			
@@ -43,8 +44,8 @@ class UtterancesCleaner :
 
				 
			
 
				         Parameters
			
 
				         ----------
			
 
				-        - utterance : list
			
 
				-            list of words utterance
			
 
				+        - utterance : str
			
 
				+            Utterance from which those words will be removed
			
 
				         """
			
 
				         return " ".join(word for word in utterance.split(" ") \
			
 
				             if not re.match(self.word_contains_delete_pattern, word))
			
@@ -57,14 +58,14 @@ class UtterancesCleaner :
 
				         ----------
			
 
				         - utterance : str
			
 
				             The utterance from which the punctuation will be removed.
			
 
				-        
			
 
				+
			
 
				         Returns
			
 
				         -------
			
 
				         str :
			
 
				             The utterance without punctuations.
			
 
				         """
			
 
				         return utterance.translate(str.maketrans('', '', string.punctuation))
			
 
				-    
			
 
				+
			
 
				     def remove_brackets(self, utterance: str) -> str :
			
 
				         """
			
 
				         Remove brackets from a given utterance.
			
@@ -73,7 +74,7 @@ class UtterancesCleaner :
 
				         ----------
			
 
				         - utterance : str
			
 
				             The utterance from which the brackets will be removed.
			
 
				-        
			
 
				+
			
 
				         Returns
			
 
				         -------
			
 
				         str :
			
@@ -82,6 +83,15 @@ class UtterancesCleaner :
 
				         return re.sub(r"[\(\[].*?[\)\]]", '', utterance)
			
 
				 
			
 
				     def handle_repetitions(self, utterance: str) -> str:
			
 
				+        """
			
 
				+        This function will repeat n times some units from\
			
 
				+        a give utterance.
			
 
				+
			
 
				+        Parameters
			
 
				+        ----------
			
 
				+        utterance: str
			
 
				+            Utterance from which some units will be repeated.
			
 
				+        """
			
 
				         while True:
			
 
				             matched = re.search(self.pattern_repetition, utterance)
			
 
				 
			
@@ -91,13 +101,27 @@ class UtterancesCleaner :
 
				             all_match = matched.group(0)
			
 
				             separator = matched.group(1)
			
 
				             word, repetitions = matched.group(2),matched.group(3)
			
 
				-            repeated_word = '{}{}'.format(separator, ' '.join([word] * int(repetitions)))
			
 
				+            repeated_word = f"{separator}{' '.join([word] * int(repetitions))}"
			
 
				 
			
 
				             utterance = utterance.replace(all_match, repeated_word, 1)
			
 
				 
			
 
				         return utterance
			
 
				-    
			
 
				+
			
 
				     def remove_multiple_spaces(self, utterance: str) -> str :
			
 
				+        """
			
 
				+        Remove multiple spaces from a given utterance.
			
 
				+
			
 
				+        Parameters
			
 
				+        ----------
			
 
				+        utterance: str
			
 
				+            Utterance from which multiple successive spaces\
			
 
				+            will be replaced.
			
 
				+
			
 
				+        Returns
			
 
				+        -------
			
 
				+        - str
			
 
				+            Utterance without multiple successive spaces.
			
 
				+        """
			
 
				         return re.sub(' +', ' ', utterance)
			
 
				 
			
 
				     def clean(self, utterance: str) -> str :
			
@@ -108,18 +132,19 @@ class UtterancesCleaner :
 
				 
			
 
				         Parameters
			
 
				         ----------
			
 
				-        - utterances : list
			
 
				-            list of utterances to clean
			
 
				+        - utterances : str
			
 
				+            Utterance to clean
			
 
				         Returns
			
 
				         -------
			
 
				-        - generator over cleaned utterances
			
 
				+        - str
			
 
				+            Cleaned utterance
			
 
				         """
			
 
				         utterance = self.handle_repetitions(utterance)
			
 
				         utterance = self.replace_marker(utterance, self.delete_marker_pattern, "")
			
 
				         utterance = self.delete_words(utterance)
			
 
				         utterance = self.replace_marker(utterance, self.poncts_to_delete_pattern, "")
			
 
				         utterance = self.replace_marker(utterance, self.delete_comments_pattern, "")
			
 
				-        utterance = self.replace_marker(utterance, self.replace_unk_pattern, "") # pour mot non retranscrit
			
 
				+        utterance = self.replace_marker(utterance, self.replace_unk_pattern, "")
			
 
				         utterance = self.remove_brackets(utterance)
			
 
				         utterance = self.remove_ponctuations(utterance)
			
 
				         utterance = self.remove_multiple_spaces(utterance)
			
--- a/commands_reproduction.txt
+++ b/commands_reproduction.txt
@@ -1 +0,0 @@
 
				-.git/annex/objects/8v/Zm/MD5E-s459--11999fdb245d2931764986dd3e7ee155.txt/MD5E-s459--11999fdb245d2931764986dd3e7ee155.txt
			
--- a/datasets/childes_json_corpora/da.json
+++ b/datasets/childes_json_corpora/da.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/4W/Xg/MD5E-s2940316--507efe8e52bf5ce75f8df711d87d1f38.json/MD5E-s2940316--507efe8e52bf5ce75f8df711d87d1f38.json
			
 
				+../../.git/annex/objects/pQ/K0/MD5E-s2929654--c67f2b9d013cecd89ad1f90d3f1042d1.json/MD5E-s2929654--c67f2b9d013cecd89ad1f90d3f1042d1.json
			
--- a/datasets/childes_json_corpora/de.json
+++ b/datasets/childes_json_corpora/de.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/m8/K7/MD5E-s45738282--c42b1e618dc3371fc04798b8aec56033.json/MD5E-s45738282--c42b1e618dc3371fc04798b8aec56033.json
			
 
				+../../.git/annex/objects/V1/pk/MD5E-s45122753--28c70804c58919db510891f7cd21e9ad.json/MD5E-s45122753--28c70804c58919db510891f7cd21e9ad.json
			
--- a/datasets/childes_json_corpora/en.json
+++ b/datasets/childes_json_corpora/en.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/mM/Fk/MD5E-s32246267--53fa0ec80e98ef57b52100fa3e52a686.json/MD5E-s32246267--53fa0ec80e98ef57b52100fa3e52a686.json
			
 
				+../../.git/annex/objects/3m/jj/MD5E-s32243800--1e4701d6cc0a5ce2362254232cdd1818.json/MD5E-s32243800--1e4701d6cc0a5ce2362254232cdd1818.json
			
--- a/datasets/childes_json_corpora/es.json
+++ b/datasets/childes_json_corpora/es.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/qz/0X/MD5E-s7528611--1534de247b52108a71b2c32d24a2a07a.json/MD5E-s7528611--1534de247b52108a71b2c32d24a2a07a.json
			
 
				+../../.git/annex/objects/8g/pZ/MD5E-s7526224--8c4754f17b5bfbb314384bcc8da75abb.json/MD5E-s7526224--8c4754f17b5bfbb314384bcc8da75abb.json
			
--- a/datasets/childes_json_corpora/et.json
+++ b/datasets/childes_json_corpora/et.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/1x/Gv/MD5E-s8512506--8f79ccb462b01e1ca3ef1ff5ae5461cd.json/MD5E-s8512506--8f79ccb462b01e1ca3ef1ff5ae5461cd.json
			
 
				+../../.git/annex/objects/6G/qj/MD5E-s8510895--eda1192d7270394f8c8f803cf32e98d8.json/MD5E-s8510895--eda1192d7270394f8c8f803cf32e98d8.json
			
--- a/datasets/childes_json_corpora/eu.json
+++ b/datasets/childes_json_corpora/eu.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/gw/pQ/MD5E-s1472131--5b9acb68d334a8e8682beb740356dc91.json/MD5E-s1472131--5b9acb68d334a8e8682beb740356dc91.json
			
 
				+../../.git/annex/objects/Mj/k6/MD5E-s1471684--5a1181aa8b8978b87a9dc0c892037c7a.json/MD5E-s1471684--5a1181aa8b8978b87a9dc0c892037c7a.json
			
--- a/datasets/childes_json_corpora/fr.json
+++ b/datasets/childes_json_corpora/fr.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/jq/Vx/MD5E-s3234823--ca293387898ab63ac7c7794b873f9e0c.json/MD5E-s3234823--ca293387898ab63ac7c7794b873f9e0c.json
			
 
				+../../.git/annex/objects/WJ/Fq/MD5E-s3229799--9ca02feed25b6e39d947530451144a3b.json/MD5E-s3229799--9ca02feed25b6e39d947530451144a3b.json
			
--- a/datasets/childes_json_corpora/ja.json
+++ b/datasets/childes_json_corpora/ja.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/Vk/mV/MD5E-s7591871--e2e5bc66db54eaf1b073a6d115d86a04.json/MD5E-s7591871--e2e5bc66db54eaf1b073a6d115d86a04.json
			
 
				+../../.git/annex/objects/mM/fW/MD5E-s7576050--1345451c2cb335107bca1b2b76f787a6.json/MD5E-s7576050--1345451c2cb335107bca1b2b76f787a6.json
			
--- a/datasets/childes_json_corpora/pl.json
+++ b/datasets/childes_json_corpora/pl.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/WM/qg/MD5E-s16258378--858cf5b3b3eaa45e0146ba94778f0fe5.json/MD5E-s16258378--858cf5b3b3eaa45e0146ba94778f0fe5.json
			
 
				+../../.git/annex/objects/W8/Pv/MD5E-s16205319--65fa716e7e1bf98973d28b6a0825ab90.json/MD5E-s16205319--65fa716e7e1bf98973d28b6a0825ab90.json
			
--- a/datasets/childes_json_corpora/pt.json
+++ b/datasets/childes_json_corpora/pt.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/Qf/kG/MD5E-s6161273--53ac1b2e1337d602434858fb01393f5b.json/MD5E-s6161273--53ac1b2e1337d602434858fb01393f5b.json
			
 
				+../../.git/annex/objects/F0/WM/MD5E-s6160640--c494b016644486e985bdf66ee5026f24.json/MD5E-s6160640--c494b016644486e985bdf66ee5026f24.json
			
--- a/datasets/childes_json_corpora/sr.json
+++ b/datasets/childes_json_corpora/sr.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/0w/3x/MD5E-s7914319--f4e61920a973cda4ec9629c33959a501.json/MD5E-s7914319--f4e61920a973cda4ec9629c33959a501.json
			
 
				+../../.git/annex/objects/jJ/FF/MD5E-s7911866--42b4530f71f2f27b6b3a8bae229d7f8d.json/MD5E-s7911866--42b4530f71f2f27b6b3a8bae229d7f8d.json
			
--- a/datasets/childes_json_corpora/tr.json
+++ b/datasets/childes_json_corpora/tr.json
@@ -1 +1 @@
 
				-../../.git/annex/objects/ZG/V9/MD5E-s913674--2990a8cf6fd26ef03c0c28154606bbb6.json/MD5E-s913674--2990a8cf6fd26ef03c0c28154606bbb6.json
			
 
				+../../.git/annex/objects/7J/KZ/MD5E-s913366--6c2544ff0dad5f838aee28aa3cc31287.json/MD5E-s913366--6c2544ff0dad5f838aee28aa3cc31287.json
			
--- a/datasets/childes_one_utterance_per_line_files/da.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/da.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/81/8Z/MD5E-s4522557--f2af9f79413a10c65273a1b3e8ebdae5/MD5E-s4522557--f2af9f79413a10c65273a1b3e8ebdae5
			
--- a/datasets/childes_one_utterance_per_line_files/de.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/de.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/VP/k7/MD5E-s48271457--1571db7b4153ac79aa881130cbb180c4/MD5E-s48271457--1571db7b4153ac79aa881130cbb180c4
			
--- a/datasets/childes_one_utterance_per_line_files/en.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/en.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/03/Fm/MD5E-s39751512--db561b3c2b236c543d148d4be6c68302/MD5E-s39751512--db561b3c2b236c543d148d4be6c68302
			
--- a/datasets/childes_one_utterance_per_line_files/es.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/es.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/68/37/MD5E-s13920227--df0a021631fc74f8b7a21ad2947a0e8f/MD5E-s13920227--df0a021631fc74f8b7a21ad2947a0e8f
			
--- a/datasets/childes_one_utterance_per_line_files/et.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/et.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/wz/mq/MD5E-s12262395--56255fe3e6502be7117803bed1891236/MD5E-s12262395--56255fe3e6502be7117803bed1891236
			
--- a/datasets/childes_one_utterance_per_line_files/eu.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/eu.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/Km/XJ/MD5E-s2347275--3ff726a380f86ea7829070770d3a5add/MD5E-s2347275--3ff726a380f86ea7829070770d3a5add
			
--- a/datasets/childes_one_utterance_per_line_files/fr.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/fr.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/1J/VJ/MD5E-s4950748--53eb94bc964b4944c4786e0bc116aa12/MD5E-s4950748--53eb94bc964b4944c4786e0bc116aa12
			
--- a/datasets/childes_one_utterance_per_line_files/ja.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/ja.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/g0/q2/MD5E-s11677950--362fdb2c641231bac1a59772d4347984/MD5E-s11677950--362fdb2c641231bac1a59772d4347984
			
--- a/datasets/childes_one_utterance_per_line_files/not_downloaded_data.txt
+++ b/datasets/childes_one_utterance_per_line_files/not_downloaded_data.txt
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/93/1P/MD5E-s103--3d2a6963fc888f7069784dc560979713.txt/MD5E-s103--3d2a6963fc888f7069784dc560979713.txt
			
--- a/datasets/childes_one_utterance_per_line_files/pl.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/pl.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/XK/Zj/MD5E-s15486053--8e85693f81dcd0d4432983c9d47e568a/MD5E-s15486053--8e85693f81dcd0d4432983c9d47e568a
			
--- a/datasets/childes_one_utterance_per_line_files/pt.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/pt.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/z1/7V/MD5E-s8140234--9401d864c5b1263e16f740b85ac1b3d9/MD5E-s8140234--9401d864c5b1263e16f740b85ac1b3d9
			
--- a/datasets/childes_one_utterance_per_line_files/sr.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/sr.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/MW/81/MD5E-s13343895--deccb5e7ad1ac130de88bd7bbb107ece/MD5E-s13343895--deccb5e7ad1ac130de88bd7bbb107ece
			
--- a/datasets/childes_one_utterance_per_line_files/tr.one_utterance_per_line
+++ b/datasets/childes_one_utterance_per_line_files/tr.one_utterance_per_line
@@ -0,0 +1 @@
 
				+../../.git/annex/objects/Fw/F5/MD5E-s1229238--b544181cb4b319bb4ef87b348c91a9cb/MD5E-s1229238--b544181cb4b319bb4ef87b348c91a9cb
			
--- a/estimated/da.one_sentence_per_line.arpa
+++ b/estimated/da.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/5x/74/MD5E-s28028840--71fbf9fb169884d736da26c047e16f4e.arpa/MD5E-s28028840--71fbf9fb169884d736da26c047e16f4e.arpa
			
--- a/estimated/de.one_sentence_per_line.arpa
+++ b/estimated/de.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/Z2/0W/MD5E-s22540364--11e64685c900b25e47a7c2a137dd7a9b.arpa/MD5E-s22540364--11e64685c900b25e47a7c2a137dd7a9b.arpa
			
--- a/estimated/en.one_sentence_per_line.arpa
+++ b/estimated/en.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/KG/5q/MD5E-s31436879--847b2a7d2e5210d87f638963a8764808.arpa/MD5E-s31436879--847b2a7d2e5210d87f638963a8764808.arpa
			
--- a/estimated/es.one_sentence_per_line.arpa
+++ b/estimated/es.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/Zq/pj/MD5E-s10061705--b466f7fc80c31c74891f85256d324c43.arpa/MD5E-s10061705--b466f7fc80c31c74891f85256d324c43.arpa
			
--- a/estimated/et.one_sentence_per_line.arpa
+++ b/estimated/et.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/w4/9Q/MD5E-s18873182--89176dfdd746dd62fe277cf760489709.arpa/MD5E-s18873182--89176dfdd746dd62fe277cf760489709.arpa
			
--- a/estimated/eu.one_sentence_per_line.arpa
+++ b/estimated/eu.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/vZ/2G/MD5E-s12176188--ae20d403fb51fef0b7572521b95d47a9.arpa/MD5E-s12176188--ae20d403fb51fef0b7572521b95d47a9.arpa
			
--- a/estimated/fr.one_sentence_per_line.arpa
+++ b/estimated/fr.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/QG/ff/MD5E-s20901089--1873e4fa871af748a4028e962a941b74.arpa/MD5E-s20901089--1873e4fa871af748a4028e962a941b74.arpa
			
--- a/estimated/ja.one_sentence_per_line.arpa
+++ b/estimated/ja.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/6W/kM/MD5E-s8026445--d320df753b865052827e96c0be67e418.arpa/MD5E-s8026445--d320df753b865052827e96c0be67e418.arpa
			
--- a/estimated/pl.one_sentence_per_line.arpa
+++ b/estimated/pl.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/5j/46/MD5E-s23833364--0c4492ab80d3c7f37ff923288dc88d80.arpa/MD5E-s23833364--0c4492ab80d3c7f37ff923288dc88d80.arpa
			
--- a/estimated/pt.one_sentence_per_line.arpa
+++ b/estimated/pt.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/ZF/pz/MD5E-s22346672--1a9f56836b07f9a0d981e329ce47e1c9.arpa/MD5E-s22346672--1a9f56836b07f9a0d981e329ce47e1c9.arpa
			
--- a/estimated/sr.one_sentence_per_line.arpa
+++ b/estimated/sr.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/6M/xg/MD5E-s20755431--b4f26a89a36c9c4a61bb39a00c83c116.arpa/MD5E-s20755431--b4f26a89a36c9c4a61bb39a00c83c116.arpa
			
--- a/estimated/tr.one_sentence_per_line.arpa
+++ b/estimated/tr.one_sentence_per_line.arpa
@@ -0,0 +1 @@
 
				+../.git/annex/objects/Gf/70/MD5E-s18935056--4fe9ce073a5c9cb9e601fa1424524c3a.arpa/MD5E-s18935056--4fe9ce073a5c9cb9e601fa1424524c3a.arpa
			
--- a/final_results_analysis.Rmd
+++ b/final_results_analysis.Rmd
@@ -0,0 +1 @@
 
				+.git/annex/objects/QF/K4/MD5E-s8054--5b841a6350a21641fbf42de9283b83a3.Rmd/MD5E-s8054--5b841a6350a21641fbf42de9283b83a3.Rmd
			
--- a/results/results.csv
+++ b/results/results.csv
@@ -0,0 +1 @@
 
				+../.git/annex/objects/V1/Q3/MD5E-s10147494--3d57c9e2bb1e22146849572799f84041.csv/MD5E-s10147494--3d57c9e2bb1e22146849572799f84041.csv
		`@@ -1 +0,0 @@`
		`-.git/annex/objects/8v/Zm/MD5E-s459--11999fdb245d2931764986dd3e7ee155.txt/MD5E-s459--11999fdb245d2931764986dd3e7ee155.txt`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/81/8Z/MD5E-s4522557--f2af9f79413a10c65273a1b3e8ebdae5/MD5E-s4522557--f2af9f79413a10c65273a1b3e8ebdae5`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/VP/k7/MD5E-s48271457--1571db7b4153ac79aa881130cbb180c4/MD5E-s48271457--1571db7b4153ac79aa881130cbb180c4`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/03/Fm/MD5E-s39751512--db561b3c2b236c543d148d4be6c68302/MD5E-s39751512--db561b3c2b236c543d148d4be6c68302`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/68/37/MD5E-s13920227--df0a021631fc74f8b7a21ad2947a0e8f/MD5E-s13920227--df0a021631fc74f8b7a21ad2947a0e8f`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/wz/mq/MD5E-s12262395--56255fe3e6502be7117803bed1891236/MD5E-s12262395--56255fe3e6502be7117803bed1891236`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/Km/XJ/MD5E-s2347275--3ff726a380f86ea7829070770d3a5add/MD5E-s2347275--3ff726a380f86ea7829070770d3a5add`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/1J/VJ/MD5E-s4950748--53eb94bc964b4944c4786e0bc116aa12/MD5E-s4950748--53eb94bc964b4944c4786e0bc116aa12`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/g0/q2/MD5E-s11677950--362fdb2c641231bac1a59772d4347984/MD5E-s11677950--362fdb2c641231bac1a59772d4347984`
		`@@ -0,0 +1 @@`
		`+../../.git/annex/objects/93/1P/MD5E-s103--3d2a6963fc888f7069784dc560979713.txt/MD5E-s103--3d2a6963fc888f7069784dc560979713.txt`