In [None]:
corpus_file = 'talbanken-dep-train.conll'

## En sak att tänka på när man itererar över ett filobjekt

Det finns en viktig skillnad mellan att iterera över filobjekt och att iterera över listor: En lista finns fullständigt representerad i datorns minne, så ni kan iterera över den hur många gånger ni vill. När ni har ett filobjekt så lagras inte hela filens innehåll i minnet, utan raderna i filen läses in under iterationen. Har man nått filens ände så finns inga fler rader att läsa och filen är &rdquo;förbrukad&rdquo; &ndash; vill man iterera en gång till behöver man öppna filen igen. Kör följande kod för att se ett exempel:

In [None]:
with open(corpus_file) as f:
    for line in f:
        pass
    for line in f:
        print('Denna rad kommer aldrig att köras.')
        break

Vill man ha raderna i ett filobjekt `f` som en lista kan få en sådan genom via metoden `f.readlines()` eller genom att skriva `list(f)`. När man väl har sparat raderna till en lista kan man iterera över denna lista hur många gånger man vill. Följande kod visar skillnaden:

In [None]:
with open(corpus_file) as f:
    lines = list(f)    # eller f.readlines()
    for line in lines:
        pass
    for line in lines:
        print('Denna rad körs!')
        break

<div class="alert alert-warning">
Filer med språkliga data kan ibland vara väldigt stora. Försök undvika att spara dem i datorns minne. Försök att lösa problem genom att iterera över filen istället!
</div>

## En generatorfunktion för meningar

En uppgift i veckans laboration är att få ut *alla* meningar i en CoNLL-X-fil i den nästlade representationen. Ett sätt att göra detta är att skriva en funktion som returnerar alla meningar i en lista, men en sådan lista kräver mycket minne när det finns många meningar.

Istället för en funktion som returnerar en lista ska ni skriva en så kallad **generatorfunktion**. En generatorfunktion är, förenklat sagt, en funktion som genererar värden man sedan kan iterera över. Här är ett mycket simpelt exempel: En generatorfunktion för talen 2, 4, 6.

In [None]:
def generate1():
    yield 2    # värdet för 1:a iterationen av for-slingan
    yield 4    # värdet för 2:a iterationen
    yield 6    # värdet för 3:e iterationen

for i in generate1():
    print(i)

En generatorfunktion innehåller nyckelordet `yield` istället för nyckelordet `return`. När man itererar över resultatet av en generatorfunktion så exekverar funktionen all kod upp till och inklusive det första anropet av `yield` och skickar det värde som står till höger om `yield` tillbaka till iterationen. Vid nästa iteration körs all kod upp till och inklusive det andra anropet av `yield`, och så vidare.

Här är ett mera komplicerat exempel som genererar samma resultat som den första men visar att en generatorfunktion själv kan innehålla en slinga.

In [None]:
def generate2():
    for n in range(3):
        yield 2*(n+1)

for i in generate2():
    print(i)

Och här är en funktion som genererar de fyra första raderna i ett filobjekt. Poängen med detta exempel är att visa att en generatorfunktion kan ha en lokal variabel, i det här fallet en räknare&nbsp;`i`:

In [None]:
def generate3(f):
    i = 0
    for line in f:
        yield line
        i += 1
        if i >= 4:
            break

with open(corpus_file) as f:
    for line in generate3(f):
        print(line, end='')

Som ni ser så &rdquo;överlever&rdquo; den lokala variabeln `i` mellan olika anrop av `yield`.

Det finns mycket mer att säga om generatorfunktioner. Om ni söker mer information så rekommenderar vi att ni läser [denna tutorial](http://anandology.com/python-practice-book/iterators.html), särskild avsnitt&nbsp;5.2 Generators.

## Oändliga generatorer

Man kan skriva generatorer som genererar oändligt många värden:

In [None]:
def generate4():
    i = 0
    while True:
        yield i
        i += 2

Vi skapar en iterator och binder den till variabeln `it`:

In [None]:
it = generate4()

Varje gång vi anropar `next` på iteratorn så kommer den ge oss ett nytt tal:

In [None]:
next(it)