# Hantera text

Denna notebook introducerar några grundlägande programmeringstekniker för textfiler. Texten som vi kommer jobba med är dikten *En spelmans jordafärd* av Dan Andersson (1888–1920) från [Projekt Runeberg](http://runeberg.org/danvob/) och finns i filen `spelman.txt`.

## Segmentera i rader

Vi börjar med att öppna filen och lägga alla dess rader i en lista `lines`.

In [None]:
lines = []
with open('spelman.txt') as source:
    for line in source:
        lines.append(line)

Vi ser att man kan loopa över raderna i en fil på samma sätt som över elementen i en lista.

Koden i nästa cell skriver ut de 10 första raderna i vår lista:

In [None]:
print(lines[:10])

Vi ser att varje rad avslutas med ett nyradstecken `\n`. För att bli av med det kan vi använda Python-funktionen [`rstrip()`](https://docs.python.org/3/library/stdtypes.html#str.rstrip).

In [None]:
lines = []
with open('spelman.txt') as source:
    for line in source:
        line = line.rstrip()
        lines.append(line)

Vi skriver ut raderna igen för att övertyga oss om att det blev rätt:

In [None]:
print(lines[:10])

Det som vi gjorde på fem rader kan skrivas mer kompakt i två rader:

In [None]:
with open('spelman.txt') as source:
    lines = [line.rstrip() for line in source]

In [None]:
print(lines[:10])

Denna kod använder sig av en så kallad *list comprehension*. [Klicka här för att läsa mer om list comprehensions](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions)

### Frågor

Skapa kodceller och skriv kod för att svara på följande frågor:

1. Hur många rader innehåller filen? Hur många av dem är icke-tomma?
2. Hur lång är den längsta raden? Hur lång är den kortaste raden? Vad är medellängden?
3. Hur många strofer innehåller filen? (Strofer avgränsas genom tomma rader.)

In [None]:
# Fråga 1

print('Antal rader:', len(lines))
print('Antal icke-tomma rader:', sum(1 for l in lines if len(l) > 0))

In [None]:
# Fråga 1 (alternativ lösning)

num_nonempty_lines = 0
for l in lines:
    if len(l) > 0:
        num_nonempty_lines += 1
print('Antal icke-tomma rader:', num_nonempty_lines)

In [None]:
# Fråga 2

print('Längden på den längsta raden:', max(len(l) for l in lines))
print('Längden på den kortaste raden:', min(len(l) for l in lines))

lengths = [len(l) for l in lines]
print('Medellängd:', sum(lengths) / len(lengths))

In [None]:
# Fråga 3

print('Antal strofer:', sum(1 for l in lines if len(l) == 0))

## Segmentera i token

Nu ska vi skapa en lista med alla token (löpord) i filen. Om vi utgår ifrån att token är avgränsade genom blanktecken kan vi använda Python-funktionen [`split()`](https://docs.python.org/3/library/stdtypes.html#str.split) för att dela upp en rad i enstaka token.

In [None]:
tokens = []
with open('spelman.txt') as source:
    for line in source:
        for token in line.split():
            tokens.append(token)

Här kommer några ord enligt denna segmentering:

In [None]:
print(tokens[3:21])

Vi ser att ett problem med den segmentering som vi valt är att interpunktionstecken (t.ex. punkter och kommatecken) sitter kvar vid de ord som de avslutar. För att få bort dem kan vi använda funktionen [`strip()`](https://docs.python.org/3/library/stdtypes.html#str.strip) som tar bort tecken från både vänstra och högra utkanten av en sträng. Här tar vi bort alla tecken i uppsättningen [`string.punctuation`](https://docs.python.org/3/library/string.html#string.punctuation), som innehåller de vanligaste interpunktionstecknen.

In [None]:
import string 

tokens = []
with open('spelman.txt') as source:
    for line in source:
        for token in line.split():
            token = token.strip(string.punctuation)
            tokens.append(token)

För att se vilka tecken exakt som ingår i `string.punctuation` så kan vi skriva ut den:

In [None]:
print(string.punctuation)

Vi skriver ut orden från ovan igen för att övertyga oss om att allting blev rätt:

In [None]:
print(tokens[3:21])

### Frågor

Skapa kodceller och skriv kod för att svara på följande frågor:

1. Hur många löpord innehåller filen?
2. Hur långt är det längsta ordet? Hur långt är det kortaste ordet? Vad är medellängden?

In [None]:
# Fråga 1

print('Antal löpord:', len(tokens))

In [None]:
# Fråga 2

print('Längden på det längsta ordet:', max(len(t) for t in tokens))
print('Längden på det kortaste ordet:', min(len(t) for t in tokens))

lengths = [len(t) for t in tokens]
print('Medellängd:', sum(lengths) / len(lengths))

## Normalisering

I många sammanhang är vi inte intresserade av skillnaden mellan stora och små bokstäver. Genom att använda funktionen [`lower()`](https://docs.python.org/3/library/stdtypes.html#str.lower) kan vi formatera om en sträng till små bokstäver. (Det finns en motsvarande funktion [`upper()`](https://docs.python.org/3/library/stdtypes.html#str.upper) för att formatera om till stora bokstäver.)

In [None]:
tokens = []
with open('spelman.txt') as source:
    for line in source:
        for token in line.split():
            token = token.strip(string.punctuation)
            token = token.lower()
            tokens.append(token)

Så här ser orden ut efter omformateringen:

In [None]:
print(tokens[3:21])

## Unika ord

Istället för att lägga in alla token i en lista kan vi lägga in dem i en mängd (`set`). [Klicka här för att läsa mer om mängder i Python](https://docs.python.org/3/tutorial/datastructures.html#sets)

In [None]:
words = set()
with open('spelman.txt') as source:
    for line in source:
        for token in line.split():
            token = token.strip(string.punctuation)
            token = token.lower()
            words.add(token)

Mängder är intressanta om vi vill få en lista över alla unika ord som förekommer i en text.

In [None]:
print(sorted(words))

### Frågor

Skapa kodceller och skriv kod för att svara på följande frågor:

1. Hur många unika ord innehåller filen?
2. Vad är textens typ/token-kvot (antalet unika ord delat med antalet löpord)?

In [None]:
# Fråga 1

print('Antalet unika ord:', len(words))

In [None]:
# Fråga 2

print('Typ/token-kvot:', len(words) / len(tokens))

## Dictionaries och counters

En annan mycket användbar datastruktur i samband med textbehandling är en dictionary. Här använder vi dictionaries för att räkna hur ofta varje unikt ord förekommer i texten. [Klicka här för att läsa mer om dictionaries i Python](https://docs.python.org/3/tutorial/datastructures.html#dictionaries)

In [None]:
counts = {}
with open('spelman.txt') as source:
    for line in source:
        for token in line.split():
            token = token.strip(string.punctuation)
            token = token.lower()
            counts[token] = counts.get(token, 0) + 1

Koden i nästa cell skriver ut vår dictionary:

In [None]:
print(counts)

Just för denna typ av problem (räkna ut antalet förekomster av varje unikt ord) finns specialklassen [`Counter`](https://docs.python.org/3/library/collections.html#collections.Counter).

In [None]:
from collections import Counter

counts = Counter()
with open('spelman.txt') as source:
    for line in source:
        for token in line.split():
            token = token.strip(string.punctuation)
            token = token.lower()
            counts[token] += 1

In [None]:
print(counts)

### Frågor

Skapa kodceller och skriv kod för att svara på följande frågor:

1. Vilket ord förekommer oftast i filen?
2. Vilken andel av orden förekommer endast en gång?
3. Varför fungerar inte den kod som vi använde för `Counter` med en vanlig `dictionary`?

In [None]:
# Fråga 1

print('Ord som förekommer oftast:', counts.most_common(1)[0])

In [None]:
# Fråga 2

print('Andel ord som förekommer endast 1 gång:', sum(1 for w, c in counts.items() if c == 1) / len(counts))

In [None]:
# Fråga 3

counts = {}
with open('spelman.txt') as source:
    for line in source:
        for token in line.split():
            token = token.strip(string.punctuation)
            token = token.lower()
            counts[token] += 1    # KeyError

Det var allt!