Skip to content
This repository was archived by the owner on Nov 27, 2019. It is now read-only.

Commit 327a71a

Browse files
committed
Foredrag ferdig
1 parent a1aa0e9 commit 327a71a

File tree

9 files changed

+70
-12
lines changed

9 files changed

+70
-12
lines changed

tex/eksempel.html

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -2,9 +2,9 @@
22
<head>
33
<title>Digge studier ved UiO</title>
44
</head>
5-
65
<body>
76
<h1>Studentliv ved UiO</h1>
87
<p>Det er mye digge studier ved UiO</p>
8+
<img src="bilde.jpg">
99
</body>
1010
</html>

tex/eksempel2.html

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,11 @@
1+
<html>
2+
<head>
3+
<title>Digge studier ved UiO</title>
4+
</head>
5+
6+
<body>
7+
<h1>Studentliv ved UiO</h1>
8+
<p>Det er mye digge studier ved UiO</p>
9+
<img src="bilde.jpg" alt="bilde">
10+
</body>
11+
</html>

tex/re.pdf

23 KB
Binary file not shown.

tex/re.tex

Lines changed: 39 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -71,23 +71,55 @@
7171

7272
\begin{frame}
7373
Med dette kan vi begynne å crawle Webben for info.
74-
For eksempel, hvordan vil du prøve å finne tittelen på
74+
For eksempel, hvordan vil du prøve å finne bildet i
7575
dette dokument?
76-
\lstinputlisting[language=html]{eksempel.html}
76+
\lstinputlisting[language=html]{eksempel2.html}
7777
\end{frame}
7878

7979
\begin{frame}
80-
Vi vet at tittelen må starte med ``\textless~title~\textgreater'' og slutte med
81-
``\textless~/title~\textgreater''. Hva som er inni der er uvisst/
80+
Vi vet at bilder må starte med ``\textless~img'' og slutte med
81+
``\textgreater~''. Hva som er inni der er uvisst/
8282
Så om vi ikke vet hva som er der, så kan vi bruke ``.'', som
8383
representerer hvilken som helst bokstav. Men vi trenger den
8484
mer enn 1 gang. Hvordan løser vi det problemet?
8585
``*'' vil ta et symbol mer enn 1 gang. ``.*'' vil da ta hva
8686
som helst.
87-
Så da prøver vi ``\textless~title~\textgreater.*\textless~/title~\textgreater''
88-
Da vil du kunne finne ut om et dokument har en tittel, men for å
87+
Så da prøver vi '\textless~img.*src=''.*''.*~\textgreater'
88+
Da vil du kunne finne ut om et dokument har et bilde, men for å
8989
hente det ut, må vi bruke ().
90-
``\textless~title~\textgreater(.*)~\textless~/title~\textgreater''
90+
'\textless~img src=''(.*)'' \textgreater'
91+
\end{frame}
92+
93+
\begin{frame}
94+
\frametitle{Problem}
95+
Et problem med denne koden
96+
\lstinputlisting[language=python]{rebilde.py}
97+
\end{frame}
98+
99+
\begin{frame}
100+
\frametitle{Symbolet ?}
101+
102+
? kan bety to ting
103+
\begin{itemize}
104+
\item sammen med * betyr det at du vil prøve å finne
105+
så lite som mulig med denne stjernen.
106+
\item sammen med alt annet, betyr at det rett forran
107+
kan forekomme 0 eller 1 gang
108+
\end{itemize}
109+
110+
Det er veldig greit om du skal unngå å få feil ting tilbake.
111+
\end{frame}
112+
113+
\begin{frame}
114+
Så hvis vi prøver igjen, der vi pakker ? på alle stjernene våre,
115+
slik at vi leter etter så lite som mulig hver omgang.
116+
Da får vi '\textless~img.*?src=''(.*?)''.*?\textgreater~'
117+
la oss prøve
118+
\end{frame}
119+
120+
\begin{frame}
121+
Prøv på en live webside ved bruk av urllib
122+
og urlopen.
91123
\end{frame}
92124

93125
\end{document}

tex/re2_1.py

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -7,5 +7,5 @@
77
# En tekst vi vil lete i.
88
tekst = "det var en gang en hund som het Arne."
99

10-
# Let etter svar
11-
resultat = re.search(det_vi_leter_etter, tekst)
10+
# Fin alle muligheter.
11+
resultat = re.findall(det_vi_leter_etter, tekst)

tex/re2_2.py

Lines changed: 0 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -7,4 +7,3 @@
77
else:
88
# Da sier vi at vi ikke har funnet noe
99
print det_vi_leter_etter," finnes ikke i teksten."
10-

tex/rebilde.py

Lines changed: 8 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,8 @@
1+
import re
2+
3+
tekst = '<html><head><title>Digge studier ved UiO</title></head><body><h1>Studentliv ved UiO</h1><p>Det er mye digge studier ved UiO</p><img src="bilde.jpg" alt="bilde"></body></html>'
4+
5+
det_vi_leter_etter = r'<img.*src="(.*)".*>'
6+
7+
resultat = re.findall(det_vi_leter_etter, tekst)
8+
print resultat

tex/rebildefixed.py

Lines changed: 8 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,8 @@
1+
import re
2+
3+
tekst = '<html><head><title>Digge studier ved UiO</title></head><body><h1>Studentliv ved UiO</h1><p>Det er mye digge studier ved UiO</p><img src="bilde.jpg" alt="bilde"></body></html>'
4+
5+
det_vi_leter_etter = r'<img.*?src="(.*?)".*?>'
6+
7+
resultat = re.findall(det_vi_leter_etter, tekst)
8+
print resultat

tex/redot.py

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@
33
det_vi_leter_etter = "h..d" # Her er det vi leter etter
44

55
tekst = "det var en gang en hund som het Arne."
6-
resultat = re.search(det_vi_leter_etter, tekst)
6+
resultat = re.findall(det_vi_leter_etter, tekst)
77

88
if resultat:
99
print det_vi_leter_etter," finnes i teksten."

0 commit comments

Comments
 (0)