Foredrag ferdig

subfusc · subfusc · commit 327a71a590cf · 2012-04-06T16:09:19.000+02:00
diff --git a/tex/eksempel.html b/tex/eksempel.html
@@ -2,9 +2,9 @@
   <head>
     <title>Digge studier ved UiO</title>
   </head>
-  
   <body>
     <h1>Studentliv ved UiO</h1>
     <p>Det er mye digge studier ved UiO</p>
+    <img src="bilde.jpg">
   </body>
 </html>
diff --git a/tex/eksempel2.html b/tex/eksempel2.html
@@ -0,0 +1,11 @@
+<html>
+  <head>
+    <title>Digge studier ved UiO</title>
+  </head>
+  
+  <body>
+    <h1>Studentliv ved UiO</h1>
+    <p>Det er mye digge studier ved UiO</p>
+    <img src="bilde.jpg" alt="bilde">
+  </body>
+</html>
diff --git a/tex/re.pdf b/tex/re.pdf
diff --git a/tex/re.tex b/tex/re.tex
@@ -71,23 +71,55 @@
 
 \begin{frame}
   Med dette kan vi begynne å crawle Webben for info.
-  For eksempel, hvordan vil du prøve å finne tittelen på
+  For eksempel, hvordan vil du prøve å finne bildet i
   dette dokument?
-  \lstinputlisting[language=html]{eksempel.html}
+  \lstinputlisting[language=html]{eksempel2.html}
 \end{frame}
 
 \begin{frame}
-  Vi vet at tittelen må starte med ``\textless~title~\textgreater'' og slutte med
-  ``\textless~/title~\textgreater''. Hva som er inni der er uvisst/
+  Vi vet at bilder må starte med ``\textless~img'' og slutte med
+  ``\textgreater~''. Hva som er inni der er uvisst/
   Så om vi ikke vet hva som er der, så kan vi bruke ``.'', som
   representerer hvilken som helst bokstav. Men vi trenger den
   mer enn 1 gang. Hvordan løser vi det problemet?
   ``*'' vil ta et symbol mer enn 1 gang. ``.*'' vil da ta hva 
   som helst.
-  Så da prøver vi ``\textless~title~\textgreater.*\textless~/title~\textgreater''
-  Da vil du kunne finne ut om et dokument har en tittel, men for å
+  Så da prøver vi '\textless~img.*src=''.*''.*~\textgreater'
+  Da vil du kunne finne ut om et dokument har et bilde, men for å
   hente det ut, må vi bruke ().
-  ``\textless~title~\textgreater(.*)~\textless~/title~\textgreater''
+  '\textless~img src=''(.*)'' \textgreater'
+\end{frame}
+
+\begin{frame}
+  \frametitle{Problem}
+  Et problem med denne koden
+  \lstinputlisting[language=python]{rebilde.py}
+\end{frame}
+
+\begin{frame}
+  \frametitle{Symbolet ?}
+  
+  ? kan bety to ting
+  \begin{itemize}
+    \item sammen med * betyr det at du vil prøve å finne 
+      så lite som mulig med denne stjernen.
+    \item sammen med alt annet, betyr at det rett forran
+      kan forekomme 0 eller 1 gang
+    \end{itemize}
+
+    Det er veldig greit om du skal unngå å få feil ting tilbake.
+\end{frame}
+
+\begin{frame}
+Så hvis vi prøver igjen, der vi pakker ? på alle stjernene våre, 
+slik at vi leter etter så lite som mulig hver omgang.
+Da får vi '\textless~img.*?src=''(.*?)''.*?\textgreater~'
+la oss prøve
+\end{frame}
+
+\begin{frame}
+Prøv på en live webside ved bruk av urllib 
+og urlopen.
 \end{frame}
 
 \end{document}
diff --git a/tex/re2_1.py b/tex/re2_1.py
@@ -7,5 +7,5 @@
 # En tekst vi vil lete i.
 tekst = "det var en gang en hund som het Arne."
 
-# Let etter svar
-resultat = re.search(det_vi_leter_etter, tekst)
+# Fin alle muligheter.
+resultat = re.findall(det_vi_leter_etter, tekst)
diff --git a/tex/re2_2.py b/tex/re2_2.py
@@ -7,4 +7,3 @@
 else:
     # Da sier vi at vi ikke har funnet noe
     print det_vi_leter_etter," finnes ikke i teksten."
-
diff --git a/tex/rebilde.py b/tex/rebilde.py
@@ -0,0 +1,8 @@
+import re
+
+tekst = '<html><head><title>Digge studier ved UiO</title></head><body><h1>Studentliv ved UiO</h1><p>Det er mye digge studier ved UiO</p><img src="bilde.jpg" alt="bilde"></body></html>'
+
+det_vi_leter_etter = r'<img.*src="(.*)".*>'
+
+resultat = re.findall(det_vi_leter_etter, tekst)
+print resultat 
diff --git a/tex/rebildefixed.py b/tex/rebildefixed.py
@@ -0,0 +1,8 @@
+import re
+
+tekst = '<html><head><title>Digge studier ved UiO</title></head><body><h1>Studentliv ved UiO</h1><p>Det er mye digge studier ved UiO</p><img src="bilde.jpg" alt="bilde"></body></html>'
+
+det_vi_leter_etter = r'<img.*?src="(.*?)".*?>'
+
+resultat = re.findall(det_vi_leter_etter, tekst)
+print resultat 
diff --git a/tex/redot.py b/tex/redot.py
@@ -3,7 +3,7 @@
 det_vi_leter_etter = "h..d" # Her er det vi leter etter
 
 tekst = "det var en gang en hund som het Arne."
-resultat = re.search(det_vi_leter_etter, tekst)
+resultat = re.findall(det_vi_leter_etter, tekst)
 
 if resultat:
     print det_vi_leter_etter," finnes i teksten."